821,10 € – 2.118,20 €

Spark Foundation Training

Eventinformationen

Dieses Event teilen

Datum und Uhrzeit

Veranstaltungsort

Veranstaltungsort

Alexander Thamm GmbH

Sapporobogen 6-8

80637 München

Germany

Karte anzeigen

Beschreibung des Events

Beschreibung

SPF - Spark Foundation Training

Apache Spark hat die Entwicklung komplexer Daten-Pipelines stark vereinfacht und sich damit zu einer der am weitesten verbreiteten Technologien im Big Data Bereich in den letzten Jahren entwickelt. Dies ist zum einen auf Sparks Programmierschnittstellen zurückzuführen, welche die prägnante Formulierung komplexer Datenverarbeitungslogiken ermöglichen und zum anderen auf die hohe Automatisierung bei der verteilten Ausführung durch die Engine von Apache Spark.

Diese Schulung richtet sich an Entwickler mit Programmiererfahrung und bietet einen umfassenden Einstieg in die Entwicklung von Daten-Pipelines mit Apache Spark.

Im Fokus steht dabei der Umgang mit Sparks DataFrame API. Angefangen von den grundlegenden Operationen, über erweiterte Konzepte wie Fensterfunktionen, bis hin zur Definition von benutzerdefinierten Funktionen, lernen die Teilnehmer alle wichtigen Bestandteile kennen. Darauf aufbauend werden Best Practices für Entwicklung, Debugging und Profiling von Spark Applikationen besprochen. Abschließend erhalten die Teilnehmer einen Einblick in die Funktionsweise der Spark Engine und die daraus resultierenden Konsequenzen für die Entwicklung von Daten-Pipelines mit Apache Spark.

Das theoretisch vermittelte Wissen der Schulung wird anhand mehrerer praktischer Übungen vertieft und gefestigt.

Schulungsinhalte:

Tag 1

1. Einführung

2. DataFrame API

Grundlagen

Interne Representation von DataFrames

Formulierung von Abfragen auf strukturierten Daten

Entwurfsprinzipien der DataFrame API

Wandeln zwischen den Welten: Von Python zu Spark und zurück

Benutzerdefinierte Funktionen

Mengenorientiertes Denken

Tag 2

  • Fortsetzung Mengenorientiertes Denken

  • Arbeiten mit dem Hive Metastore

  • Umgang mit Fensterfunktionen (Window Functions)

3. Entwicklung von Sparkapplikationen

  • Das grundlegende Applikationsgerüst

  • Umgang mit externen Bibliotheken

  • Ausführung von Applikationen

  • Debugging und Profiling von Spark Applikationen

  • Behandlung invalider Daten

Tag 3

4. Ein Blick hinter die Kulissen

  • Funktionsweise der Spark Engine

  • Monitoring von Spark Applikationen

  • Das Problem ungleicher Datenverteilungen (Data Skew)

  • Identifikation von Performanceengpässen und deren Lösung

  • Offene Fragen

Voraussetzungen Teilnehmer

  • Gute Kenntnisse der Programmiersprache Python

  • Basiskenntnisse im Umgang mit Bash

  • SQL Kenntnisse sind von Vorteil, aber nicht zwingend notwendig


Dozent: Simon Kaltenbacher

Simon Kaltenbacher ist Experte für Datenarchitektur, verteilte Systeme und Stream Processing. Er berät Kunden beim Aufbau von Datenplattformen und unterstützt sie bei der Implementierung von Daten-Pipelines.

Er verfolgt das Apache-Spark-Projekt intensiv seit Version 0.9 und hat bereits mehrere Schulungen und Vorträge zu dieser Technologie gehalten.

Mit Freunden teilen

Datum und Uhrzeit

Veranstaltungsort

Alexander Thamm GmbH

Sapporobogen 6-8

80637 München

Germany

Karte anzeigen

Dieses Event speichern

Event gespeichert