Spark Python Training: Big Data Applications (3J)

Spark Python entwickelt Anwendungen für Big Data (3 Tage)

Entdecken Sie die grundlegenden Konzepte von Spark

Verwenden von Spark RDD Concept Exploit-Daten mit Spark SQL

Echtzeit-Analyse mit Spark Streaming

Verwenden Sie Spark mit Jupyter Notebooks, manipulieren Sie Daten mit Pyspark wie mit Pandas

Annäherung an maschinelles Lernen mit Spark

1 910 €

- Anwesend in unseren Räumlichkeiten oder bei Ihnen
– Distanciel Online Finden Sie uns auf: Straßburg, Lille, Lyon, Reims, Genf, Brüssel, Luxemburg, Frankfurt, Karlsruhe, Berlin, Metz
INTRA (Rufen Sie uns an, um ein Angebot zu erhalten)

Präsentation von Apache Spark (3,0 Stunden)
Hintergrund des Frameworks.
- Die vier Hauptkomponenten: Spark SQL, Spark Streaming, MLlib und GraphX.
- Python Tools und Bibliotheken für Spark: PySpark, Jupyter Notebooks, Koalas.
- Sparks Programmierkonzepte.
Führen Sie Spark in einer verteilten Umgebung aus.
Praktische Arbeit: Python-Umgebung für Spark eingerichtet. Implementieren Sie Skripte, die Spark-Konzepte manipulieren.
Verwenden Sie Spark mit Python: der verteilte Datensatz (RDD) (3,0 Stunden)
Konfigurieren Sie seine Python-Umgebung.
- Verbinden Sie Spark mit Python: Kontexte und Sitzungen.
- Präsentation von RDDs. Erstellen, manipulieren und Wiederverwenden von RDDs.
- Hauptfunktionen/Transformationen, Implementierung von map/reduzierten Algorithmen.
Akkumulatoren und Broadcast-Variablen.
- Verwenden Sie Partitionen.
Verwenden Sie Notebooks und senden Sie Python-Jobs.
Praktische Arbeit: Umgang mit Kontexten und Sitzungen. Erstellung und Wiederverwendung von RDD. Einreichung von Arbeiten

Verwalten Sie strukturierte Daten (3,0 Stunden)
Präsentation von Spark SQL und DataFrames und Dataset.
- Die verschiedenen Arten/Formate von Datenquellen.
Interoperabilität mit RDDs.
- Verwenden Sie die PySpark Pandas Bibliothek.
Tutored Practical Work: Ausführung von Requests mit Spark SQL. Implementierung von DataFrames und Dataset. DataFrame Handling.
Maschinelles Lernen mit Spark (3,0 Stunden)
Einführung in maschinelles Lernen.
- Die verschiedenen Algorithmusklassen.
- Präsentation von MLlib.
- Implementierung der verschiedenen Algorithmen in MLlib.
Praktische Arbeit: Umsetzung des betreuten Lernens durch Klassifikation.

Analysieren Sie in Echtzeit mit Spark Streaming (3,0 Stunden)
Verstehen Sie Streaming-Architektur.
- Präsentation von Discretized Streams (DStreams).
- Die verschiedenen Arten von Quellen.
- API-Handling (Aggregationen, Wasserzeichen...).
Maschinelles Lernen in Echtzeit.
Praktische Arbeit: Erstellen von Echtzeitstatistiken aus einer Datenquelle und Vorhersagen mithilfe von maschinellem Lernen
Graphentheorie (3,0 Stunden)
Einführung in die Graphentheorie (Knoten, Kanten, orientierte Graphen, Pfade, Hauptalgorithmen).
- Verwendung von API. Präsentation von GraphX und GraphFrame Bibliotheken.
Praktische Arbeit: Implementierung eines Suchalgorithmus des kürzesten Pfades oder Seitenrangs und Visualisierung des Graphen.