Spark Python entwickelt Anwendungen fĂĽr Big Data (3 Tage)
Ausbildungsziele:
Entdecken Sie die grundlegenden Konzepte von Spark
Â
Verwenden von Spark RDD Concept Exploit-Daten mit Spark SQL
Â
Echtzeit-Analyse mit Spark Streaming
Â
Verwenden Sie Spark mit Jupyter Notebooks, manipulieren Sie Daten mit Pyspark wie mit Pandas
Â
Annäherung an maschinelles Lernen mit Spark
INTERPRETATION
1 910
-
- Anwesend in unseren Räumlichkeiten oder bei Ihnen
-
– Distanciel Online Finden Sie uns auf: Straßburg, Lille, Lyon, Reims, Genf, Brüssel, Luxemburg, Frankfurt, Karlsruhe, Berlin, Metz
-
INTRA (Rufen Sie uns an, um ein Angebot zu erhalten)
Tag 1:
Präsentation von Apache Spark und Use Spark mit Python
Inhalt:
-
Präsentation von Apache Spark (3,0 Stunden)
Hintergrund des Frameworks.
- Die vier Hauptkomponenten: Spark SQL, Spark Streaming, MLlib und GraphX.
- Python Tools und Bibliotheken fĂĽr Spark: PySpark, Jupyter Notebooks, Koalas.
- Sparks Programmierkonzepte.
FĂĽhren Sie Spark in einer verteilten Umgebung aus.
Praktische Arbeit: Python-Umgebung fĂĽr Spark eingerichtet. Implementieren Sie Skripte, die Spark-Konzepte manipulieren. -
Verwenden Sie Spark mit Python: der verteilte Datensatz (RDD) (3,0 Stunden)
Konfigurieren Sie seine Python-Umgebung.
- Verbinden Sie Spark mit Python: Kontexte und Sitzungen.
- Präsentation von RDDs. Erstellen, manipulieren und Wiederverwenden von RDDs.
- Hauptfunktionen/Transformationen, Implementierung von map/reduzierten Algorithmen.
Akkumulatoren und Broadcast-Variablen.
- Verwenden Sie Partitionen.
Verwenden Sie Notebooks und senden Sie Python-Jobs.
Praktische Arbeit: Umgang mit Kontexten und Sitzungen. Erstellung und Wiederverwendung von RDD. Einreichung von Arbeiten
Tag 2:
Verwalten Sie strukturierte Daten und Machine Learning mit Spark
Inhalt:
-
Verwalten Sie strukturierte Daten (3,0 Stunden)
Präsentation von Spark SQL und DataFrames und Dataset.
- Die verschiedenen Arten/Formate von Datenquellen.
Interoperabilität mit RDDs.
- Verwenden Sie die PySpark Pandas Bibliothek.
Tutored Practical Work: AusfĂĽhrung von Requests mit Spark SQL. Implementierung von DataFrames und Dataset. DataFrame Handling. -
Maschinelles Lernen mit Spark (3,0 Stunden)
EinfĂĽhrung in maschinelles Lernen.
- Die verschiedenen Algorithmusklassen.
- Präsentation von MLlib.
- Implementierung der verschiedenen Algorithmen in MLlib.
Praktische Arbeit: Umsetzung des betreuten Lernens durch Klassifikation.
Tag 3:
Analysieren Sie in Echtzeit mit Spark Streaming und Graph Theory
Inhalt:
-
Analysieren Sie in Echtzeit mit Spark Streaming (3,0 Stunden)
Verstehen Sie Streaming-Architektur.
- Präsentation von Discretized Streams (DStreams).
- Die verschiedenen Arten von Quellen.
- API-Handling (Aggregationen, Wasserzeichen...).
Maschinelles Lernen in Echtzeit.
Praktische Arbeit: Erstellen von Echtzeitstatistiken aus einer Datenquelle und Vorhersagen mithilfe von maschinellem Lernen -
Graphentheorie (3,0 Stunden)
EinfĂĽhrung in die Graphentheorie (Knoten, Kanten, orientierte Graphen, Pfade, Hauptalgorithmen).
- Verwendung von API. Präsentation von GraphX und GraphFrame Bibliotheken.
Praktische Arbeit: Implementierung eines Suchalgorithmus des kĂĽrzesten Pfades oder Seitenrangs und Visualisierung des Graphen.