Apache Hudi Ingestion, CDC und Streaming mit Spark und Flink
Dieses Dreitagesseminar konzentriert sich auf den operativen Kern vieler Hudi-Einführungen: Datenaufnahme, CDC und Streaming. Im Vordergrund steht der Aufbau robuster Pipelines mit Spark und Flink, die laufende Änderungen, Löschungen und inkrementelle Folgeprozesse sauber verarbeiten. Drei Tage sind hier notwendig, weil die Fallstricke erst in der Praxis sichtbar werden – bei Schlüsseln, Reihenfolgen, Wiederanläufen und Zustandswechseln.
Zielgruppe
Geeignet für Data Engineers, Streaming- und Plattformteams sowie Entwickler, die bestehende Batch-Strecken modernisieren oder CDC-basierte Lakehouse-Pipelines aufbauen.
Voraussetzungen
Gute SQL-Kenntnisse sowie belastbare Praxis mit Spark oder Flink werden vorausgesetzt. Kenntnisse zu Kafka, CDC-Werkzeugen oder relationalen Quelldatenbanken sind hilfreich.
Seminarinhalte
- Entwurfsprinzipien für Ingestion-Strecken in Apache Hudi
- Record Keys, Precombine-Felder, Partitionierung und idempotentes Schreiben
- Batch-Ingestion, Micro-Batch und Streaming sauber unterscheiden
- Upserts, Deletes und Change-Events aus fachlicher und technischer Sicht
- CDC-Muster für Quellsysteme und Ableitung inkrementeller Folgeprozesse
- Einsatz von Spark DataSource APIs, Spark SQL und Flink-Tabellen
- Snapshot-, Incremental-, Time-Travel- und CDC-Abfragen in Datenflüssen
- Umgang mit verspäteten Daten, Wiederanläufen und Schemaänderungen
- Katalog-/Metastore-Synchronisation und Anbindung an Abfragewerkzeuge
- Typische Fehlerbilder in ingestion-lastigen Hudi-Projekten
Praxis und Übungen
Im Seminar werden Batch- und Streaming-Szenarien aufgebaut, erweitert und gezielt unter Stress gesetzt. Dazu gehören Schlüsselfehler, falsch gewählte Partitionen, mehrdeutige Änderungsreihenfolgen und die saubere Wiederaufnahme nach Fehlern.
Seminardetails
| Dauer: | 3 Tage ca. 6 h/Tag, Beginn 1. Tag: 10:00 Uhr, weitere Tage 09:00 Uhr |
| Preis: |
Öffentlich und Webinar: CHF 1.797 zzgl. MwSt. Inhaus: CHF 5.100 zzgl. MwSt. |
| Teilnehmeranzahl: | min. 2 - max. 8 |
| Teilnehmer: | Data Engineers, Streaming-Teams, Plattformteams und Entwickler für CDC- und ETL/ELT-Strecken |
| Voraussetzungen: | Gute SQL-Kenntnisse sowie belastbare Praxis mit Spark oder Flink; Kenntnisse zu Kafka oder CDC-Werkzeugen sind hilfreich |
| Standorte: | Basel, Bern, Luzern, Sankt Gallen, Winterthur, Zürich |
| Methoden: | Vortrag, Demonstrationen, praktische Übungen am System, Pipeline-Design, Fehleranalysen |
| Seminararten: | Öffentlich, Webinar, Inhaus, Workshop - Alle Seminare mit Trainer vor Ort, Webinar nur wenn ausdrücklich gewünscht |
| Durchführungsgarantie: | ja, ab 2 Teilnehmern |
| Sprache: | Deutsch - bei Firmenseminaren ist auch Englisch möglich |
| Seminarunterlage: | Dokumentation auf Datenträger oder als Download |
| Teilnahmezertifikat: | ja, selbstverständlich |
| Verpflegung: | Kalt- / Warmgetränke, Mittagessen (wahlweise vegetarisch) |
| Support: | 3 Anrufe im Seminarpreis enthalten |
| Barrierefreier Zugang: | an den meisten Standorten verfügbar |
| Weitere Informationen unter +41 (800) 225127 |
Seminartermine
Die Ergebnissliste kann durch Anklicken der Überschrift neu sortiert werden.
