Seminar Apache Avro Grundlagen

Inhaltsverzeichnis

 

  • Kurzprofil
  • Rahmendaten
  • Zielgruppe
  • Voraussetzungen
  • Lernziele
  • Inhalte
  • Praxisübungen
  • Technische Umgebung
  • Checkliste für die Umsetzung

Kurzprofil

Das Seminar vermittelt die Grundlagen von Apache Avro als schemabasiertem Datenformat für Serialisierung, Austausch und Persistenz. Im Mittelpunkt stehen Schema-Definition, Binärencoding, Container-Dateien sowie die wichtigsten Tooling- und Integrationsmuster. Ein hoher Praxisanteil führt Schritt für Schritt von der ersten Schema-Datei bis zu kompatiblen Schema-Änderungen und reproduzierbaren Build-Artefakten.

Rahmendaten

 

  • Dauer: 2 Tage
  • Niveau: Grundlagen
  • Format: Theorie, Live-Demos, Hands-on-Labs
  • Unterlagen: Beispiel-Schemas, Übungsdatensätze, Templates

Zielgruppe

 

  • Softwareentwicklung und Data Engineering
  • Architektur- und Plattform-Teams
  • Teams, die Datenverträge zwischen Services oder Pipelines standardisieren

Voraussetzungen

 

  • Grundverständnis von JSON und Datenmodellen
  • Programmierpraxis in mindestens einer Sprache (z. B. Java, Python)

Lernziele

 

  • Avro-Schemas sicher modellieren und lesen
  • Writer- und Reader-Schema-Prinzip verstehen und anwenden
  • Binärserialisierung und Container-Dateien korrekt einsetzen
  • Typische Evolutionsschritte (z. B. Felder hinzufügen) kompatibel umsetzen
  • Tooling für Validierung, Code-Generierung und Inspektion in Build-Prozesse integrieren

Inhalte

Modul 1: Avro-Grundkonzepte

 

  • Schemabasiertes Datenformat: Vorteile, Grenzen, typische Einsatzmuster
  • Datentransport vs. Datenspeicherung: Single-Message vs. Container-Datei
  • Writer- und Reader-Schema, Schema-Auflösung als Kernprinzip

Modul 2: Schema-Sprache und Datenmodellierung

 

  • Primitive Typen, Records, Enums, Arrays, Maps
  • Unions (inkl. Nullability-Pattern) und Default Values
  • Namespaces, Aliases, Dokumentation im Schema
  • Logical Types (Datum/Zeit, Decimal) als fachliche Abbildung

Modul 3: Serialisierung, Deserialisierung und Dateiformate

 

  • Binärencoding und Auswirkung auf Größe/Performance
  • Object Container File: Header, Sync Marker, Blocks
  • Kompression und Blockgrößen als Stellhebel

Modul 4: Tooling und Build-Integration

 

  • Schema-Validierung und Formatchecks
  • IDL und Schema-Generierung
  • Code-Generierung, Artefaktstruktur und Versionierung

Modul 5: Erste Integrationsmuster

 

  • Payload-Design für Events und APIs
  • Schema-Verteilung: Embedded Schema vs. zentrale Ablage
  • Fehlertoleranz: Umgang mit unbekannten Feldern und Defaults

Praxisübungen

Lab 1: Erstes Schema erstellen und prüfen

 

  1. Record-Schema mit realistischem Datenobjekt modellieren.
  2. Nullability-Pattern für optionale Felder festlegen.
  3. Default Values hinzufügen und Schema-Validierung ausführen.
  4. Schema-Konventionen dokumentieren (Namensschema, Namespace, Doc-Felder).

Lab 2: Daten serialisieren und wieder lesen

 

  1. Beispieldaten als Generic- oder Specific-Record erzeugen.
  2. Binärserialisierung durchführen und Bytegröße vergleichen.
  3. Deserialisierung mit Reader-Schema ausführen und Ergebnis verifizieren.
  4. Fehlerfälle erzeugen (falscher Typ, fehlendes Pflichtfeld) und auswerten.

Lab 3: Kompatible Schema-Änderung

 

  1. Neue Feldversion entwerfen (Feld hinzufügen, Default setzen).
  2. Writer/Reader-Kombinationen testen (alt→neu, neu→alt).
  3. Breaking Changes identifizieren und dokumentieren.
  4. Versionierungsstrategie als Teamregel festhalten.

Lab 4: Container-Datei schreiben und inspizieren

 

  1. Datensätze in eine Avro-Container-Datei schreiben.
  2. Kompression aktivieren und Blockgröße variieren.
  3. Datei mit Tooling inspizieren (Schema, Anzahl Records, Metadaten).
  4. Lesepfad in einer zweiten Sprache simulieren (Interoperabilitätscheck).

Technische Umgebung

 

  • Lokale Entwicklungsumgebung mit Java oder Python
  • Build-Tool (Maven oder Gradle) oder vergleichbare Paketverwaltung
  • Optional: Container-Laufzeit für reproduzierbare Lab-Setups

Checkliste für die Umsetzung

 

  • Schema-Namenskonvention, Namespace-Strategie und Doc-Felder standardisieren.
  • Nullability- und Default-Patterns als Teamregel festlegen.
  • Schema-Validierung als CI-Schritt definieren.
  • Kompatibilitätsmatrix für zentrale Datendomänen dokumentieren.
  • Artefaktversionierung (Schema/Code) und Release-Prozess festlegen.
Nach oben
Seminare als Stream SRI zertifiziert
© 2026 www.seminar-experts.ch All rights reserved.  | Kontakt | Impressum | Nach oben