Seminar Arrow in Analytics Engines: Polars, DuckDB, DataFusion

Inhaltsverzeichnis

Abstract
Überblick
Lernziele
Zielgruppe
Voraussetzungen
Inhalte
Praxis-Labs
Technischer Rahmen

Abstract

Arrow als gemeinsames Datenformat in modernen Analyse‑Engines: effiziente Abfragen, Pushdown‑Optimierung und Architekturentscheidungen für hybride Pipelines.

Dauer: 2 Tage

Format: Präsenz oder Live-Online

Überblick

Mehrere Engines nutzen Arrow intern oder als Austauschformat. Das Seminar zeigt, wie Workloads aufgeteilt werden, wann Embedded‑Engines sinnvoll sind und wie Interop stabil umgesetzt wird.

Neben Abfrage‑Muster stehen Datenlayouts, Partitionierung und Kostenmodelle im Mittelpunkt.

Lernziele

Unterschiedliche Engine‑Modelle (embedded, library, service) bewerten
Pushdown‑Mechanismen (Filter/Projection) in Lakehouse‑Layouts nutzen
Arrow‑basierte Interop zwischen Engines und Python/JVM gestalten
Leistungsgrenzen über Datenlayout, Chunking und IO‑Strategien steuern
Entscheidungskriterien: Wann welche Engine für welche Phase der Pipeline

Zielgruppe

Analytics Engineers und Data Scientists mit großen Datenmengen
Data Engineers mit Bedarf an schnellen Ad‑hoc‑Analysen
Architekturen, die mehrere Engines kombinieren

Voraussetzungen

Grundverständnis zu Arrow und Parquet
Praxis mit DataFrames oder SQL‑Workloads hilfreich
Python‑Grundkenntnisse empfohlen

Inhalte

Modul 1: Engine‑Grundlagen und Kostenmodelle

Ausführungsmodelle: Vektorisiert, Pipeline, Operator Graph
IO vs. CPU: wo Zeit verloren geht
Speicherlimits, Spill‑Strategien, Caching

Modul 2: Datenlayout für schnelle Abfragen

Partitionierung, Sortierung und Z‑Order‑ähnliche Konzepte
Row Groups und Statistiken als Pushdown‑Hebel
Schema‑Konsistenz und Typ‑Stabilität

Modul 3: Interop‑Patterns

Engine ↔ Arrow Table ↔ DataFrame Round‑Trips
Vermeidung von Kopien und unnötigen Materialisierungen
Batching‑Strategien für JIT/Vector Kernels

Modul 4: Architekturbausteine

Embedded Analytics in Services
Ad‑hoc vs. scheduled workloads
Governance: Datenverträge, Versionierung, Reproduzierbarkeit

Praxis-Labs

Lab 1: Pushdown sichtbar machen

Parquet‑Dataset mit Partitionierung und Statistiken vorbereiten
Abfragen mit Filtern/Projektionen ausführen
Scan‑Metriken vergleichen: mit vs. ohne Pushdown
Layout‑Varianten testen (Row Group Size, Sortierung)

Lab 2: Engine‑Kombination in einer Pipeline

Vorverarbeitung als Arrow‑Compute Schritt aufbauen
Analysephase in einer Engine ausführen
Ergebnis als Arrow/Parquet persistieren
Round‑Trip‑Kosten messen und reduzieren

Lab 3: Embedded Analytics Pattern

Service‑Skizze: Query‑Endpoint auf interne Engine abbilden
Ressourcenlimits definieren (Timeouts, Memory Budget)
Isolation/Parallelität testen
Checkliste für produktive Nutzung erstellen

Technischer Rahmen

Python Umgebung mit Beispielprojekten
Lokale Engine‑Setups oder Container
Übungsdaten lokal, reproduzierbare Runs
Optional: kleine Demo‑Service‑Hülle

Nach oben

Seminare als Stream