Seminar Arrow in Analytics Engines: Polars, DuckDB, DataFusion

Inhaltsverzeichnis

  • Abstract
  • Überblick
  • Lernziele
  • Zielgruppe
  • Voraussetzungen
  • Inhalte
  • Praxis-Labs
  • Technischer Rahmen

Abstract

Arrow als gemeinsames Datenformat in modernen Analyse‑Engines: effiziente Abfragen, Pushdown‑Optimierung und Architekturentscheidungen für hybride Pipelines.

Dauer: 2 Tage

Format: Präsenz oder Live-Online

Überblick

Mehrere Engines nutzen Arrow intern oder als Austauschformat. Das Seminar zeigt, wie Workloads aufgeteilt werden, wann Embedded‑Engines sinnvoll sind und wie Interop stabil umgesetzt wird.

Neben Abfrage‑Muster stehen Datenlayouts, Partitionierung und Kostenmodelle im Mittelpunkt.

Lernziele

  • Unterschiedliche Engine‑Modelle (embedded, library, service) bewerten
  • Pushdown‑Mechanismen (Filter/Projection) in Lakehouse‑Layouts nutzen
  • Arrow‑basierte Interop zwischen Engines und Python/JVM gestalten
  • Leistungsgrenzen über Datenlayout, Chunking und IO‑Strategien steuern
  • Entscheidungskriterien: Wann welche Engine für welche Phase der Pipeline

Zielgruppe

  • Analytics Engineers und Data Scientists mit großen Datenmengen
  • Data Engineers mit Bedarf an schnellen Ad‑hoc‑Analysen
  • Architekturen, die mehrere Engines kombinieren

Voraussetzungen

  • Grundverständnis zu Arrow und Parquet
  • Praxis mit DataFrames oder SQL‑Workloads hilfreich
  • Python‑Grundkenntnisse empfohlen

Inhalte

Modul 1: Engine‑Grundlagen und Kostenmodelle

  • Ausführungsmodelle: Vektorisiert, Pipeline, Operator Graph
  • IO vs. CPU: wo Zeit verloren geht
  • Speicherlimits, Spill‑Strategien, Caching

Modul 2: Datenlayout für schnelle Abfragen

  • Partitionierung, Sortierung und Z‑Order‑ähnliche Konzepte
  • Row Groups und Statistiken als Pushdown‑Hebel
  • Schema‑Konsistenz und Typ‑Stabilität

Modul 3: Interop‑Patterns

  • Engine ↔ Arrow Table ↔ DataFrame Round‑Trips
  • Vermeidung von Kopien und unnötigen Materialisierungen
  • Batching‑Strategien für JIT/Vector Kernels

Modul 4: Architekturbausteine

  • Embedded Analytics in Services
  • Ad‑hoc vs. scheduled workloads
  • Governance: Datenverträge, Versionierung, Reproduzierbarkeit

Praxis-Labs

Lab 1: Pushdown sichtbar machen

  1. Parquet‑Dataset mit Partitionierung und Statistiken vorbereiten
  2. Abfragen mit Filtern/Projektionen ausführen
  3. Scan‑Metriken vergleichen: mit vs. ohne Pushdown
  4. Layout‑Varianten testen (Row Group Size, Sortierung)

Lab 2: Engine‑Kombination in einer Pipeline

  1. Vorverarbeitung als Arrow‑Compute Schritt aufbauen
  2. Analysephase in einer Engine ausführen
  3. Ergebnis als Arrow/Parquet persistieren
  4. Round‑Trip‑Kosten messen und reduzieren

Lab 3: Embedded Analytics Pattern

  1. Service‑Skizze: Query‑Endpoint auf interne Engine abbilden
  2. Ressourcenlimits definieren (Timeouts, Memory Budget)
  3. Isolation/Parallelität testen
  4. Checkliste für produktive Nutzung erstellen

Technischer Rahmen

  • Python Umgebung mit Beispielprojekten
  • Lokale Engine‑Setups oder Container
  • Übungsdaten lokal, reproduzierbare Runs
  • Optional: kleine Demo‑Service‑Hülle
Nach oben
Seminare als Stream SRI zertifiziert
© 2026 www.seminar-experts.ch All rights reserved.  | Kontakt | Impressum | Nach oben