freiberufler Senior Data Engineering Consultant auf freelance.de

Senior Data Engineering Consultant

offline
  • 100‐130€/Stunde
  • 45131 Essen
  • Europa
  • de  |  en
  • 17.06.2024

Kurzvorstellung

Ich bin A. R., Senior Data Engineer und Mitgründer bei [...]GmbH. Mit umfassender Erfahrung in Cloud Data Lakehouses, ETL-Pipelines und Machine Learning, bringe ich fundierte Kenntnisse in Data Engineering in Ihr Projekt ein.

Qualifikationen

  • Amazon Web Services (AWS)2 J.
  • Apache Spark6 J.
  • Azure Databricks4 J.
  • Microsoft Azure4 J.
  • Python6 J.
  • SQL7 J.

Projekt‐ & Berufserfahrung

Lead Data Engineer
The Quality Group GmbH, Hamburg
1/2022 – 12/2023 (2 Jahre)
Handel
Tätigkeitszeitraum

1/2022 – 12/2023

Tätigkeitsbeschreibung

Design & Konzeption eines Cloud Data Lakehouse im eCommerce-Kontext mittels Databricks
Requirements Engineering & Dokumentation der Use-Cases
Modellierung der Layerarchitektur
Einführung Data Quality Framework
Modellierung des Core-Layers für Logistik-& Salesanalysen basierend auf Kimball
Integration von verschiedenen Quellsystemen wie MySQL, APIs, Event Streams, SAP S4/HANA, Postgres, MSSQL
Einführung von Self-Service Data Marts im Sales- und Marketingkontext
Entwicklung eines generischen Connector-Frameworks zur schnellen und effizienten Integration von neuen Datenquellen
Migration von Hive Catalog auf Unity Catalog

Eingesetzte Qualifikationen

Azure Databricks, Kafka, mySQL, PostgreSQL, SQL, SAP S/4HANA, Shopify (allg.), Git, Python, Amazon Web Services (AWS)

Lead Data Engineer
Deutsche Post DHL Group, Bonn
1/2021 – 6/2024 (3 Jahre, 6 Monate)
Logistikdienstleister
Tätigkeitszeitraum

1/2021 – 6/2024

Tätigkeitsbeschreibung

Aufbau eines Cloud Data Lakehouse auf Databricks
Konzeptionalisierung & Requirements Engineering inkl. User Stories, Milestones, uvm. nach SCRUM
Anbindung von Quelldatensystemen wie SalesForce, Teradata, MSSQL und SAP (S/4 HANA & SAP C4C)
Konzeption & Implementierung der Lakehouse Layerstruktur mit Domain Driven Design Pattern
Konzeption & Implementierung eines Data Quality & Data Testing Frameworks unter Berücksichtigung von verschiedenen Datenqualitätsdimensionen sowie der Validierung von Soft- und Hard Rules
Implementierung von Datentransformationspipelines über 100 GB pro Tag
Einsatz nativer Azure Cloud Services wie bspw. Azure Databricks, Azure Data Factory & Azure Event Hubs
Modellierung & Implementierung eines Business Core Data Models (Data Vault)
Identifikation & Implementierung von Machine Learning Use-Cases unter Berücksichtigung von MLOps basierend auf MLflow
Konzeption und Implementierung von GenAI Usecases:
SentenceTransformer (sBert & DistilUse) und Large Language Models (Llama2) zur Deduplication von Adressen mit dem Ziel der Erstellung eines Golden Records mittels Vector Store (FAISS und Milvus)
Computer Vision und Identifikation von Attributen zur Auswertung von Facilities mittels Satellitendaten

Eingesetzte Qualifikationen

Azure Databricks, Azure Synapse Analytics, SQL, Teradata, Salesforce, SAP S/4HANA, Python, Microsoft Azure

Data Engineer
DHL Post und Paket Germany, Bonn
1/2018 – 12/2020 (3 Jahre)
Logistikdienstleister
Tätigkeitszeitraum

1/2018 – 12/2020

Tätigkeitsbeschreibung

Migration SAS Data Platform auf Cloud Based Open Source Architektur auf Python inklusive Apache Spark, SQL, Pandas, Numpy, Rapids
Requirements Engineering & Dokumentation der bestehenden (Real-Time) Reporting Use Cases und Core Data Warehouse Layer
Aufbau und Implementierung Multi-Node Apache Airflow System zur Workflow Orchestrierung für ETL & Machine Learning Jobs
Migration der SAS-Lösungen auf hochperformante Python Skripte
Entwicklung eines generischen Connector-Frameworks zur schnellen und effizienten Integration von neuen Datenquellen inkl SAP HANA und Teradata

Eingesetzte Qualifikationen

Apache Spark, SAS (Software), SQL, Teradata, SAP HANA

Data Engineer
Deutsche Post DHL Finance & HR Services, Bonn
5/2015 – 12/2017 (2 Jahre, 8 Monate)
Logistikdienstleister
Tätigkeitszeitraum

5/2015 – 12/2017

Tätigkeitsbeschreibung

Extraktion und Transformation von Brief- und Paket Daten aus Quellsystemen wie SAP S4/HANA, Teradata und Event-Streams mittels Apache Spark
Konzeption, Aufbau und Beladen eines Datenmodells für Finance Reporting Usecases (Forderungsmanagement / Accounts Receivable)
Definition und Implementierung eines Kennzahlensystems (Balanced Scorecards) inklusive Value-Driver-Tree Implementierung in PowerBI
Aufbau und Implementierung Multi-Node Apache Airflow System zur Workflow Orchestrierung für ETL und Data Sharing mit anderen Business Units innerhalb der Organisation

Eingesetzte Qualifikationen

Apache Spark, Microsoft Power BI, Python, SAP BW/4HANA, Teradata

Ausbildung

Wirtschaftsinformatik
M. Sc.
Universität Duisburg-Essen
2017
Essen

Über mich

A. R. - Senior Data Engineer und Mitgründer bei [...] GmbH

Ich bin ein erfahrener Senior Data Engineer mit einem Master of Science in Wirtschaftsinformatik von der Universität Duisburg-Essen. In meiner beruflichen Laufbahn habe ich umfangreiche Expertise in der Entwicklung und Implementierung von Cloud Data Lakehouses, ETL-Pipelines und Machine-Learning-Integrationen gesammelt.

Erfahrung:

Deutsche Post DHL Group: Als Lead Data Engineer war ich für den Aufbau eines Cloud Data Lakehouse auf Databricks verantwortlich. Ich leitete die Konzeption und Implementierung von Data Quality Frameworks und Machine Learning Use-Cases.
The Quality Group GmbH: In meiner Rolle als Lead Data Engineer designte und konzipierte ich ein Cloud Data Lakehouse im eCommerce-Kontext und führte ein Data Quality Framework ein.
DHL Post und Paket Germany: Hier migrierte ich SAS-Lösungen auf eine Cloud-basierte Open-Source-Architektur und implementierte Multi-Node Apache Airflow Systeme zur Workflow-Orchestrierung.
Deutsche Post DHL Finance & HR Services: Ich konzipierte und implementierte Datenmodelle für Finance Reporting Use Cases und führte Balanced Scorecards in PowerBI ein.
Technische Fähigkeiten:

Programmiersprachen: Python, SQL
Frameworks und Libraries: Apache Spark, PySpark, Pandas, Polars, DuckDB, numpy, scikit-learn, rapids, FastAPI
Datenbanken und ETL: SAP HANA, SAP C4C, MySQL, Teradata, Postgres, SQLServer, APIs
Cloud-Plattformen: AWS, Azure, GCP
Nachrichtensysteme: AWS SNS, Azure Service Bus, Google Pub/Sub, Apache Kafka
Data Warehousing: AWS Athena, AWS Redshift, Azure Synapse, Google BigQuery
Serverless-Technologien: AWS Lambda, Azure Functions, Google Cloud Functions
Workflow-Orchestrierung: Azure Data Factory, Apache Airflow, Dagster, Google Cloud DataFlow
Projektmanagement und Code-Verwaltung: Jira, Confluence, Git (GitLab, GitHub, BitBucket)
Infrastructure as Code: Terraform
Consulting und Requirements Engineering: Datenstrategien und Cloud-Architekturen
Sprachkenntnisse:

Deutsch (Muttersprache)
Englisch (Akademische Kenntnisse: C2)
Mit meiner umfassenden Erfahrung und meinem technischen Know-how bin ich bestens gerüstet, um anspruchsvolle Data-Engineering-Projekte erfolgreich zu realisieren und Ihr Team zu unterstützen.

Weitere Kenntnisse

Python & SQL
Real Time Processing Frameworks: Apache Spark, PySpark, Pandas, Polars, DuckDB
ETL-Pipelines: SAP HANA, SAP C4C, MySQL, Teradata, Postgres, SQLServer, APIs
Data Architectures: Data Warehouse, Data Lake, Data Lakehouse
Databricks
Python Libraries: PySpark, Pandas, Polars, DuckDB, numpy, scikit-learn, rapids, FastAPI
Cloud Platforms: AWS, Azure, GCP
Message Queues: AWS SNS, Azure Service Bus, Google Pub/Sub, Apache Kafka
Data Warehousing: AWS Athena, AWS Redshift, Azure Synapse, Google BigQuery
Serverless: AWS Lambda, Azure Functions, Google Cloud Functions
Workflow-Orchestrierung: Azure Data Factory, Apache Airflow, Dagster, Google Cloud DataFlow
Test-Driven Development & SOLID
Project & Code Management: Jira, Confluence, Git (GitLab, GitHub, BitBucket)
Infrastructure as Code: Terraform
Requirements Engineering & Consulting: Data Strategy & Cloud Architectures

Persönliche Daten

Sprache
  • Deutsch (Muttersprache)
  • Englisch (Fließend)
Reisebereitschaft
Europa
Home-Office
bevorzugt
Profilaufrufe
104
Alter
33
Berufserfahrung
9 Jahre und 4 Monate (seit 05/2015)

Kontaktdaten

Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.

Jetzt Mitglied werden