Senior Data Engineering Consultant
- Verfügbarkeit einsehen
- 0 Referenzen
- 100‐130€/Stunde
- 45131 Essen
- Europa
- de | en
- 17.06.2024
Kurzvorstellung
Qualifikationen
Projekt‐ & Berufserfahrung
1/2022 – 12/2023
Tätigkeitsbeschreibung
Design & Konzeption eines Cloud Data Lakehouse im eCommerce-Kontext mittels Databricks
Requirements Engineering & Dokumentation der Use-Cases
Modellierung der Layerarchitektur
Einführung Data Quality Framework
Modellierung des Core-Layers für Logistik-& Salesanalysen basierend auf Kimball
Integration von verschiedenen Quellsystemen wie MySQL, APIs, Event Streams, SAP S4/HANA, Postgres, MSSQL
Einführung von Self-Service Data Marts im Sales- und Marketingkontext
Entwicklung eines generischen Connector-Frameworks zur schnellen und effizienten Integration von neuen Datenquellen
Migration von Hive Catalog auf Unity Catalog
Databricks, Apache Kafka, Mysql, Postgresql, SQL, SAP S/4HANA, Shopify (allg.), Git, Python, Amazon Web Services (AWS)
1/2021 – 6/2024
Tätigkeitsbeschreibung
Aufbau eines Cloud Data Lakehouse auf Databricks
Konzeptionalisierung & Requirements Engineering inkl. User Stories, Milestones, uvm. nach SCRUM
Anbindung von Quelldatensystemen wie SalesForce, Teradata, MSSQL und SAP (S/4 HANA & SAP C4C)
Konzeption & Implementierung der Lakehouse Layerstruktur mit Domain Driven Design Pattern
Konzeption & Implementierung eines Data Quality & Data Testing Frameworks unter Berücksichtigung von verschiedenen Datenqualitätsdimensionen sowie der Validierung von Soft- und Hard Rules
Implementierung von Datentransformationspipelines über 100 GB pro Tag
Einsatz nativer Azure Cloud Services wie bspw. Azure Databricks, Azure Data Factory & Azure Event Hubs
Modellierung & Implementierung eines Business Core Data Models (Data Vault)
Identifikation & Implementierung von Machine Learning Use-Cases unter Berücksichtigung von MLOps basierend auf MLflow
Konzeption und Implementierung von GenAI Usecases:
SentenceTransformer (sBert & DistilUse) und Large Language Models (Llama2) zur Deduplication von Adressen mit dem Ziel der Erstellung eines Golden Records mittels Vector Store (FAISS und Milvus)
Computer Vision und Identifikation von Attributen zur Auswertung von Facilities mittels Satellitendaten
Databricks, Azure Synapse Analytics, SQL, Teradata Sql, Salesforce.Com, SAP S/4HANA, Python, Microsoft Azure
1/2018 – 12/2020
Tätigkeitsbeschreibung
Migration SAS Data Platform auf Cloud Based Open Source Architektur auf Python inklusive Apache Spark, SQL, Pandas, Numpy, Rapids
Requirements Engineering & Dokumentation der bestehenden (Real-Time) Reporting Use Cases und Core Data Warehouse Layer
Aufbau und Implementierung Multi-Node Apache Airflow System zur Workflow Orchestrierung für ETL & Machine Learning Jobs
Migration der SAS-Lösungen auf hochperformante Python Skripte
Entwicklung eines generischen Connector-Frameworks zur schnellen und effizienten Integration von neuen Datenquellen inkl SAP HANA und Teradata
Apache Spark, SAS (Software), SQL, Teradata Sql, SAP HANA
5/2015 – 12/2017
Tätigkeitsbeschreibung
Extraktion und Transformation von Brief- und Paket Daten aus Quellsystemen wie SAP S4/HANA, Teradata und Event-Streams mittels Apache Spark
Konzeption, Aufbau und Beladen eines Datenmodells für Finance Reporting Usecases (Forderungsmanagement / Accounts Receivable)
Definition und Implementierung eines Kennzahlensystems (Balanced Scorecards) inklusive Value-Driver-Tree Implementierung in PowerBI
Aufbau und Implementierung Multi-Node Apache Airflow System zur Workflow Orchestrierung für ETL und Data Sharing mit anderen Business Units innerhalb der Organisation
Apache Spark, Power Bi, Python, SAP BW/4HANA, Teradata Sql
Ausbildung
Universität Duisburg-Essen
Essen
Über mich
Ich bin ein erfahrener Senior Data Engineer mit einem Master of Science in Wirtschaftsinformatik von der Universität Duisburg-Essen. In meiner beruflichen Laufbahn habe ich umfangreiche Expertise in der Entwicklung und Implementierung von Cloud Data Lakehouses, ETL-Pipelines und Machine-Learning-Integrationen gesammelt.
Erfahrung:
Deutsche Post DHL Group: Als Lead Data Engineer war ich für den Aufbau eines Cloud Data Lakehouse auf Databricks verantwortlich. Ich leitete die Konzeption und Implementierung von Data Quality Frameworks und Machine Learning Use-Cases.
The Quality Group GmbH: In meiner Rolle als Lead Data Engineer designte und konzipierte ich ein Cloud Data Lakehouse im eCommerce-Kontext und führte ein Data Quality Framework ein.
DHL Post und Paket Germany: Hier migrierte ich SAS-Lösungen auf eine Cloud-basierte Open-Source-Architektur und implementierte Multi-Node Apache Airflow Systeme zur Workflow-Orchestrierung.
Deutsche Post DHL Finance & HR Services: Ich konzipierte und implementierte Datenmodelle für Finance Reporting Use Cases und führte Balanced Scorecards in PowerBI ein.
Technische Fähigkeiten:
Programmiersprachen: Python, SQL
Frameworks und Libraries: Apache Spark, PySpark, Pandas, Polars, DuckDB, numpy, scikit-learn, rapids, FastAPI
Datenbanken und ETL: SAP HANA, SAP C4C, MySQL, Teradata, Postgres, SQLServer, APIs
Cloud-Plattformen: AWS, Azure, GCP
Nachrichtensysteme: AWS SNS, Azure Service Bus, Google Pub/Sub, Apache Kafka
Data Warehousing: AWS Athena, AWS Redshift, Azure Synapse, Google BigQuery
Serverless-Technologien: AWS Lambda, Azure Functions, Google Cloud Functions
Workflow-Orchestrierung: Azure Data Factory, Apache Airflow, Dagster, Google Cloud DataFlow
Projektmanagement und Code-Verwaltung: Jira, Confluence, Git (GitLab, GitHub, BitBucket)
Infrastructure as Code: Terraform
Consulting und Requirements Engineering: Datenstrategien und Cloud-Architekturen
Sprachkenntnisse:
Deutsch (Muttersprache)
Englisch (Akademische Kenntnisse: C2)
Mit meiner umfassenden Erfahrung und meinem technischen Know-how bin ich bestens gerüstet, um anspruchsvolle Data-Engineering-Projekte erfolgreich zu realisieren und Ihr Team zu unterstützen.
Weitere Kenntnisse
Real Time Processing Frameworks: Apache Spark, PySpark, Pandas, Polars, DuckDB
ETL-Pipelines: SAP HANA, SAP C4C, MySQL, Teradata, Postgres, SQLServer, APIs
Data Architectures: Data Warehouse, Data Lake, Data Lakehouse
Databricks
Python Libraries: PySpark, Pandas, Polars, DuckDB, numpy, scikit-learn, rapids, FastAPI
Cloud Platforms: AWS, Azure, GCP
Message Queues: AWS SNS, Azure Service Bus, Google Pub/Sub, Apache Kafka
Data Warehousing: AWS Athena, AWS Redshift, Azure Synapse, Google BigQuery
Serverless: AWS Lambda, Azure Functions, Google Cloud Functions
Workflow-Orchestrierung: Azure Data Factory, Apache Airflow, Dagster, Google Cloud DataFlow
Test-Driven Development & SOLID
Project & Code Management: Jira, Confluence, Git (GitLab, GitHub, BitBucket)
Infrastructure as Code: Terraform
Requirements Engineering & Consulting: Data Strategy & Cloud Architectures
Persönliche Daten
- Deutsch (Muttersprache)
- Englisch (Fließend)
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden