
Lead Data Engineer|Data Cloud Architekt|Business Intelligence Specialist|Azure,AWS,Snowflake Certified
- Verfügbarkeit einsehen
- 0 Referenzen
- 85€/Stunde
- 63065 Offenbach
- Weltweit
- de | en
- 03.03.2025
Kurzvorstellung
Qualifikationen
Projekt‐ & Berufserfahrung
7/2013 – offen
Tätigkeitsbeschreibung
Projekt: Aufbau des Berichtswesens und DWH für Projektdaten. November 2024 – bis jetzt
Kunde: dm-drogerie markt | Karlsruhe | Drogeriehandel
Rolle: Snowflake Data Architekt, Data Engineer
Projektbeschreibung:
Das Hauptziel des Projekts war die Datenaufbereitung für Reporting und Analysen auf Basis der Planisware-Daten, insbesondere für MicroStrategy-Berichte. Hierzu wurden ein spezifisches Data Warehouse in Snowflake auf der Google Cloud Platform (GCP) für die Planisware-Projektdaten aufgebaut sowie Dimensionen und Fakten modelliert.
Aufgaben:
Integration von Daten in das Data Warehouse und Zusammenarbeit im laufenden Projekt zur Einführung von Snowpark.
Datenmodellierung in der 3. Normalform (3NF) und im Sternschema.
Design, Implementierung und Betrieb von ETL/ELT-Prozessen unter Verwendung von Tools wie Informatica, Matillion, Snowflake, SSIS und Azure Data Factory.
Mitarbeit bei der Weiterentwicklung und Modernisierung der Business-Intelligence-Landschaft in der Google Cloud Platform (Data Lake / Data Mesh).
Ergebnisse:
Zentrale Übersicht über Projektdaten: Durch die Datenaufbereitung und -modellierung wurde eine verbesserte Transparenz über die verschiedenen Projekte des Kunden erreicht.
Optimierte Datenstrategie für Projektdaten: Standardisierung und Strukturierung der Daten zur Bereitstellung einer konsistenten und zuverlässigen Grundlage für das Reporting.
Effiziente Datenintegration: Entwicklung einer Schnittstelle zu Planisware zur automatisierten Erfassung und Verarbeitung der Projektdaten.
Verbesserte Berichts- und Analysemöglichkeiten: Bereitstellung aufbereiteter Daten für MicroStrategy-Berichte, um fundierte Entscheidungen auf Basis der Planisware-Daten treffen zu können.
Skalierbare Architektur: Einsatz von Snowflake und der Google Cloud Platform zur Sicherstellung einer flexiblen Erweiterbarkeit und eines effizienten Umgangs mit wachsenden Datenmengen.
Technologie-Stack:
Data Warehouse: Snowflake, BigQuery
Cloud-Plattform: Google Cloud Platform (GCP)
Infrastructure as Code: Terraform
Versionsverwaltung und CI/CD: GitLab
Datenmodellierung: 3. Normalform (3NF), Sternschema (Dimensions- und Faktenmodellierung)
Datenintegration: Entwicklung einer Schnittstelle zu Planisware
Reporting und Analyse: MicroStrategy-Berichte
Projekt: Automatisierung der Datenverarbeitung für dynamische Preisgestaltung Januar 2024 – Oktober 2024
Kunde: E.ON | München/Essen | Energiesektor
Rolle: Snowflake Data Architekt
Automatisierung der Datenverarbeitung für die dynamische Preisgestaltung hat die Fehlerquote, die früher durch die manuelle Datenaufbereitung verursacht wurde, erheblich verringert.
Entwicklung des MVP für das dbt-Projekt mit anschließender Implementierung in die Produktionsumgebung der IT-Systeme des Kunden. Dies ermöglichte es, die Analyse der aktuellen Datentransformationen zu vereinfachen und die Suche nach Fehlern in der Geschäftslogik zu erleichtern.
Die Implementierung der dbt ermöglichte auch ein besseres und detaillierteres Testen der resultierenden Daten.
Entwicklung der automatisierten Generierung von Data Lineage, um Business Analysten ein besseres Verständnis des Prozesses und der Struktur der Abhängigkeiten in den Datenschichten zu ermöglichen.
Ergebnisse:
Reduzierter Fehleranteil: Die Anzahl der fehlerhaften Daten in den Pipelines konnte um 15 % reduziert werden, was zu einer zuverlässigeren Datengrundlage für Preisanpassungsmodelle führt.
Verkürzte Entwicklungszeit: Die Implementierung neuer Datenpipelines konnte um 50 % beschleunigt werden, wodurch sich das EVU schneller an veränderte Marktbedingungen anpassen kann.
Modernisierte Datenarchitektur: Eine neue, skalierbare und performante Datenarchitektur wurde modelliert, die die Grundlage für die Entwicklung neuer intelligenter Preisanpassungssysteme bildet.
Optimierte Datenpipelines: dbt wurde implementiert und die Pipelines optimiert, um eine effiziente und flexible Datenverarbeitung zu gewährleisten.
Darstellung der Daten in Grafana
Technologie-Stack: dbt, Dagster, Azure Cloud, Python, Snowflake, Azure Data Factory, Azure Kubernetes Service (AKS), DuckDB, Grafana Tools: Jira, Confluence
Projekt: Aufbau des DWH und Reportingsysteme September 2023 – jetzt
Kunde: Carl Zeiss | Aalen | Feinmechanik und Optik
Rolle: Lead Data Engineer / Big Data Architekt
Dekomposition und Vereinfachung der Gesamtarchitektur des Databricks-Projekts, um sie sicherer, modularer und wartungsfreundlicher zu machen.
Implementierung von Pipelines für den Empfang von Daten in verschiedenen Formaten (direkt über REST, als Dateien im Blob-Speicher, Mongo DB-Dokumente usw.)
Hinzufügen neuer Transformationen der Daten in das spezifizierte Datenmodell gemäß einer definierten Geschäftslogik (Databricks, PySpark, Delta Tables, Azure Data Factory und natürlich SQL-Abfragen)
Einrichtung eines Data Warehouse (Azure SQL und Time Series Mongo DB)
Ermöglicht die Durchführung des ETL-Prozesses fast in Echtzeit; die Dateien werden sofort nach Erhalt oder in kleinen Stapeln alle x Sekunden verarbeitet: Pushen von Daten aus verschiedenen Quellen an Kafka ESB und deren Verarbeitung durch Delta Live Tables
Entwickeln und Konfigurieren von Services und DWH-Systemen in der Azure Cloud-Umgebung
Leitung eines Teams von Dateningenieuren: Planung und Priorisierung von Aufgaben, Teamimplementierung neuer Funktionen in die IT-Systeme des Kunden, Durchführung von Retro- und Tagesbesprechungen
Entwicklung des MVP für das dbt-Projekt mit anschließender Implementierung in die Produktionsumgebung der IT-Systeme des Kunden. Dies ermöglichte es, die Analyse der aktuellen Datentransformationen zu vereinfachen und die Suche nach Fehlern in der Geschäftslogik zu erleichtern.
Erstellung von Datensätzen auf der Grundlage der internen Dokumentation und des bestehenden Datenmodells, um Azure AI Search mit Daten zu füllen und eine intelligente Analyseplattform zu entwickeln (LLM + Azure KI Services)
Ergebnisse:
Skalierbarkeit: Das neue System ist in der Lage, die wachsenden Datenmengen effizient zu verarbeiten und zu analysieren. (Skalierbarkeit um 400 % gesteigert).
Flexibilität: Die Cloud-native Architektur ermöglicht eine flexible Anpassung an sich ändernde Geschäftsanforderungen. (Vereinfachung der Integration neuer Datenquellen und Geschäftslogik).
Performance: Die Datenverarbeitung erfolgt deutlich schneller und effizienter. (Verkürzung der Datenverarbeitungszeit um 80 %).
Wartbarkeit: Der Code ist sauber, modular und gut dokumentiert, was die Wartung und Weiterentwicklung vereinfacht. (Reduktion der Ausfallzeiten auf unter 5 %).
Technologie-Stack: Azure Cloud, Python, SQL Server/Azure Synapse Analytics, Azure Data Factory, Databricks, dbt , Azure OpenAI Tools: Azure DevOps, Confluence
Projekt: Aufbau des DWH und Reportingsysteme Mai 2023 – September 2023
Kunde: Encavis | Hamburg | Erneuerbare Energien
Rolle: Senior Data Engineer
Implementierung von Multithreading-Datenverarbeitung in Python und Prefect, was zu einer erheblichen Optimierung der Verarbeitung von Zeitreihendaten führte.
Realisierung von Echtzeit-Datenpipelines mit Snowpipe von Snowflake
Erstellung und Beschreibung eines Datenmodells und eines Datenspeichersystems mit DBT.
Entwicklung von ETL-Pipelines für das Berichtswesen im Bereich Erneuerbare Energien (dbt + Prefect)
Messung der Datenqualität mithilfe statistischer Methoden
Erstellung und Unterstützung von Big-Data-Verarbeitungspipelines
Entwickelte und Konfigurierte Dienste und DWH-Systeme in der Azure-Cloud-Umgebung mit Terraform
Technologie-Stack: Terraform, Azure Cloud, Python, Snowflake, Prefect, dbt, Swagger, Azure Kubernetes Service (AKS), Tools: Azure DevOps, Jira, Confluence, Miro, Power BI
Projekt: Aufbau des DWH und Reportingsysteme April 2022 – Mai 2023
Kunde: Catella (über age works services GmbH) | Berlin | Immobilien
Rolle: Senior Data Architekt / Business Intelligenz Spezialist
Entwicklung und Einführung eines Modells für maschinelles Lernen, das zur Vorhersage von Mieten mit einer Genauigkeit von über 91 % verwendet wurde.
Erstellung eines Modells zur Optimierung der Vorhersage von Immobilienbewertungen anhand von Textbeschreibungen.
Entwicklung in Python von ETL-Pipelines für Reporting (Dagster mit dbt)
Entwicklung von Berichten, die GIS-Daten und -Strukturen verwenden, um operative Indikatoren auf einer Europakarte darzustellen
Entwerfen von technischen Datenbankmodellen in Data Vault
Automatisierung interner Prozesse: Einführung von automatisierten CI/CD, Python/SQL Testen in die Produktionsumgebung.
Organisation der Migration von Daten von Azure (Microsoft SQL-Server) zum Snowflake
Planen einer Architektur und Implementieren eines Testsystems für Fachanwender zur Einhaltung hoher Datenqualitätsstandards
Technologie-Stack: AWS, Python, asyncio, Snowflake, Tableau, DataDog, Dagster, dbt, CloudWatch, S3, Kinesis, Step Functions, AWS Glue Kafka, Firehose, Amazon EMR, EKS Tools: GitHub, Jira, Confluence, Miro
Projekt: Digitalisierung des Meldewesens Oktober 2021 – Dezember 2022
Kunde: ING-DiBa | Frankfurt am Main | Banking
Rolle: Senior Data Engineer / Business Intelligenz Spezialist
Entwicklung von ETL-Pipelines für Meldewesensysteme. Beschleunigung der gesamten täglichen Ladezeit um bis zu 40%
Mitarbeit an Digitalisierungsprojekten der Bank (Spezifikation der Architektur von ETL-, Data Lake- und DWH-Systemen).
Automatisierung interner Prozesse: Einführung von automatisierten CI/CD, Testen in die Produktionsumgebung.
Vorbereitung von Spikes und Prototypen für die Migration älterer ETL-Lösungen in die Cloud-Infrastruktur
Entwicklung von ETL-Prozessen für Anti-Financial Crime (AFC) Berichte.
Technologie-Stack: Java, DataStage, Oracle DB 21c, PL/SQL, Databricks + Spark, Power BI Azure, PowerShell Tools: Bitbucket, Jira, Confluence
Projekt: Migration des DWHs für Meldewesen Oktober 2019 – Oktober 2021
Kunde: KFW (über Senacor) | Frankfurt am Main | Banking
Rolle: IT-Berater, Data Engineering und Business Intelligenz
Implementierung von komplexen Datenintegrationsprozessen auf Basis moderner ETL-Frameworks in Informatica;
Entwerfen von technischen Datenbankmodellen auf der Basis verschiedener Modellierungsparadigmen (3NF, Data Vault, Star, ...);
Co-Design von kundenspezifischen Frameworks innerhalb der eingesetzten ETL-Tools;
Automatisierung von Datenqualitätstests für ETL-Pipelines (PL/SQL, Bash, Jenkins).
Entwicklung von ETL-Prozessen für Anti-Financial Crime (AFC) Berichte.
Technologie-Stack: Python, Informatica, DB2, PL/SQL, Unix (AIX) & bash, Power BI Tools: Gerrit, Jira, Confluence
Projekt: Aufbau von Big-Data-Pipelines für Tradingdaten April 2019 – Oktober 2019
Kunde: WorldQuant (über Luxoft) | Austin, United States | Technologie für die Finanzindustrie.
Rolle: Data Engineer / Data Scientist
Zeitreihenanalyse, Gruppierung, Anomalieerkennung, Dimensionalitätsreduktion
Datenanalyse von Big Data im Finanzhandel. Verwaltung von mehr als 3 TB an Datensätzen mit Zeitreihen.
Das ETL-Szenario wurde umgeschrieben, um es von 11 Verarbeitungsstunden auf 45 Minuten zu beschleunigen.
Verhinderung von Geldverlusten durch das entwickelte Alarmsystem für die Qualität der Handelsdaten
Standardisierung des Beitrags von ETL-Skripten zur aktuellen Datenpipeline unter Verwendung von BPMN und DFD (Datenflussdiagramm)
Technologie-Stack: Python, Pandas, Matplotlib, Dask, Linux & bash, NumPy, SciPy, Vertica DB, MySQL Tools: GitLab, Jira, Confluence Frameworks: Apache AirFlow, Real-Time data Processing
Projekt: Datenanalyse für Marketing Team Feb 2018 - Oktober 2018
Kunde: IQ Option | Saint Petersburg | Technologie für die Finanzindustrie.
Rolle: Data Scientist
Entwicklung von Modellen zur Vorhersage der profitabelsten Kundengruppen mit Hilfe von Random Forest Classifier (Vorhersage von Marketing Qualified Leads)
Modellierung und Prognose von Kundenzahlungsströmen.
Erstellen eines Mikrodienstes zur Bereitstellung regelmäßiger Datensätze für einen ständig selbstlernenden NLP-Algorithmus für maschinelles Lernen, der einen intelligenten Nachrichten-Feed bereitstellt.
Etablierung von Standards für die Dokumentation von Data-Science-Modellen
Entwicklung von Marketingberichten in Shiny und Tableau für die tägliche Nutzung und ETL-Prozesse unter Verwendung von Google Analytics API
Technologie-Stack: Python, R, Shiny, Scikit-learn, GreenPlum, Docker, GIT, Linux, NumPy, Tableau, Tools: Gitlab, Jira
Projekt: Automatisierung von Dokumenten im Kunden- und Logistikmanagement Jul 2015 - Feb 2018
Kunde: Baltic Land | Saint Petersburg | Logistik
Rolle: System Analyst, Data Analyst
Analyse und Automatisierung von internen Geschäftsprozessen mit Camunda BPM
Integrierung und leitende Entwicklung einer internen Android-Anwendung zur Digitalisierung von Geschäftsprozessen
Entwicklung der persönlichen Kontoanwendung für Firmenkunden.
Datenanalyse im Bereich Internet-Marketing mit Integration verschiedener Dashboards in das Unternehmens-CRM
Sorge für die Pflege und Optimierung der Unternehmenswebsite: Entwicklung und Anpassung von Plugins für das Drupal Content-Management-System (CMS).
Leitung der Entwicklung des internen Marketing-Tools: Überprüfung der Abnahmetestspezifikationen und gelegentliche Durchführung von Abnahmetests der entwickelten Funktionalität, Erstellung der Spezifikations
Vorbereiten von Finanzberichten für die Unternehmensleitung
Entwicklung von ETL-Pipelines in SQL-Server Integration Services
Technologie-Stack: Highcharts JS, MS SQL, MS SQL-Server, PHP, Python
Notationen: Web service schemas (WSDL/XSD), Camunda BPMN, UML Tools: Archimate
Projekt: Cloud IT-Infrastruktur Aufbau Jul 2013 - Jul 2015
Kunde: Prometey | Saint Petersburg | Steuerberatung
Rolle: Systemingenieur
Das Projekt wurde ins Leben gerufen, nachdem ein Problem im Zusammenhang mit dem schnellen Wachstum des Unternehmens erkannt wurde: das Fehlen einer komfortablen und kostengünstigen Unternehmensinfrastruktur, die für die Arbeit mit umfangreichen Desktop-Anwendungen wie 1C Accounting, 1C Salary und Staff Management erforderlich ist. Daher wurde beschlossen, alle Daten von den lokalen Büro-PCs auf den Cloud-Server zu migrieren, wo die notwendige Infrastruktur wie ein Terminalserver für den Fernzugriff auf die gewünschten Anwendungen eingerichtet werden sollte. Im Rahmen dieses Projektes wurden Windows 2012 Server mit MS SQL-Server, Windows Terminal Server 1C Programme installiert, ein Raid 10 Disk Array erstellt und das inkrementelle Backup System konfiguriert.
Verantwortlichkeiten:
Betrieb von Windows Server 2012 (Terminal Server 1C), Ubuntu Server 12.04 (Web Services Firma, XMPP Chat für Mitarbeiter, VPN für Remote Desktop Access)"
Anpassung des Cloud-Systems EDI (OwnCloud / Nextcloud + Onlyoffice Dokumentenserver)
Betreuung und Weiterentwicklung der Firmenwebsite: Entwicklung und Anpassung der Plugins für das Wordpress CMS (Content-Management-Systemen)
Entwicklung einer Software zur Automatisierung der Erstellung von physischen Mailings
Pflege von Backups und Reservierungen
Technologie-Stack: Windows Server, Docker, Linux, Nginx, Python, PowerShell, OpenSSL
Datenarchitekt
Ausbildung
Technische Universität Ilmenau
Ilmenau
Über mich
herzlich willkommen auf meinem Profil und besten Dank für Ihr Interesse!
Als Data Cloud Architekt und Lead Data Engineer verfüge ich über mehr als zwölf Jahre Erfahrung in der IT-Beratung. In dieser Zeit realisierte ich Projekte für namhafte Unternehmen wie DM, E.ON, Carl Zeiss, Encavis, ING, KfW, WorldQuant, Catella und IQ Option. Meine Expertise umfasst folgende Kernbereiche:
Cloud Data Engineering
Datenmigration & -integration
Data-Lake-Architekturen
BI-/Data-Warehouse-Lösungen
Fachkompetenz im Überblick:
Architektur & Entwicklung : Konzeption, Design und Implementierung von ETL/ELT-Pipelines für Data Warehouses und Data Lakes mit Tools wie Apache Airflow, Kafka, AWS Glue, Databricks (Azure), Informatica PowerCenter und Azure Data Factory.
Datenmodellierung : Spezialisiert auf dimensionale Modellierung (Star/Snowflake-Schema) und Data Vault 2.0 (Raw/Business Vault).
Datenquellen : Umgang mit strukturierten/halbstrukturierten Formaten (Datenbanken, Parquet, REST-APIs, CSV/XML/JSON).
Datenschichtdesign : Aufbau mehrstufiger Architekturen (Stage Layer, Core Layer, Reporting Layer) zur Optimierung von Datenqualität und Prozesseffizienz.
Teamkoordination : Agile Zusammenarbeit mit Datenarchitekten, Business-Analysten und Produktmanagern bei der Spezifikation von Anforderungen und Systemdesigns.
Projektmethodik : Aktive Mitwirkung in Scrum-Prozessen (Sprint-Planning, User-Story-Erstellung, Task-Definition).
Technologiestack
ETL-Tools :
Apache Airflow, Kafka, PySpark, AWS Glue, Databricks (Azure), dbt, Informatica PowerCenter, Azure Data Factory
Datenbanken :
Snowflake, Redshift, Oracle 21c, Microsoft SQL Server 2019, IBM DB2, Hadoop HDFS, PostgreSQL 10.7, MySQL, Amazon Aurora
Big Data :
Vertica, Dask, Greenplum, ClickHouse, AWS Glue, Kinesis, Hadoop 2.0, Hive
Cloud :
AWS, Databricks, S3, AWS RDS (PostgreSQL), Azure Blobs, Azure Batch, Azure Data Factory, Kubernetes, Docker
Reporting & Visualisierung :
Power BI, Tableau, Shiny, Matplotlib, Plotly
Modellierung :
3. Normalform (3NF), Dimensional Modeling, Data Vault 2.0
Methodiken :
Agile, Scrum, Waterfall
Programmiersprachen :
Python (Flask, Pandas, PyTorch, Scikit-learn, PM4Py), R, PowerShell, JavaScript, Java, SQL/T-SQL/PL-SQL, UNIX/Bash
Data Science :
Data Mining : Betriebsdatenanalyse, Process Mining (PM4Py), Web Scraping (Selenium)
Machine Learning : Deep Learning, Computer Vision, NLP, Statistische Modellierung
Modellierungstools :
SAP PowerDesigner
Integration & Planung :
Informatica IICS (Data & Application Integration)
BMC Control-M 9.0.19, Automic UC4, Systemd Timers
Systeme & Infrastruktur :
Linux, AIX, Windows; Hochverfügbarkeitslösungen (RAC, Failover-Cluster), CI/CD, Microservices
Projektmanagement :
Ressourcensteuerung, Qualitätssicherung, A/B-Testing, Kanban
Weitere Kenntnisse
Persönliche Daten
- Deutsch (Muttersprache)
- Englisch (Fließend)
- Europäische Union
- Schweiz
- Vereinigte Staaten von Amerika
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden