Data Engineer

zuletzt online vor wenigen Stunden

Verfügbarkeit einsehen
0 Referenzen

100€/Stunde
Köln
auf Anfrage
de | en
18.01.2025

Kurzvorstellung

			Ich bin ein engagierter Data Engineer mit umfassender technischer Expertise in der Datenverarbeitung, Big Data Technologien und Cloud-Lösungen. Mein Fokus liegt auf dem Aufbau skalierbarer und effizienter Datenarchitekturen und Pipelines.
		

Qualifikationen

		 Amazon Web Services (AWS)2 J.
 Apache Spark3 J.
 Big Data2 J.
 Cloud Computing2 J.
 Data Architect
 Data Engineer3 J.
 Data Science
 Databricks1 J.
 Docker2 J.
 Git2 J.
 Golang2 J.
 Microsoft Azure1 J.
 Open Source2 J.
 Python4 J.
 SQL2 J.

		

Projekt‐ & Berufserfahrung

Data Engineer (Festanstellung)
									Xentral ERP System, Remote								

10/2022 – offen (2 Jahre, 4 Monate)

Details anzeigen

Tätigkeitszeitraum

10/2022 – offen

Tätigkeitsbeschreibung

Ergebnisse:
• Übernahme der Verantwortung für verschiedene Bereiche der Datenplattform, einschließlich reibungsloser und zuverlässiger Daten-Workflows. Dazu gehörten die Integration von Kundendaten aus EC2-Instanzen oder über APIs, das Management der Orchestrierungsplattform mit Airflow sowie Datenverarbeitungen in AWS Glue.
• Reduzierung der Cloud-Kosten durch die Implementierung von FinOps-Funktionen, Nutzung von AWS Cost Reports und automatisierten Observability-Metriken.
• Aufbau einer robusten Orchestrierungsschicht durch Einrichtung eines selbstgehosteten Airflow-Clusters auf AWS ECS. Dies führte zu einer vollständigen Beseitigung unerkannter Pipeline-Ausfälle. Gleichzeitig wurden alle bestehenden Pipelines nahtlos migriert, um die betriebliche Effizienz zu steigern.
• Steigerung der Datenverarbeitungseffizienz durch die Integration von Apache Iceberg in die Datenarchitektur, wodurch fortschrittliche Data-Lakehouse-Funktionen ermöglicht wurden.
• Aufbau einer anspruchsvollen Dateninfrastruktur mit Terraform zur Verbesserung der Self-Service-Funktionen.
• Entwicklung leistungsfähiger MLOps-Fähigkeiten für einen selbstgehosteten KI-Bot durch den Aufbau einer serverlosen Architektur mit OpenAI, Qdrant, Airflow und AWS Lambda/ECS.
• Implementierung eines benutzerdefinierten Datenqualitäts-Frameworks mit PyDeequ, PySpark und AWS Glue, um die Datenqualität und Zuverlässigkeit zu verbessern. Automatisierte Slack-Benachrichtigungen wurden integriert, um eine proaktive Überwachung durch rechtzeitige Warnungen bei Datenqualitätsproblemen, Anomalien, Duplikaten und automatischen Rollbacks sicherzustellen.
• Backend-Datenverarbeitung mit Golang implementiert
• Einführung neuer ereignisbasierter Workflows mit Kafka zur Verbesserung der Datenverarbeitungsfunktionen.
• Etablierung von Datenverträgen, um Katalogisierungsprozesse zu optimieren und das Onboarding neuer Datensätze effizienter zu gestalten.

Eingesetzte Qualifikationen

Apache Spark, Big Data, Open Source, SQL, Docker, Git, Python, Cloud Computing, Data Engineer, Amazon Web Services (AWS), Golang

Data Engineering Consultant (Festanstellung)
									Capgemini, Wien								

10/2021 – 10/2022 (1 Jahr, 1 Monat)

Details anzeigen

Tätigkeitszeitraum

10/2021 – 10/2022

Tätigkeitsbeschreibung

Ergebnisse:
• Behebung einer fehleranfälligen Datenpipeline in der Kundenanwendung, wodurch die Effizienz der Datenverarbeitung verbessert und ein reibungsloserer Datenfluss gewährleistet wurde.
• Entwicklung und Implementierung eines NLP-basierten Klassifizierungssystems für Bewerberanwendungen, das die manuelle Bearbeitungszeit erheblich reduzierte und die Entscheidungsfindung beschleunigte.
• Erfolgreiche Durchführung eines Proof of Concept (PoC) für die NLP-Datenpipeline, das Datenengineering, NLP, Python und Streamlit integrierte und dessen Wirksamkeit in einer Streamlit-Anwendung demonstrierte.
• Implementierung eines Datenschutzfilters für DSGVO-konforme Verarbeitung von Textdaten, um Datensicherheit und Compliance sicherzustellen.
• Leitung von Workshops zur Schulung der technischen Teams des Kunden in modernen Datenengineering-Tools mit Schwerpunkt auf Apache Spark in der Databricks-Umgebung. Die Inhalte umfassten Spark DataFrames, Schema-Validierung sowie den Umgang mit JSON-, XML-, Parquet- und Delta-Tabellen.

Eingesetzte Qualifikationen

Apache Spark, Databricks, Python, Data Engineer, Microsoft Azure

Data Scientist (Festanstellung)
									Deloitte, Frankfurt am Main								

11/2020 – 5/2021 (7 Monate)

Details anzeigen

Tätigkeitszeitraum

11/2020 – 5/2021

Tätigkeitsbeschreibung

Ergebnisse:
• Vereinfachung des komplexen Verkaufsprozesses durch Bereitstellung eines einfachen Zugangs zu internen Machine-Learning-Anwendungen für das Vertriebsteam und andere Stakeholder.

• Umsetzung einer konzeptionellen Lösung durch die Bereitstellung der Anwendungen in der Cloud, was die Zugänglichkeit verbesserte und Reibungsverluste bei Demonstrationen reduzierte.

• Einsatz von Containerisierung mit Docker für AIstudio-Anwendungen und deren Bereitstellung in Cloud-Umgebungen wie IBM Cloud Foundry und IBM Cloud Engine.

• Anwendung agiler Entwicklungsmethoden mit Jira, Bitbucket und Git, um einen effizienten und kollaborativen Entwicklungsprozess zu gewährleisten.

• Erfolgreiche Bereitstellung einer Vielzahl von Anwendungen, die zu höherer Kundenbindung und verbesserten Demonstrationserfahrungen führten.

Eingesetzte Qualifikationen

Docker, Python, Cloud Computing

Data Scientist (Festanstellung)
									Mentech Innovation, Eindhoven								

4/2020 – 7/2020 (4 Monate)

Details anzeigen

Tätigkeitszeitraum

4/2020 – 7/2020

Tätigkeitsbeschreibung

Ergebnisse:
• Bewältigung der Produktentwicklungsherausforderung eines Emotionserkennungsgeräts durch Vorschlag und Implementierung einer zusätzlichen Vorhersageschicht.

• Konzeption und Umsetzung der Lösung zur Verbesserung der Vorhersagegenauigkeit durch die Gestaltung und Implementierung der neuen Schicht auf der bestehenden Software.

• Entwicklung eines automatischen Spracherkennungssystems mit integrierter Sprachstimmungsanalyse unter Nutzung von Open-Source-Modellen und Cloud-Diensten (Google Cloud Platform, Deepspeech, Wavenet, BERT).

Eingesetzte Qualifikationen

Machine Learning, Python

Weitere Projekt‐ & Berufserfahrung anzeigen Weitere Projekt‐ & Berufserfahrung ausblenden

Ausbildung

Data Science

Master of Science
University of Tilburg

2021
Tilburg

Psychology

Bachelor of Science
University of Groningen

2019
Groningen

Über mich

			Mein Fokus liegt auf dem Aufbau skalierbarer und effizienter Datenarchitekturen und Pipelines, wobei ich Werkzeuge wie Apache Spark, SQL und Python nutze. Mit fundierter Erfahrung in Cloud-Plattformen wie AWS und Azure stelle ich sicher, dass Dateninfrastrukturen robust und flexibel genug sind, um große Datenmengen effizient zu verwalten.

Ich bin versiert in ETL-Prozessen, der Datenorchestrierung und -transformation und habe Erfahrung mit Terraform zur Automatisierung von Infrastrukturen. Zudem bringe ich Fachwissen im Bereich MLOps mit und arbeite mit OpenAI und Qdrant an maschinellen Lern-Workflows.

Mit Zertifizierungen in Azure Data Engineering, Databricks und Machine Learning strebe ich kontinuierlich danach, durch innovative Datenlösungen Geschäftsstrategien zu verbessern.

Technologien im Fokus:

• Python, Spark, SQL, Golang

• Terraform, Airflow

• AWS, Azure

• Apache Iceberg, OpenAI, Qdrant

Mit einem tiefen Interesse an der transformativen Kraft von Daten suche ich nach Möglichkeiten, meine Fähigkeiten einzusetzen, um wirkungsvolle Datenlösungen zu entwickeln, die Innovation und Effizienz vorantreiben.

Persönliche Daten

Sprache

							Deutsch (Muttersprache)
Englisch (Fließend)

Reisebereitschaft

auf Anfrage

Arbeitserlaubnis

Europäische Union

Home-Office

bevorzugt

Profilaufrufe

Alter

Berufserfahrung

							4 Jahre und 9 Monate
							(seit 04/2020)
							

Kontaktdaten

Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.

Jetzt Mitglied werden