Data Engineer
- Verfügbarkeit einsehen
- 0 Referenzen
- 100€/Stunde
- Köln
- auf Anfrage
- de | en
- 24.11.2024
Kurzvorstellung
Qualifikationen
Projekt‐ & Berufserfahrung
10/2022 – offen
Tätigkeitsbeschreibung
Ergebnisse:
• Übernahme der Verantwortung für verschiedene Bereiche der Datenplattform, einschließlich reibungsloser und zuverlässiger Daten-Workflows. Dazu gehörten die Integration von Kundendaten aus EC2-Instanzen oder über APIs, das Management der Orchestrierungsplattform mit Airflow sowie Datenverarbeitungen in AWS Glue.
• Reduzierung der Cloud-Kosten durch die Implementierung von FinOps-Funktionen, Nutzung von AWS Cost Reports und automatisierten Observability-Metriken.
• Aufbau einer robusten Orchestrierungsschicht durch Einrichtung eines selbstgehosteten Airflow-Clusters auf AWS ECS. Dies führte zu einer vollständigen Beseitigung unerkannter Pipeline-Ausfälle. Gleichzeitig wurden alle bestehenden Pipelines nahtlos migriert, um die betriebliche Effizienz zu steigern.
• Steigerung der Datenverarbeitungseffizienz durch die Integration von Apache Iceberg in die Datenarchitektur, wodurch fortschrittliche Data-Lakehouse-Funktionen ermöglicht wurden.
• Aufbau einer anspruchsvollen Dateninfrastruktur mit Terraform zur Verbesserung der Self-Service-Funktionen.
• Entwicklung leistungsfähiger MLOps-Fähigkeiten für einen selbstgehosteten KI-Bot durch den Aufbau einer serverlosen Architektur mit OpenAI, Qdrant, Airflow und AWS Lambda/ECS.
• Implementierung eines benutzerdefinierten Datenqualitäts-Frameworks mit PyDeequ, PySpark und AWS Glue, um die Datenqualität und Zuverlässigkeit zu verbessern. Automatisierte Slack-Benachrichtigungen wurden integriert, um eine proaktive Überwachung durch rechtzeitige Warnungen bei Datenqualitätsproblemen, Anomalien, Duplikaten und automatischen Rollbacks sicherzustellen.
• Backend-Datenverarbeitung mit Golang implementiert
• Einführung neuer ereignisbasierter Workflows mit Kafka zur Verbesserung der Datenverarbeitungsfunktionen.
• Etablierung von Datenverträgen, um Katalogisierungsprozesse zu optimieren und das Onboarding neuer Datensätze effizienter zu gestalten.
Apache Spark, Big Data, Open Source, SQL, Docker, Git, Python, Cloud Computing, Data Engineer, Amazon Web Services (AWS), Golang
10/2021 – 10/2022
Tätigkeitsbeschreibung
Ergebnisse:
• Behebung einer fehleranfälligen Datenpipeline in der Kundenanwendung, wodurch die Effizienz der Datenverarbeitung verbessert und ein reibungsloserer Datenfluss gewährleistet wurde.
• Entwicklung und Implementierung eines NLP-basierten Klassifizierungssystems für Bewerberanwendungen, das die manuelle Bearbeitungszeit erheblich reduzierte und die Entscheidungsfindung beschleunigte.
• Erfolgreiche Durchführung eines Proof of Concept (PoC) für die NLP-Datenpipeline, das Datenengineering, NLP, Python und Streamlit integrierte und dessen Wirksamkeit in einer Streamlit-Anwendung demonstrierte.
• Implementierung eines Datenschutzfilters für DSGVO-konforme Verarbeitung von Textdaten, um Datensicherheit und Compliance sicherzustellen.
• Leitung von Workshops zur Schulung der technischen Teams des Kunden in modernen Datenengineering-Tools mit Schwerpunkt auf Apache Spark in der Databricks-Umgebung. Die Inhalte umfassten Spark DataFrames, Schema-Validierung sowie den Umgang mit JSON-, XML-, Parquet- und Delta-Tabellen.
Apache Spark, Databricks, Python, Data Engineer, Microsoft Azure
11/2020 – 5/2021
Tätigkeitsbeschreibung
Ergebnisse:
• Vereinfachung des komplexen Verkaufsprozesses durch Bereitstellung eines einfachen Zugangs zu internen Machine-Learning-Anwendungen für das Vertriebsteam und andere Stakeholder.
• Umsetzung einer konzeptionellen Lösung durch die Bereitstellung der Anwendungen in der Cloud, was die Zugänglichkeit verbesserte und Reibungsverluste bei Demonstrationen reduzierte.
• Einsatz von Containerisierung mit Docker für AIstudio-Anwendungen und deren Bereitstellung in Cloud-Umgebungen wie IBM Cloud Foundry und IBM Cloud Engine.
• Anwendung agiler Entwicklungsmethoden mit Jira, Bitbucket und Git, um einen effizienten und kollaborativen Entwicklungsprozess zu gewährleisten.
• Erfolgreiche Bereitstellung einer Vielzahl von Anwendungen, die zu höherer Kundenbindung und verbesserten Demonstrationserfahrungen führten.
Docker, Python, Cloud Computing
4/2020 – 7/2020
Tätigkeitsbeschreibung
Ergebnisse:
• Bewältigung der Produktentwicklungsherausforderung eines Emotionserkennungsgeräts durch Vorschlag und Implementierung einer zusätzlichen Vorhersageschicht.
• Konzeption und Umsetzung der Lösung zur Verbesserung der Vorhersagegenauigkeit durch die Gestaltung und Implementierung der neuen Schicht auf der bestehenden Software.
• Entwicklung eines automatischen Spracherkennungssystems mit integrierter Sprachstimmungsanalyse unter Nutzung von Open-Source-Modellen und Cloud-Diensten (Google Cloud Platform, Deepspeech, Wavenet, BERT).
Machine Learning, Python
Ausbildung
University of Tilburg
Tilburg
University of Groningen
Groningen
Über mich
Ich bin versiert in ETL-Prozessen, der Datenorchestrierung und -transformation und habe Erfahrung mit Terraform zur Automatisierung von Infrastrukturen. Zudem bringe ich Fachwissen im Bereich MLOps mit und arbeite mit OpenAI und Qdrant an maschinellen Lern-Workflows.
Mit Zertifizierungen in Azure Data Engineering, Databricks und Machine Learning strebe ich kontinuierlich danach, durch innovative Datenlösungen Geschäftsstrategien zu verbessern.
Technologien im Fokus:
• Python, Spark, SQL, Golang
• Terraform, Airflow
• AWS, Azure
• Apache Iceberg, OpenAI, Qdrant
Mit einem tiefen Interesse an der transformativen Kraft von Daten suche ich nach Möglichkeiten, meine Fähigkeiten einzusetzen, um wirkungsvolle Datenlösungen zu entwickeln, die Innovation und Effizienz vorantreiben.
Persönliche Daten
- Deutsch (Muttersprache)
- Englisch (Fließend)
- Europäische Union
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden