Freelance expert for Data Engineering, Machine Learning and DevOps with 10 years of experience in Data Engineering and Data...
- Verfügbarkeit einsehen
- 0 Referenzen
- auf Anfrage
- 68161 Mannheim
- Weltweit
- de | en | es
- 04.09.2024
Kurzvorstellung
Qualifikationen
Projekt‐ & Berufserfahrung
6/2024 – 12/2024
Tätigkeitsbeschreibung
Optimize the existing ranking model to generate a list of potential investst.
By applying different techniques: data cleansing and preprocessing, feature generation with a focus on the use case, exlainability, label cleansing, feature importance (Shapley, gini), feature selection, model training, model monitoring
Incorporated AutoML to the pipeline to speed up the evaluation process.
Investigated different business KPIs and weighted those by importance.
Evaluated the potential of integrating GenAI to allow for more insights of potential invests.
Leading and provide support to junior scientists.
Build up and optimize everything in Azure Data Factory. with components of Azure Machine Learning, Buckets, python scripts, scheduling, REST Api
Data Science, Generative KI, Microsoft Azure, Representational State Transfer (REST), Technische Projektleitung / Teamleitung
2/2024 – 6/2024
Tätigkeitsbeschreibung
• Implementierung von Funktionen im Bereich Generative AI (GenAI) zur Verbesserung der Antworten und der Nutzerzufriedenheit (Query Classi-fication, Metadatenfiltering, Datenmodellierung, User Intent Classificati-on, Chain of Thoughts (CoT), Prompt Optimierung, Query Decompositi-on, Multiquerying, Prompt Libararies, Batch Querying)
• Implementierung eines kontinuierlichen Monitoring Prozesses auf Basis von API und Log Daten. Hierfür Entwicklung der API und des Log Daten-modells und der zugehörigen Implementierung, Definition der verschie-denen Analyse-Themen für das Monitoring, Implementierung des Terra-formcodes zur Daten- und Dashboard-Erstellung in GCP
• Entwicklung und Etablierung eines kontinuierlichen Prozesses zur Evalua-tion der Qualität und zum Finden von mangelhaften Antworten
• Insgesamt: Optimierung der Entwicklungs- und Produktiv-Umgebung
Beitrag:
• Verbesserung der Antwortqualität und Nutzerzufriedenheit, um 30% basierend auf Nutzerbefragungen und entwickelten Evaluationsmetri-ken zur Quantifizierung der Qualität
• Durch die Erweiterung und Optimierung der LLM-Softwareplattform, Beitrag geleistet, dass 12 PT eines 4 köpfigen Teams in einem Quartal durch die Nutzung der LLM-Softwareplattform für das ‚daily Business‘, eingespart werden können.
• Reduktion der Kosten beim Forschungsteam (von 10k€ auf 2k€ reduziert durch Änderungen in der Software-Architektur und Workshops zu Best-Practices)
• Verfahren und Prozess entwickelt und etabliert zum Messen (quantifizie-ren) der Systeme, von Funktionsänderungen, Optimierungen
Amazon Web Services (AWS), Elasticsearch, Generative KI, Google Cloud, GPT, Langchain, Large Language Models, Pandas, Postgresql, Python
4/2023 – 3/2024
Tätigkeitsbeschreibung
* Umsetzung eines LLM-basierten (OpenAI GPT-4) Anwendungsfalls
• Kosten und Performance-Optimierung eines Regressions-basierten An-wendungsfall zur Priorisierung von Service-Tickets. Durchführung von Model und Feature Erklärern (SHAP, Tree und Forest Visualisierung). Do-kumentation der Evaluations und Optimierungsläufe, Übergabe und Schulung an interne Mitarbeiter.
• Kosten Optimierung von Azure Databricks Jobs (teilweise bis zu 70% bei tgl. laufenden Jobs)
• Fortführung der Migration der Plattformlösungen in die Azure-Umgebung
• Migration des Model und Data Science Managements zu MLFlow und In-tegration in CICD-Pipeline
Apache Spark, Databricks, Continuous Delivery, DevOps (allg.), Docker, Generative KI, GPT, Kubernetes, Large Language Models, Microsoft Azure, Microsoft Cognitive Toolkit (CNTK), Microsoft Publisher, Python, Tableau, Vektordatenbank
11/2022 – 3/2023
Tätigkeitsbeschreibung
Konzeption und Umsetzung eines LLM basierten Question-Answering Services für den Syntethic Teaching Assistant. Hierzu Aufbau einer Haystack basierten NLP-Pipeline mit Retriever und Ranking Nodes. Datenaufbereitung und -bereitstellung innerhalb einer Neural-Search (Weaviate) basierten Umgebung.
Integration von LLM (OpenAI GPT-3, GPT-3.5, GPT-4) in den Service. Prompt Engi-neering und Service Message Entwicklung und Optimierung.
Konzeption und Umsetzung einer User-Testphase.
Bereitstellung als produktiver containerisierter FastAPI Service in gesamt Arichtektur von Syntea
Generative KI, GPT, Large Language Models, Vektordatenbank, Docker, Schnittstellenentwicklung, Amazon Web Services (AWS), Json, Representational State Transfer (REST)
5/2022 – 6/2023
Tätigkeitsbeschreibung
Konzeption und Umsetzung von KPI Dashboards für die verschiedenen Fachberei-che. Hierzu Erstellung von Datensätzen als Aggregat verschiedener Datenquellen (ERP, CRM, Excel, Sharepoint, etc.)
Abbilden der ETL-Strecken mit Schnittstellen oder Dokumentenparsing, über Fil-tering, Joining etc. in Python und Persistieren in MariaDB. Konzeption geeigneter Datenmodelle zur Wiederverwendbarkeit der erstellen Datensätze. Erstellen von Dashboards in PowerBI. Bereitstellen und Präsentation der Dashboards für C-Ebene.
KPI u.a. CustomerLifetimeValue, EBITDA, Gross Marge, Churn
Konzeption und Umsetzung eines zeitreihenbasierten Systems zur Einkaufsopti-mierung von Rohstoffen und Präparaten von Abfüllern.
Optimierung und Fehlerbehebung im bestehenden Data Analytics Systemen zur monatlichen Auswertung von Umsatz- und Absatzzahlen.
Implementierung von Termingesteuerten Applikationen für Data Science und Analytics Aufgaben (automatisierte Ende zu Ende Applikation).
Beratung und Umsetzung zur Optimierung der Data Analytics Systeme, Datenar-chitektur und Datenmodellierung mit Datenspeicherung.
Power Bi, Mariadb, Microsoft Dynamics Crm, Scikit-learn, Git, Python, Microsoft Azure, Representational State Transfer (REST)
6/2021 – 12/2021
Tätigkeitsbeschreibung
Planung und Strategische Umsetzung eines PoC innerhalb eines Docker Contai-ners auf der Open Telecom Cloud (OTC).
Hierzu Konzeption und Nachverfolgung des Aufbaus einer ETL-Pipeline, welche Daten aus verschiedenen Quellen (web-gescrapte Daten, API-basierte Daten, Da-ten aus Labeling) zusammenführt, bereinigt und zum Modeltraining und der -prä-diktion vorbereitet.
Für die Projektteam-Empfehlung müssen Informationen zu Skills und Erfahrungs-leveln aus unstrukturierten Daten extrahiert werden. Hierzu werden verschie-dene Named Entities semi-automatisch mit Hilfe eines selbst-trainierten BERT Models extrahiert; dessen Input Daten dienten dazu, die Zieldaten besser zu re-präsentieren.
Die Entitäten stehen in gewisser Relation zueinander, daher werden automati-sche Subgraph-Generierungsalgorihthmen, Graph- und Semantic Map Embed-dings (TransE: Translate Model for KG Embedding, SME) angewendet, um seman-tische Relationen abzubilden. Hierbei war die Informationsextraktion von erhebli-cher Bedeutung.
Für die Trendanalyse der aktuellen Marktsituation müssen Onlineressourcen ge-crawled werden und basierend auf diesen Zeitreihen aufgebaut werden; diese müssen entsprechend verarbeitet werden, um einen Saisonalität zu extrahieren und mögliche Trends und Trendwenden des Jobmarkts zu prognostizieren.
Die Implementierung der Teilprojekte wurde in einem typischen Python Data Sci-ence Stack vorgenommen: Daten in pandas Dataframes geladen, diese via stats-models (STL) in Saisonalität, Trend und Residuen zerlegt und mit Matplotlib visua-lisiert.
Entwicklung und Begleitung der Umsetzung einer geeigneten Datenlabelling-Stra-tegie, um die Model-Performances zu verbessern.
Entwicklung und Begleitung der Umsetzung von Code-Standards, CI-CD und Da-tenpipelines, End-to-End (E2e) und Unittests
Darüber hinaus Strategieentwicklung, Unternehmensberatung und Strukturierung, Planung und Betreuung von Projektfortschritten von bestehenden Projek-ten im Rahmen der digital Workforce. Entwicklung von weiteren Anwendungsfäl-len im Bereich der digital Workforce.
Apache Hadoop, Apache Spark, Natural Language Processing, Python, Scikit-learn, Testdesign (IT)
10/2020 – 12/2022
Tätigkeitsbeschreibung
Optimierung und Weiterentwicklung einer KI-Plattformlösung
Erweiterung der vorhandenen KI-Platttform:
• Integration von Explainable AI (SHAP Values / Shapley, L1/L2, t-SNE, …)
• Komplettaufbau verschiedenster Model Monitorings basierend auf statis-tischer Feature für LSTM, Gradient oder XG Boosting Modelle, Binärmo-delle (Random Forests, SVM, etc), Anomalie Modelle
• Feature Monitoring basierend auf statistischer Feature
• Integration von Cleanlab zur Elimination von Noisy Labeln, Erkennung be-ruht hierbei auf Confidence Learning
• Model Reviews und Model Optimierungen durchgeführt, um Laufzeit, Speicherbedarf, Model Vorhersage Qualität zu verbessern und mitunter
• Aufbau neuer KI-basierter Produkte zur Anomalieerkennung teilweise mit Hilfe von Dataiku Recepies. Klassische ML und Deep Learning Verfahren. Optimierung von vorhandenen Zeitreihen-Analysen und Trenderkennung (STL) via Gridsearch und mit weiteren Algorithmen und Verfahren zur Anomalie- und Mustererkennung (RobustSTL, Dynamic-Time-Warping, LSTM, Isolation Forests)
• Entwurf und Implementierung von End-to-End Tests, Unit Tests und CI/CD Pipelines.
• pySpark Funktionen geschrieben. Teilweise Spark UDFs als pandas Funk-tion nachimplemnetiert, um Applikationsentwicklern ein vernünftiges Debugging zu ermöglichen.
• Konzeptionierung und Umsetzung von ORM-basierten Datenbankzugrif-fen für DB-Unabhängigen Code
• Konzeptionierung und Umsetzung von Identity / Autoinkrement Tabellen
• Implementierung komplexer View und Tabellen-Generierungen zur Aug-mentierung von Daten, Joins verschiedener Datenquellen, Verarbeitung vieler Datenmengen, teilweise Extrakte aus JSON Objekten.
• Diverse Refactoring und Migrationsaufgaben.
Komplettaufbau einer Ticketgeneriernden After Deployment Plattform mit SoX Relevanz und finanzieller Bewertung von Incidents:
• Mit Hilfe der Jira API werden Tickets für Fachbereiche und POs generiert
• Tickets werden generiert, wenn Schwellwerte zu basierend auf Statisti-schen Verfahren (Kullback-Leibler, Jensen-Shannon, Population Stability Index, Boosting) anschlagen.
• Integration in unternehmenseigenem Scheduler, damit Jobs zur Generie-rung von Tickets batchartig zu bestimmten Zeitpunkten ausgeführt wer-den
• Komplettaufbau als CI/CD Pipeline mit Linting Stage für Code Standards, End-to-end, Unit und Integrationtests für Code Qualität und automati-schen Deployments.
• Überwachung der Datenbank-Schemata mit Flyway
Komplettaufbau, Tests, CI/CD Pipeline, und Ausrollens eines Dockercontainers für Cloudinstanzen, welcher die unternehmenseigenen Plattformcodes als Bibliothe-ken enthält, welcher Jupyterlab enthält, um Model-Entwicklungsprozesse zu ver-einfachen und alle Verbindungen (mit unterschiedlichen Zugriffs- und Sicherheits-modi, bspw. Zertifikatdateien) zu den verschiedensten Datenquellen bereitstellt.
Datenquellen: Relationale DB (Oracle), distributed (HDFS via Hive), S3 bzw. EBS. Einbindung der verschiedenen Datenquellen in Python Code zum performanten und zuverlässigen Lesen, Verarbeiten und Speichern der Daten.
Lift der Plattform in die Azure Cloud Darüber hinaus:
Visualisierungen von Daten und dem Monitoring in Tableau als sich täglich aktua-lisierendes Dashboard. Besonderer Herausforderung hierbei: die synchronisation der Daten aus verschiedenen Prozessen, um Informationen aus Model, Feature und Konfigurationsdaten oder aus verschiedenen Datenquellen (Oracle, Hive) zu-sammen zu bringen.
Thematisch: Incident / Change Requests, Revenue Assurance
Amazon Web Services (AWS), Apache Hadoop, Apache Spark, Big Data, Continuous Delivery, Data Science, Data Warehousing, Docker, Git, Jira, Oracle-Anwendungen, Python, Scikit-learn, SQL, Tableau, Tensorflow
6/2020 – 8/2022
Tätigkeitsbeschreibung
Konzeption und Beratung zur Umsetzung einer unternehmensweiten Datenstrategie zur Unterstützung datengetrieben im Unternehmen arbeiten zu können.
Konzeption und Planung zum Aufbau einer unternehmenseigenen Digitalisie-rungs- und DataLab Abteilung.
Aufbau einer Data-Governance Strategie.
Vorstellung der Konzepte gegenüber dem Management (C-Level).
Hierzu Erhebung von IST-Zuständen zu den Themen: Technologie, Kultur, Talen-ten, Daten, Struktur
Entwicklung und Evaluation von neuen Geschäftsfeldern
Basierend auf diesen Ergebnissen Erarbeitungen einer unternehmensweiten Da-tenstrategie und Themenspezifische Beratung (bspw. datenbasierte Softwarear-chitektur, virtuelle Datenlayer).
Power Bi, Oracle-Anwendungen, Python, SAP RE-FX, Tableau
6/2020 – 3/2022
Tätigkeitsbeschreibung
Konzeption und Umsetzung diverser datenzentrierter Projekte in der Immobili-enwirtschaft
Unterstützung bei der Migration von SAP ERP auf SAP S4/Hana (April 2021 – Ak-tuell)
Optimierung des vorhandenen Datenmodels, hierzu Erhebung des IST-Zustands, Erhebung des SOLL-Zustands mit Hilfe von Workshops, Testmodellen, Testreihen, A/B-Testing, Fragebögen
Unterstützung beim Aufbau einer CO2-Monitoring Plattform (Januar 2022-Ak-tuell)
Entwurf einer Azure- und Snowflake basierten Batch-Processing Datenpipeline mit Visualisierung und Darstellung in Tableau. Aufbau einer Code-Plattform zum Parsen von Energiedaten übermittelt als XML. Zusammenstellen und Optimieren von Matillion-Jobs zum Abbilden von ETL / ELT Strecken (bspw. Augmentation, Fil-terung, Joins von Datenbeständen).
Konzeptionierung und Umsetzung eines Metastammdatenmodells und Metda-tenkatalog (Juni 2020 – Aktuell):
Konzeptionierung eines Datenkatalogs, um die Daten perspektivisch in Analysen, KPI-Reports und KI-Anwendungsfällen nutzbar zu machen.
Innerhalb der Konzeptionierung soll insbesondere auf den IST-Zustand bzgl. des Datenflusses der kaufmännisch, technischen und geobasierten Daten innerhalb von Prozessen eingegangen werden. Der SOLL-Zustand, optimiert alle Aspekte der typischen Datenpipeline; hierzu gehören u.a. Datenbereinigungsstrategien, Strategien zur Vermeidung von Dateninkonsistenzen, Definitionen von Masterda-tenressourcen, Identifikation von Datenzugreifenden und -ändernden Prozessen.
Mit Hilfe von datenwissenschaftlichen Techniken soll die allgemeine Datenquali-tät in und zwischen den einzelnen Datenquellen überprüft werden.
Optimierung des vorhandenen Datenmodels, um zukunftssicherer in Bezug auf Datenzentrierung arbeiten zu können.
Konzeptionierung eines Datenmodels zum Management von Betriebskostenda-ten (November 2020 – März 2021):
Zielsetzung: Vergleichbarkeit mit anderen Marktteilnehmern, Standardisierung von Datenmodellen, Zertifizierung und Erfüllung von gesetzlichen Vorgaben (CO2-Monitoring).
Hierzu Erhebung des IST-Zustandes, Interviews und Requirements-Engineering mit Stakeholdern, Analyse der Anwendungsfälle und Prozesse.
Entwurf eines Datenmodells, welches die Zielsetzungen erfüllen kann.
Überprüfung des Datenmodells innerhalb von Workshops mit den Anwendern und innerhalb von PoCs zu geplanten Anwendungsfällen basierend auf künstli-cher Intelligenz, Business und Benchmarking Analysen.
ETL, Power Bi, Python, SAP RE-FX, SAP S/4HANA, Snowflake, Tableau
12/2019 – 6/2020
Tätigkeitsbeschreibung
Aufbau und Planung einer Datenpipeline, hierzu u.a.
Sichtung, Identifikation und Synchronisierung geeigneter Datenquellen. Entwick-lung von Strategien zum Umgang Dateninkonsistenzen.
Planung und Entwicklung einer Pipeline, die den maschinellen Lernen Lebenszyk-lus abbildet: Trainings, Test, Evaluierung, Validierung und Optimierung. Pipeline dient dem Erkennen von Leitungszuständen, hierzu u.a. Verfahren zur Anomalie-Erkennung, Regression und Klassifikationen implementiert und evaluiert.
Mitwirkung bei der Umsetzung der container- und cloudbasierten ML-basierten Produktiv-Pipeline.
Über die Gesamte Projektlaufzeit: Erstellung von Visualisierungen, Dashboards und Reporting für C-Ebene.
Data Science, Power Bi, Rapidminer, SQL, Scikit-learn, Docker, Python, Kubernetes
10/2019 – 12/2019
Tätigkeitsbeschreibung
Das existierende RTOS System wurde analysiert, optimiert und erweitert, sodass die Zeilenkamera integriert werden konnte. Die Integration der Zeilenkamera wurde vorgenommen.
Voraussetzung für die erfolgreiche Integration war der Aufbau einer Hard-ware/Software Testumgebung.
Echtzeit-Betriebssysteme, C#, C++, Maschinelles Sehen
8/2019 – 10/2019
Tätigkeitsbeschreibung
Identifikation von KI-geeigneten Anwendungsfällen, Durchführung von Work-shops zu den betreffenden Anwendungsfällen, Aufnahme des IST und SOLL-Zu-stands in Bezug auf die Anwendungsfälle und den zur Umsetzung notwendigen Daten.
Unterstützung bei der Einführung und Umsetzung einer Unternehmensweiten KI-
Strategie.
Implementierung eines KI-Anwendungsfalls: Identifikation der optimalen techni-schen Parameter in Bezug auf Produktionsintention, bspw. Qualität, Schnelligkeit, Zuverlässigkeit.
Hierzu Durchlaufen der Datenpipeline: Dateninventarisierung, Datenaufbereitung und -bereinigung, Datenaugmentierung, Zusammenführen von Daten aus ver-schiedenen Ressourcen.
Apache Hadoop, Power Bi, R (Programmiersprache), Rapidminer, Tableau, Scikit-learn, Tensorflow, Python, Amazon Web Services (AWS)
6/2019 – 8/2019
Tätigkeitsbeschreibung
Entwurf und Umsetzung einer Architektur zur Pseudonymisierung von Dokumen-ten. Entwurf und Implementierung eines Algorithmus zur Erkennung von persön-lichen Daten und deren Typen, bspw. Adressen, in Dokumenten und deren Sub-stitution durch randomisierte aber typ-erhaltende Daten.
Implementierung als REST API.
ETL, Postgresql, Scikit-learn, Docker, Python
9/2018 – 12/2024
TätigkeitsbeschreibungGründerin
Eingesetzte QualifikationenProjektmanagement (IT)
2/2018 – 8/2018
Tätigkeitsbeschreibung
Entwurf und Umsetzung der KI/Data Science Software zur Zustandsüberwachung
und der vorhersagenden Wartung (Predictive Maintenance)
von mechanischen Anlagen, basierend auf Akustik-Sensor Daten und abgestimmt
auf die (I)IoT-ähnliche Architektur und die Small-Single-Board
Hardware (Raspberry/IndustrialPi).
Datenpipeline (Sichtung, Auswertung, Korrektur, Augmentation und Annotations-
Strategie der vorhandenen Daten und die Daten Konzeption
für zukünftige Daten)
Entwurf und Umsetzung des Demonstrators als Analogie zu einer der
mechanischen Anlagen zu Demonstrationszwecken auf Messen und für
Kundengespräche.
Data Science, Apache Hadoop, Tableau, Scikit-learn, Tensorflow
1/2016 – 12/2018
Tätigkeitsbeschreibung
Entwurf und Umsetzung der KI/Data Science Software zur Erkennung
von Aktivitäten und zur Vorhersage von Greif-Bewegungen
Sensor-Fusion und Aligning der Sensoren (Video und IMU-Sensor)
Datenpipeline
Data Science, Opencv, Scikit-learn, Tensorflow
1/2016 – 12/2017
Tätigkeitsbeschreibung
Erstellung eines Wissensgraphen aus unstrukturierten Text- und Bilddaten.
Automatische Bildunterschriften Generierung, Bildkategorisierung,
Objekterkennung. Text- und Bildobjekt-Korrespondenz-Erkennung.
Konzeption und Umsetzung eines Ranking Algorithmus basierend auf diversen
Merkmalen, bspw. semantischer Ähnlichkeiten von abstrakten
Themen zu den Zielbildern
Data Science, CUDA, Opencv, Scikit-learn, Tensorflow, C++, Java (allg.)
1/2014 – 12/2015
Tätigkeitsbeschreibung
Entwurf und Umsetzung der KI/Data Science Software zur Erkennung
von Aktivitäten und zur Erstellung von Navigationshinweisen basierend
auf Kameradaten
Einblenden von Augmented-Reality (AR) Navigations- und Arbeitshinweisen
auf der verwendeten Datenbrille
Opencv, Scikit-learn, C++, Opengl
12/2007 – 10/2012
TätigkeitsbeschreibungIT-Administration in verschiedenen Bereichen und für verschiedene Projekte
Eingesetzte QualifikationenMicrosoft SQL-Server (MS SQL), Windows Server (allg.), Active Directory, Microsoft SharePoint Server, Vmware
Ausbildung
Mannheim
Koblenz
Koblenz
Weitere Kenntnisse
Machine/Deep Learning: scikit-learn, Tensorflow, Caffe, RankLib, Mlflow
Bildverarbeitung: OpenCV
(Big)Data: Spark, Hadoop, Pandas, Databricks, Hive
Vektordatenbanken / Neural Search: Weaviate
No-SQL: Neo4j, MongoDB
IoT: Eclipse Kura, AWS IoT, MQTT
Visualisierung: Tableau, Bokeh
Schnittstellen: REST, JSON
Cloud: Azure, AWS
Tools: Jupyter (ipython), Git, Jira, SVN,
PM: Agile (Scrum)
OS: Windows, Linux, MacOS
Persönliche Daten
- Deutsch (Muttersprache)
- Englisch (Fließend)
- Spanisch (Grundkenntnisse)
- Europäische Union
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden