Big Data Architekt
- Verfügbarkeit einsehen
- 0 Referenzen
- 200€/Stunde
- Köln
- auf Anfrage
- de | fr | en
- 05.02.2024
Kurzvorstellung
Qualifikationen
Projekt‐ & Berufserfahrung
5/2021 – 12/2023
TätigkeitsbeschreibungAufbau einer datengesteuerten Produktionsstätte mit modernen Data Lake Technologien, wie z.b. Kafka, Databricks, Nifi ETL, Apache Hadoop. Das besondere an diesem Projekt ist die Hybrid Data Lake Struktur: On-Premise Data Lakes an den mehreren Produktionsstandorten, um in Echtzeit die Produktions zu steuern, kombiniert mit einem übergreifender Cloud Data Lake in der Azure Cloud. Weiter werden Strukturen für Data Governance gesetzt und etabliert.
Eingesetzte QualifikationenApache Hadoop, Databricks, ETL, Apache Kafka, Microsoft Azure
11/2020 – 12/2020
Tätigkeitsbeschreibung
In einem Kundenworkshop wurde eine Data Lake Architektur auf Basis
eines Hadoop Ökosystems mit integrierter SAP HANA vorgestellt. Der
Workshop war in drei Abschnitte aufgeteilt, Einführung und Vorstellung
des Hadoop Ökosystem, Einführung und Vorstellung der SAP HANA und
die gemeinsame Architektur.
In der Vorstellung der Systeme wurden die Komponenten,
Dimensionierung, Skalierung und Kosten der Systeme Apache Spark,
HDFS, Kafka, Nifi, HBase, Zeppelin und die SAP HANA vorgestellt. Im
Abschnitt gemeinsame Architektur lag der Schwerpunkt, die Stärken und
Schwächen jedes Systems aufzuzeigen und miteinander in einer
zukunftsorientierten, nachhaltigen und kostengünstigen Architektur zu
vereinen.
Als Architekt wurde der Workshopteil auf Hadoop Ökosystem von mir
übernommen. Zusammen mit dem Architekten für SAP HANA wurde die
gemeinsame Architektur mit DataBroker Ansatz erarbeitet.
Apache, Apache Hadoop, Apache Spark
8/2019 – 12/2019
Tätigkeitsbeschreibung
Für die zielgerichtete Auswertung von Flugdaten, möchte der Kunde ein
sogenanntes Full Flight Data Center in Form eines Data Lakes etablieren.
Dazu lässt sich der Data Lake aus verschiedenen Quellen speisen, so dass
aufgrund der riesigen Informationsmenge flexible Analysen im Big-Data
Umfeld möglich sind. Um dabei die Erstellung von verhaltens- und
leistungsbezogene Auswertungen zu unterbinden, erfolgt die Freigabe von
Auswertungen systembasiert über einen mehrstufigen Governance
Workflow. Dieser Workflow wird in einer Integrationsschicht technisch
durch einen Data Broker umgesetzt. Beim Data Lake handelt es sich um
einen Hadoop Cluster in der Cloud mit Spark und diversen ETL Tools zur
Datenverarbeitung.
Der Kunde wird in der Business Analyse, Data Lake Architektur in
Requirements Engineering Sicht sowohl bei der Entwicklung eines MVP auf
Hadoop-Technologie (HDFS, Hive, Spark) in einer Cloudlösung
begleitet. Es wurden Dten ins Cluster geladen und erste Datenauswertung
wurden in einem PoC Cluster durchgeführt und in Tableau visualisiert.
Apache Hadoop, Apache Spark, Cloud (allg.), Maschinelles Lernen
7/2019 – 10/2019
Tätigkeitsbeschreibung
Im Kundenworkshop wurde die Einführung eines Data Lakes als
Datenplattform und zur Analyse von abteilungs- und
datenbankübergreifenden Daten erarbeitet. Als Ergebnis wurde ein
Konzept zum Einsatz eines Data Lakes auf Basis des Hadoop Ökosystems
mit Integration in die vorhandene BI-Landschaft erarbeitet. Fokus war die
Dimensionierung des Data Lakes, die Auswahl des Toolsets (HDFS, Hive,
Spark, Nifi,...), die Datenorganisation zur performanten Verarbeitung und
einen kostenoptimierten Einsatz der vorhandene Infrastruktur für einen
PoC.
Ziel des Workshops war die Erarbeitung eines Konzepts zur Einführung
eines konzernweiten Data Lakes und die Einbettung in die vorhandenen
BI Landschaft und Infrastruktur unter Beachtung der Security-Richtlinien.
Der Fokus des Workshops lag hierbei auf Architektur, Toolauswahl,
Infrastruktur und Dimensionierung eines Data Lakes, die Verarbeitung
von der Daten, die Backup- und Redundanzmöglichkeiten.
Die im Workshop erarbeiteten Ergebnis wurden dann zum Aufbau des
standortübergreifenden On-Premise Data Lake auf Hadoop Technologie
(Spark, HDFS, Hive, HBase) verwendet. Dieser Aufbau des Hadoop
Ökosystems wurde ebenfalls von uns begleitet. Während des Aufbaus
wurde dem Kunden zusätzlich Data Lake orientierte Datenverarbeitung
mit Python und Scala vermittelt.
Apache Hadoop, Apache Spark, Cloud (allg.), Maschinelles Lernen
11/2018 – 12/2020
Tätigkeitsbeschreibung
Ziel des Projektes ist die Einführung eines Data Lakes als zentrale
Datenplattform zur Datenanalyse. Hierbei sollen Daten zentral verarbeitet
und miteinander in Relation gesetzt werden. Durch den Einsatz eines
Hadoop Ökosystems (Hive, Spark, HDFS,..) mit Predictive Analytics und
Machine Learning Komponenten, werden Tools und Know-How zur
explorativen Big Data Analyse dem Fachbereich zur Verfügung gestellt.
Durch die Datenverarbeitung mittels ETL-Tools, Sparkshell und Spark-
Applikationen ermöglichen wir den Fachbereichen neue Potentiale in ihren
Geschäftsfeldern zu erschließen. Das Festlegen von Prozessierung- und
Datenstandards auf Basis des Data Lakes wird ein Near-Time-Monitoring
und Langzeitreporting aufgesetzt, das die Fachbereiche in ihren
Betriebsaufläufen unterstützt.
Weiter wird eine Migration von Hortonworks Distribution in ein Amazon
EMR Cluster durchgeführt.
Als Business Analyst und Data Scientist analysiere ich diverse Use-Cases
und setzte die gegebene Use-Cases explorativ in Spark und Python um.
Aus dieser Umsetzung ergeben sich Testdaten, welche für ein fachliches
Monitoring und fachlicher Validierung verwendet werden können.
Das Projektmanagement und Projektverantwortliche unterstütze ich in
Architekturfragen und Architekturentscheidungen in Big Data relevanten
Themen.
Weiter wird der Fachbereich bereits mit Teildaten versorgt. Diese werden
für Visualisierungen in R-Studio und Tableau und weitere Analysen
verwendet. Zusätzlich untersütze ich in Data-Governance Prozessen
inklusive Data Catalog.
Apache Spark, Big Data, Cloud (allg.), Maschinelles Lernen, Python
1/2016 – 4/2018
Tätigkeitsbeschreibung
In einem Data Lake mit Hadoop-Technologie (HDFS, Hive, Spark), soll
eine einheitliche Datengrundlage für die Big Data Analyse von
Videonutzungsdaten unterschiedlicher Rundfunkanstalten und
Streamingdienste aufgebaut werden. Weiter sollen Daten von
Drittanbietern dafür verwendet werden, um Erkenntnisse über das
Verhalten von Nutzern zu gewinnen. Die aufbereiteten Daten sollen den
jeweiligen Urhebern wieder zur Verfügung gestellt werden.
Vorliegende Videonutzungsdaten sollen um zeitabhängige Informationen
aus anderen externen Quellen ergänzt werden. Dabei gilt: Wenn ein
Nutzer zum Zeitpunkt t_0 einen Nutzungsvorgang startet und nach x
Minuten beendet, so werden andere Zusatzinformationen hinzugefügt, als
bei einer Nutzung zum Zeitpunkt t_1 mit Länge x Minuten, wobei t_0
ungleich t_1 ist.
Die Datenqualität der zusätzlich eingebundenen Fremddaten lässt zu
wünschen übrig. Es kommt immer wieder zu fehlenden Daten oder
falschen Auswertungen. Es gilt, die Daten zu prüfen und soweit möglich
automatisch zu korrigieren. Zusätzlich soll die Performance des Systems
verbessert werden.
Als Business Analyst analysiere ich die Geschäftslogik zur Verwendung
von zeitabhängigen Informationen, entwerfe ein geeignetes
kundenunabhängiges aggregiertes Datenmodel und bereite meine
Analysen auf und präsentiere diese in Terminen bei Kunden vor Ort.
In der Rolle Entwickler baue ich die ETL-Strecken zur Überführung der
Videonutzungsdaten in das aggregierte Datenmodell auf. Weiter
implementiere ich die Normalisierung der Videonutzungsdaten im Zuge
des ETL-Prozesses und binde zusätzliche Fremddaten (online und offline)
zur späteren Ergänzung der Videonutzungsdaten an und reichere
Videonutzungsdaten mit zeitunabhängigen Informationen aus Fremddaten
an. Die Qualität der Fremddaten ist sehr unterschiedlich, wofür ich eine
automatische Prüfungen hinsichtlich Datenqualität und -plausibilität
entwickelte. Fehlende Daten wurden hierbei durch Heuristiken ergänzt.
Den Export der großen Daten erfolgte dateibasiert.
Als Architekt erarbeite ich Lösungen zur Laufzeitoptimierung und
Skalierbarkeit der wachsenden Datenmengen und setze diese um.
Zusätzlich entwerfe ich ein geeignetes kundenunabhängiges aggregiertes
Datenmodell, um Skalierbarkeit über diverse Kunden zu erreichen.
In der Rolle als Analyst entwickle ich Methoden, um spezifisches
Nutzungsverhalten in den Videonutzungsdaten zu erkennen.
Hierzu analysiere ich die komplexen Datenstrukturen der
Videonutzungsdaten je Kunde.
Apache Hadoop, Apache Spark, Maschinelles Lernen, Power Bi
Zertifikate
Ausbildung
Ecole Polytechnique Paris/Zentrum für Technomathem
Über mich
Diese Erfahrungen lasse ich als Big Data Architekt einfließen, um einen zukunftssicheren, kostengünstigen und vorallem skalierbaren System aufzubauen.
Weitere Kenntnisse
Eine Realisierung von Datenstrecken auf Spark, Python, SQL mit Visualisierung in PowerBI, Tableau, R-Studio, Apache Zeppelin gehört zu meinen Qualifikationen. ETL Tools, wie Talend oder Apache Nifi werden für die Datenstreckenimplementierung von mir eingesetzt.
Persönliche Daten
- Deutsch (Muttersprache)
- Französisch (Fließend)
- Englisch (Fließend)
- Europäische Union
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden