freiberufler Big Data Architekt auf freelance.de

Big Data Architekt

zuletzt online vor wenigen Tagen
  • 200€/Stunde
  • Köln
  • auf Anfrage
  • de  |  fr  |  en
  • 05.02.2024

Kurzvorstellung

Seit Jahren bin ich bei diversen Großkunden als Big Data Architekt, Data Engineer, Data Scientist, Big Data Business Analyst in Cloud oder On-Premise Data Lake Projekten unterwegs. (Bitte per Mail kontaktieren)

Qualifikationen

  • Amazon Web Services (AWS)
  • Apache Hadoop5 J.
  • Apache Spark4 J.
  • Big Data2 J.
  • Cloud (allg.)2 J.
  • Data Science
  • ETL
  • Python2 J.
  • Scikit-learn
  • Tensorflow

Projekt‐ & Berufserfahrung

Big Data & Data Solution Architect
Kundenname anonymisiert, Remote
5/2021 – 12/2023 (2 Jahre, 8 Monate)
High-Tech- und Elektroindustrie
Tätigkeitszeitraum

5/2021 – 12/2023

Tätigkeitsbeschreibung

Aufbau einer datengesteuerten Produktionsstätte mit modernen Data Lake Technologien, wie z.b. Kafka, Databricks, Nifi ETL, Apache Hadoop. Das besondere an diesem Projekt ist die Hybrid Data Lake Struktur: On-Premise Data Lakes an den mehreren Produktionsstandorten, um in Echtzeit die Produktions zu steuern, kombiniert mit einem übergreifender Cloud Data Lake in der Azure Cloud. Weiter werden Strukturen für Data Governance gesetzt und etabliert.

Eingesetzte Qualifikationen

Apache Hadoop, Databricks, ETL, Apache Kafka, Microsoft Azure

Big Data Architekt
Kundenname anonymisiert, Mannheim
11/2020 – 12/2020 (2 Monate)
Logistikdienstleister
Tätigkeitszeitraum

11/2020 – 12/2020

Tätigkeitsbeschreibung

In einem Kundenworkshop wurde eine Data Lake Architektur auf Basis
eines Hadoop Ökosystems mit integrierter SAP HANA vorgestellt. Der
Workshop war in drei Abschnitte aufgeteilt, Einführung und Vorstellung
des Hadoop Ökosystem, Einführung und Vorstellung der SAP HANA und
die gemeinsame Architektur.
In der Vorstellung der Systeme wurden die Komponenten,
Dimensionierung, Skalierung und Kosten der Systeme Apache Spark,
HDFS, Kafka, Nifi, HBase, Zeppelin und die SAP HANA vorgestellt. Im
Abschnitt gemeinsame Architektur lag der Schwerpunkt, die Stärken und
Schwächen jedes Systems aufzuzeigen und miteinander in einer
zukunftsorientierten, nachhaltigen und kostengünstigen Architektur zu
vereinen.
Als Architekt wurde der Workshopteil auf Hadoop Ökosystem von mir
übernommen. Zusammen mit dem Architekten für SAP HANA wurde die
gemeinsame Architektur mit DataBroker Ansatz erarbeitet.

Eingesetzte Qualifikationen

Apache, Apache Hadoop, Apache Spark

Big Data Architekt, Data Engineer, Business Analyst
Kundenname anonymisiert, Frankfurt
8/2019 – 12/2019 (5 Monate)
Luft- und Raumfahrtindustrie
Tätigkeitszeitraum

8/2019 – 12/2019

Tätigkeitsbeschreibung

Für die zielgerichtete Auswertung von Flugdaten, möchte der Kunde ein
sogenanntes Full Flight Data Center in Form eines Data Lakes etablieren.
Dazu lässt sich der Data Lake aus verschiedenen Quellen speisen, so dass
aufgrund der riesigen Informationsmenge flexible Analysen im Big-Data
Umfeld möglich sind. Um dabei die Erstellung von verhaltens- und
leistungsbezogene Auswertungen zu unterbinden, erfolgt die Freigabe von
Auswertungen systembasiert über einen mehrstufigen Governance
Workflow. Dieser Workflow wird in einer Integrationsschicht technisch
durch einen Data Broker umgesetzt. Beim Data Lake handelt es sich um
einen Hadoop Cluster in der Cloud mit Spark und diversen ETL Tools zur
Datenverarbeitung.
Der Kunde wird in der Business Analyse, Data Lake Architektur in
Requirements Engineering Sicht sowohl bei der Entwicklung eines MVP auf
Hadoop-Technologie (HDFS, Hive, Spark) in einer Cloudlösung
begleitet. Es wurden Dten ins Cluster geladen und erste Datenauswertung
wurden in einem PoC Cluster durchgeführt und in Tableau visualisiert.

Eingesetzte Qualifikationen

Apache Hadoop, Apache Spark, Cloud (allg.), Maschinelles Lernen

Big Data Architekt
Kundenname anonymisiert, Stuttgart
7/2019 – 10/2019 (4 Monate)
Öffentliche Verwaltung
Tätigkeitszeitraum

7/2019 – 10/2019

Tätigkeitsbeschreibung

Im Kundenworkshop wurde die Einführung eines Data Lakes als
Datenplattform und zur Analyse von abteilungs- und
datenbankübergreifenden Daten erarbeitet. Als Ergebnis wurde ein
Konzept zum Einsatz eines Data Lakes auf Basis des Hadoop Ökosystems
mit Integration in die vorhandene BI-Landschaft erarbeitet. Fokus war die
Dimensionierung des Data Lakes, die Auswahl des Toolsets (HDFS, Hive,
Spark, Nifi,...), die Datenorganisation zur performanten Verarbeitung und
einen kostenoptimierten Einsatz der vorhandene Infrastruktur für einen
PoC.
Ziel des Workshops war die Erarbeitung eines Konzepts zur Einführung
eines konzernweiten Data Lakes und die Einbettung in die vorhandenen
BI Landschaft und Infrastruktur unter Beachtung der Security-Richtlinien.
Der Fokus des Workshops lag hierbei auf Architektur, Toolauswahl,
Infrastruktur und Dimensionierung eines Data Lakes, die Verarbeitung
von der Daten, die Backup- und Redundanzmöglichkeiten.
Die im Workshop erarbeiteten Ergebnis wurden dann zum Aufbau des
standortübergreifenden On-Premise Data Lake auf Hadoop Technologie
(Spark, HDFS, Hive, HBase) verwendet. Dieser Aufbau des Hadoop
Ökosystems wurde ebenfalls von uns begleitet. Während des Aufbaus
wurde dem Kunden zusätzlich Data Lake orientierte Datenverarbeitung
mit Python und Scala vermittelt.

Eingesetzte Qualifikationen

Apache Hadoop, Apache Spark, Cloud (allg.), Maschinelles Lernen

Aufbau und Betrieb eines Data Lake + Data Governance
Kundenname anonymisiert, Frankfurt
11/2018 – 12/2020 (2 Jahre, 2 Monate)
Logistikdienstleister
Tätigkeitszeitraum

11/2018 – 12/2020

Tätigkeitsbeschreibung

Ziel des Projektes ist die Einführung eines Data Lakes als zentrale
Datenplattform zur Datenanalyse. Hierbei sollen Daten zentral verarbeitet
und miteinander in Relation gesetzt werden. Durch den Einsatz eines
Hadoop Ökosystems (Hive, Spark, HDFS,..) mit Predictive Analytics und
Machine Learning Komponenten, werden Tools und Know-How zur
explorativen Big Data Analyse dem Fachbereich zur Verfügung gestellt.
Durch die Datenverarbeitung mittels ETL-Tools, Sparkshell und Spark-
Applikationen ermöglichen wir den Fachbereichen neue Potentiale in ihren
Geschäftsfeldern zu erschließen. Das Festlegen von Prozessierung- und
Datenstandards auf Basis des Data Lakes wird ein Near-Time-Monitoring
und Langzeitreporting aufgesetzt, das die Fachbereiche in ihren
Betriebsaufläufen unterstützt.
Weiter wird eine Migration von Hortonworks Distribution in ein Amazon
EMR Cluster durchgeführt.
Als Business Analyst und Data Scientist analysiere ich diverse Use-Cases
und setzte die gegebene Use-Cases explorativ in Spark und Python um.
Aus dieser Umsetzung ergeben sich Testdaten, welche für ein fachliches
Monitoring und fachlicher Validierung verwendet werden können.
Das Projektmanagement und Projektverantwortliche unterstütze ich in
Architekturfragen und Architekturentscheidungen in Big Data relevanten
Themen.
Weiter wird der Fachbereich bereits mit Teildaten versorgt. Diese werden
für Visualisierungen in R-Studio und Tableau und weitere Analysen
verwendet. Zusätzlich untersütze ich in Data-Governance Prozessen
inklusive Data Catalog.

Eingesetzte Qualifikationen

Apache Spark, Big Data, Cloud (allg.), Maschinelles Lernen, Python

Big Data Architekt, Business Analyst, Data Analyst, Data Engineer
Kundenname anonymisiert, Saarbrücken
1/2016 – 4/2018 (2 Jahre, 4 Monate)
Medienbranche
Tätigkeitszeitraum

1/2016 – 4/2018

Tätigkeitsbeschreibung

In einem Data Lake mit Hadoop-Technologie (HDFS, Hive, Spark), soll
eine einheitliche Datengrundlage für die Big Data Analyse von
Videonutzungsdaten unterschiedlicher Rundfunkanstalten und
Streamingdienste aufgebaut werden. Weiter sollen Daten von
Drittanbietern dafür verwendet werden, um Erkenntnisse über das
Verhalten von Nutzern zu gewinnen. Die aufbereiteten Daten sollen den
jeweiligen Urhebern wieder zur Verfügung gestellt werden.
Vorliegende Videonutzungsdaten sollen um zeitabhängige Informationen
aus anderen externen Quellen ergänzt werden. Dabei gilt: Wenn ein
Nutzer zum Zeitpunkt t_0 einen Nutzungsvorgang startet und nach x
Minuten beendet, so werden andere Zusatzinformationen hinzugefügt, als
bei einer Nutzung zum Zeitpunkt t_1 mit Länge x Minuten, wobei t_0
ungleich t_1 ist.
Die Datenqualität der zusätzlich eingebundenen Fremddaten lässt zu
wünschen übrig. Es kommt immer wieder zu fehlenden Daten oder
falschen Auswertungen. Es gilt, die Daten zu prüfen und soweit möglich
automatisch zu korrigieren. Zusätzlich soll die Performance des Systems
verbessert werden.
Als Business Analyst analysiere ich die Geschäftslogik zur Verwendung
von zeitabhängigen Informationen, entwerfe ein geeignetes
kundenunabhängiges aggregiertes Datenmodel und bereite meine
Analysen auf und präsentiere diese in Terminen bei Kunden vor Ort.
In der Rolle Entwickler baue ich die ETL-Strecken zur Überführung der
Videonutzungsdaten in das aggregierte Datenmodell auf. Weiter
implementiere ich die Normalisierung der Videonutzungsdaten im Zuge
des ETL-Prozesses und binde zusätzliche Fremddaten (online und offline)
zur späteren Ergänzung der Videonutzungsdaten an und reichere
Videonutzungsdaten mit zeitunabhängigen Informationen aus Fremddaten
an. Die Qualität der Fremddaten ist sehr unterschiedlich, wofür ich eine
automatische Prüfungen hinsichtlich Datenqualität und -plausibilität
entwickelte. Fehlende Daten wurden hierbei durch Heuristiken ergänzt.
Den Export der großen Daten erfolgte dateibasiert.
Als Architekt erarbeite ich Lösungen zur Laufzeitoptimierung und
Skalierbarkeit der wachsenden Datenmengen und setze diese um.
Zusätzlich entwerfe ich ein geeignetes kundenunabhängiges aggregiertes
Datenmodell, um Skalierbarkeit über diverse Kunden zu erreichen.
In der Rolle als Analyst entwickle ich Methoden, um spezifisches
Nutzungsverhalten in den Videonutzungsdaten zu erkennen.
Hierzu analysiere ich die komplexen Datenstrukturen der
Videonutzungsdaten je Kunde.

Eingesetzte Qualifikationen

Apache Hadoop, Apache Spark, Maschinelles Lernen, Power Bi

Zertifikate

Strata Big Data & Machine Learning
2017

Ausbildung

Technomathematik
Deutsch-Französische Promotion Dr. rer nat.
2015
Ecole Polytechnique Paris/Zentrum für Technomathem

Über mich

Durch meine Erfahrung in diversen Rollen, Data Engineer, Data Scientist, Business Analyst und Architekt, kenne ich die Entscheidungen, welche besonders in der Initialphase beim Aufbau von Data Lakes gemacht werden, jedoch erst nach längerer Projektlaufzeit zum Projektrisiko werden.
Diese Erfahrungen lasse ich als Big Data Architekt einfließen, um einen zukunftssicheren, kostengünstigen und vorallem skalierbaren System aufzubauen.

Weitere Kenntnisse

Ich biete diverse Qualifikationen im Hadoop Ökosystem, Hive, Spark, HDFS, HBase, Ranger, Zeppelin, Nifi, Kafka. Ich arbeitete in den gängigen Data Lake Umgebungen, wie Apache Ambari, Cloudera, Amazon EC2, Azure, ....
Eine Realisierung von Datenstrecken auf Spark, Python, SQL mit Visualisierung in PowerBI, Tableau, R-Studio, Apache Zeppelin gehört zu meinen Qualifikationen. ETL Tools, wie Talend oder Apache Nifi werden für die Datenstreckenimplementierung von mir eingesetzt.

Persönliche Daten

Sprache
  • Deutsch (Muttersprache)
  • Französisch (Fließend)
  • Englisch (Fließend)
Reisebereitschaft
auf Anfrage
Arbeitserlaubnis
  • Europäische Union
Home-Office
bevorzugt
Profilaufrufe
1529
Alter
40
Berufserfahrung
12 Jahre und 11 Monate (seit 01/2012)

Kontaktdaten

Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.

Jetzt Mitglied werden