freiberufler Big Data Engineer auf freelance.de

Big Data Engineer

offline
  • auf Anfrage
  • Nordrhein-Westfalen
  • National
  • de  |  en
  • 03.08.2024

Kurzvorstellung

Data Engineer | AWS | BigData | DevOps | Infrastructure | Containers | CI/CD | Serverless | CloudSecurity | DataLake

Qualifikationen

  • Amazon Web Services (AWS)7 J.
  • Apache Spark4 J.
  • Big Data4 J.
  • Cloud Architektur
  • Data Lake
  • DevOps7 J.
  • ETL7 J.
  • Java (allg.)5 J.
  • Python5 J.
  • Scala5 J.

Projekt‐ & Berufserfahrung

Big Data Engineer (Festanstellung)
Kundenname anonymisiert, Köln
6/2021 – 4/2023 (1 Jahr, 11 Monate)
Telekommunikation
Tätigkeitszeitraum

6/2021 – 4/2023

Tätigkeitsbeschreibung

Bei der Entwicklung eines layerbasierten Data Lakes auf AWS war ich verant-wortlich für die Verarbeitung von Daten mittels EMR oder Glue und orchestrier-te die Datenladeprozesse mit Airflow. Ich importierte Daten aus verschiedenen Quellen, darunter Datenbanken, GraphQL und SFTP, und führte spezifische ETL-Jobs in Docker-Containern auf AWS ECS aus. In enger Zusammenarbeit mit den Fachabteilungen löste ich gezielt individuelle Herausforderungen. Eine meiner Initiativen war die Etablierung eines Benachrichtigungssystems mittels AWS SNS und Lambda, um die Fachabteilungen direkt zu informieren. Zudem implemen-tierte ich eine eigene CI/CD-Lösung auf Basis von Jenkins, die in den drei spezi-ell eingerichteten Umgebungen – Entwicklung, Integration und Produktion – den Einsatz der jeweils gewünschten Versionen ermöglichte.
Im Bereich des Berechtigungsmanagements setzte ich Lake Formation ein und verwaltete verschiedene AWS-Konten, RDS-Datenbanken sowie Benutzergrup-pen. Ich gewährleistete den Datenschutz und führte das S3-Lifecycle-Management durch, um Daten gemäß der EU-DSGVO zu verwalten und zu lö-schen. Darüber hinaus übernahm ich DevOps-Aufgaben und sorgte für den Be-trieb und die Wartung der entwickelten Technologien.
Zusätzlich war ich zuständig für die Backups von EC2-Instanzen und richtete ein umfassendes Monitoring-System mit AWS CloudWatch, Prometheus, Grafana, SNS und RDS ein. Ich implementierte Jenkins mit Groovy-Skripten für das Deployment in verschiedenen Umgebungen und verwaltete die AWS-Infrastruktur mithilfe von Terraform. Auch setzte ich PoC-Umgebungen wie Tab-leau oder Pyramid auf EC2 auf und betreute diese während der Testphase.
Ergänzend automatisierte ich eine Vielzahl von Aufgaben mittels Bash- und Po-wershell-Skripten und nutzte Spark mit Scala für datenintensive Prozesse, um beispielsweise die Belastung der On-Premise-Datenbanken zu reduzieren. Für die hybride Architektur etablierte ich DirectConnect- und VPN-Verbindungen zu On-Premise-Systemen und unterstützte andere Entwicklerteams in AWS-bezogenen Fragestellungen.

Eingesetzte Qualifikationen

Big Data, ETL, Graphql, SQL, Continuous Delivery, DevOps, Continuous Integration, Datenschutz, Netzwerk-Sicherheit, Server-Monitoring, Amazon Web Services (AWS)

Big Data Engineer (Festanstellung)
Kundenname anonymisiert, Köln
11/2017 – 5/2021 (3 Jahre, 7 Monate)
Telekommunikation
Tätigkeitszeitraum

11/2017 – 5/2021

Tätigkeitsbeschreibung

Im Rahmen des Aufbaus einer Machine-Learning-Plattform auf AWS war ich Teil eines kleinen, agilen Scrum-Teams, das aus zwei Data Engineers und einem Data Scientist bestand. In meiner Funktion als DevOps-Experte leitete ich die Einfüh-rung von AWS im Unternehmen und arbeitete eng mit dem Mutterkonzern zu-sammen, um eine datenschutzkonforme Umgebung zu etablieren. Ich war ver-antwortlich für die Planung und den Betrieb einer Infrastruktur zur Verarbei-tung von ML-Daten unter Einsatz von Amazon SageMaker, wobei NiFi und Spark-Jobs für das Daten-Loading genutzt wurden.
Die von mir in Scala entwickelten Spark-Jobs wurden auf EMR-Clustern ausge-führt, später ergänzt durch den Einsatz von AWS Glue. Dies ermöglichte eine effiziente und skalierbare Verarbeitung umfangreicher Datenmengen. Ich un-terstützte den Data Scientist bei der Implementierung in Scala und Python und führte verschiedene Proof of Concept (PoC) Projekte für die Fachabteilungen durch.
Für die Implementierung von Continuous Integration und Continuous Deploy-ment (CI/CD) nutzten wir eine Kombination aus Git und Jenkins, ergänzt durch Groovy-Skripte. Dieser Ansatz ermöglichte eine automatisierte und effiziente Entwicklung sowie das Deployment. Unsere CI/CD-Lösung erlaubte es uns, in den drei eingerichteten Umgebungen – Entwicklung, Integration und Produktion – unabhängig voneinander jeweils die gewünschte Version zu deployen. Dar-über hinaus orchestrierten wir die Umgebung mit Apache Airflow und verwalte-ten die AWS-Infrastruktur mit CloudFormation.

Eingesetzte Qualifikationen

Apache Spark, Datenanalyse, ETL, SQL, Continuous Delivery, DevOps, Continuous Integration, Scrum, Java (allg.), Jenkins, Python, Scala, Infrastrukturarchitektur, Amazon Web Services (AWS)

DevOps Data Engineer (Festanstellung)
Opitz Consulting, Gummersbach
9/2017 – 11/2017 (3 Monate)
Dienstleistungsbranche
Tätigkeitszeitraum

9/2017 – 11/2017

Tätigkeitsbeschreibung

In einem firmeninternen Showcase entwickelte ich zusammen mit einem Kolle-gen aus dem Bereich Data Science eine AWS-basierte Datenplattform. Unser Ziel war die Schaffung einer effizienten Lösung, die in der Lage ist, Daten aus diversen Systemen, wie beispielsweise über eine REST-API, zu streamen und zu verarbeiten. Ein zentraler Schritt hierbei war der Aufbau eines robusten Kafka-Clusters auf EC2-Instanzen. Zur Steigerung der Zuverlässigkeit und Effizienz des Clusters integrierte ich einen Load Balancer, der eine gleichmäßige Lastvertei-lung und optimierte Netzwerkleistung gewährleistete. Im Bereich der Datenver-arbeitung war ich verantwortlich für die Entwicklung von Kafka-Producern und -Consumern in Java.
Ein weiterer bedeutender Aspekt des Projekts war die Verarbeitung von Daten mit Apache Spark, die es mir ermöglichte, komplexe Datenanalysen, insbeson-dere Sentiment-Analysen, durchzuführen. Hierbei griff ich auf den ELK-Stack zurück, der aus Elasticsearch, Logstash und Kibana besteht, um eine effektive Visualisierung der Analysen zu gewährleisten.
Zur effizienten Ausführung der Spark-Jobs integrierte ich zudem ein EMR-Cluster, was eine skalierbare und flexible Datenverarbeitung ermöglichte. Ein Hive Metadata Store kam ebenfalls zum Einsatz, um eine effektive Organisation und Verwaltung der Metadaten zu sichern. Abschließend implementierte ich Grafana für eine umfassende Visualisierung des Systemzustandes.
Dieses Projekt diente nicht nur intern als Demonstrations- und Schulungsmate-rial, sondern ich nutzte es auch aktiv für Präsentationen und Akquisitionsge-spräche, die ich persönlich durchführte.

Eingesetzte Qualifikationen

Apache Spark, Big Data, Apache Kafka, Amazon Web Services (AWS), Elasticsearch, Representational State Transfer (REST)

DevOps-Entwickler (Festanstellung)
Chefkoch, Bonn
9/2015 – 8/2017 (2 Jahre)
Medienbranche
Tätigkeitszeitraum

9/2015 – 8/2017

Tätigkeitsbeschreibung

Bei der Entwicklung eines layerbasierten Data Lakes auf AWS war ich verant-wortlich für die Verarbeitung von Daten mittels EMR oder Glue und orchestrier-te die Datenladeprozesse mit Airflow. Ich importierte Daten aus verschiedenen Quellen, darunter Datenbanken, GraphQL und SFTP, und führte spezifische ETL-Jobs in Docker-Containern auf AWS ECS aus. In enger Zusammenarbeit mit den Fachabteilungen löste ich gezielt individuelle Herausforderungen. Eine meiner Initiativen war die Etablierung eines Benachrichtigungssystems mittels AWS SNS und Lambda, um die Fachabteilungen direkt zu informieren. Zudem implemen-tierte ich eine eigene CI/CD-Lösung auf Basis von Jenkins, die in den drei spezi-ell eingerichteten Umgebungen – Entwicklung, Integration und Produktion – den Einsatz der jeweils gewünschten Versionen ermöglichte.
Im Bereich des Berechtigungsmanagements setzte ich Lake Formation ein und verwaltete verschiedene AWS-Konten, RDS-Datenbanken sowie Benutzergrup-pen. Ich gewährleistete den Datenschutz und führte das S3-Lifecycle-Management durch, um Daten gemäß der EU-DSGVO zu verwalten und zu lö-schen. Darüber hinaus übernahm ich DevOps-Aufgaben und sorgte für den Be-trieb und die Wartung der entwickelten Technologien.
Zusätzlich war ich zuständig für die Backups von EC2-Instanzen und richtete ein umfassendes Monitoring-System mit AWS CloudWatch, Prometheus, Grafana, SNS und RDS ein. Ich implementierte Jenkins mit Groovy-Skripten für das Deployment in verschiedenen Umgebungen und verwaltete die AWS-Infrastruktur mithilfe von Terraform. Auch setzte ich PoC-Umgebungen wie Tab-leau oder Pyramid auf EC2 auf und betreute diese während der Testphase.
Ergänzend automatisierte ich eine Vielzahl von Aufgaben mittels Bash- und Po-wershell-Skripten und nutzte Spark mit Scala für datenintensive Prozesse, um beispielsweise die Belastung der On-Premise-Datenbanken zu reduzieren. Für die hybride Architektur etablierte ich DirectConnect- und VPN-Verbindungen zu On-Premise-Systemen und unterstützte andere Entwicklerteams in AWS-bezogenen Fragestellungen.

Eingesetzte Qualifikationen

Adobe Creative Cloud, Big Data, ETL, SQL, DevOps, Java (allg.), Python, Scala, Amazon Web Services (AWS)

Datenanalyst und Entwickler
YP Mobile Labs (Yellow Pages Pte Ltd), New York City
5/2014 – 9/2014 (5 Monate)
Medienbranche
Tätigkeitszeitraum

5/2014 – 9/2014

Tätigkeitsbeschreibung

Ich entwickelte und optimierte Hadoop-basierte Cluster-Computing-Anwendungen die in AWS ausgeführt wurden, führte Datenanalysen mit R durch und evaluierte die Nutzung von Spark, um Datenverarbeitungs- und Analyseprozesse zu beschleunigen. Zudem löste ich erfolgreich ein "Erzeuger und Verbraucher-Problem" mithilfe von Semaphoren.

Eingesetzte Qualifikationen

Apache Hadoop, Apache Spark, Big Data, C, Datenanalyse, ETL, R (Programmiersprache)

Ausbildung

Master of Science (M.Sc.)
Informationstechnik
FH Münster
2015
Münster
Bachelor of Science (B.Sc.)
Angewandte Informatik
FH Münster
2012
Münster
Fachinformatiker - Anwendungsentwicklung
Ausbildung
Buerodata AG, Stadtlohn
2008
Informationstechnischer Assistent
Ausbildung
Pictorius Berufskolleg, Coesfeld
2006

Über mich

Als erfahrener Data Engineer und AWS-Spezialist verbinde ich tiefgreifendes Fachwissen in der Planung, Entwicklung und Implementierung von Big Data-Infrastrukturen und Cloud-Architekturen mit einer persönlichen Leidenschaft
für technologische Innovationen. Besonders fasziniert mich die Spark-Entwicklung, insbeson dere mit Scala, und deren Einsatz in Cloud-Plattformen wie AWS. Diese Kombination bietet mir die ideale Plattform, um Daten umfassend zu
verarbeiten und daraus wertvolle Erkenntnisse zu gewinnen.
Meine Begeisterung für Cloud-Engineering ist im Laufe meiner Karriere stetig gewachsen. Es motiviert mich, in diesem dynamischen Feld neue Wege zu gehen und die Entwicklung und Implementierung von cloudbasierten Lösungen aktiv mitzugestalten. Diese Arbeit ermöglicht es mir, immer wieder neue Horizonte in der IT-Landschaft zu erkunden.
DevOps-Tätigkeiten sind für mich mehr als nur ein Berufsfeld – sie sind ein wesentlicher Teil meiner beruflichen Identität. Die Verbindung aus Softwareentwicklung und operativem IT-Management ermöglicht mir eine ganzheitliche Sichtweise auf den Lebenszyklus von Anwendungen und spiegelt meine Begeisterung für ganzheitliche IT-Lösungen wider.

Weitere Kenntnisse

B I G D ATA T E C H N O L O G I E N
• Apache Spark
• Apache Hive
• Apache Presto
• Apache Kafka
• Apache Nifi
• Apache Hadoop Stack
C L O U D T E C H N O L O G I E N
• AWS VPC
• AWS EC2
• AWS Identity and Access Management (IAM)
• AWS Backup
• AWS Elastic MapReduce (EMR)
• AWS Lambda
• AWS Glue
• AWS Sagemaker
• AWS LakeFormation
• AWS Elastic Container Service (ECS)
• AWS Managed Workflows for Apache Airflow (MWAA)
• AWS Athena
• AWS Key Management Service (KMS)
• AWS Simple Nofification Service (SNS)
• AWS Relational Database Service (RDS)
• AWS Redshift
• AWS CloudWatch
• AWS CloudTrail
C I / C D
• Jenkins
• Git
• CodeCommit
• CodeDeploy
M O N I T O R I N G
• AWS CloudWatch
• Grafana
• Prometheus
S P R A C H E N & T O O L S
• Scala/Java
• Python
• Bash-Script
• SQL
• C
• Terraform
• JUnit
• MapReduce
• Docker
• Spring-Framework
S C H N I T T S T E L L E N
• GraphQL
• REST
• SFTP
• Datenbanken ( JDBC/ODBC)
o Oracle
o MySQL
o MongoDB
o PostgreSQL
o Amazon DynamoDB
o Amazon Aurora
E N T W I C K L U N G S U M G E B U N G E N
• IntelliJ
• Eclipse
• Visual Studio Code
• Jupyter

Persönliche Daten

Sprache
  • Deutsch (Muttersprache)
  • Englisch (Gut)
Reisebereitschaft
National
Home-Office
bevorzugt
Profilaufrufe
299
Alter
38
Berufserfahrung
10 Jahre und 6 Monate (seit 05/2014)

Kontaktdaten

Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.

Jetzt Mitglied werden