Big Data Engineer
- Verfügbarkeit einsehen
- 0 Referenzen
- auf Anfrage
- Nordrhein-Westfalen
- National
- de | en
- 03.08.2024
Kurzvorstellung
Qualifikationen
Projekt‐ & Berufserfahrung
6/2021 – 4/2023
Tätigkeitsbeschreibung
Bei der Entwicklung eines layerbasierten Data Lakes auf AWS war ich verant-wortlich für die Verarbeitung von Daten mittels EMR oder Glue und orchestrier-te die Datenladeprozesse mit Airflow. Ich importierte Daten aus verschiedenen Quellen, darunter Datenbanken, GraphQL und SFTP, und führte spezifische ETL-Jobs in Docker-Containern auf AWS ECS aus. In enger Zusammenarbeit mit den Fachabteilungen löste ich gezielt individuelle Herausforderungen. Eine meiner Initiativen war die Etablierung eines Benachrichtigungssystems mittels AWS SNS und Lambda, um die Fachabteilungen direkt zu informieren. Zudem implemen-tierte ich eine eigene CI/CD-Lösung auf Basis von Jenkins, die in den drei spezi-ell eingerichteten Umgebungen – Entwicklung, Integration und Produktion – den Einsatz der jeweils gewünschten Versionen ermöglichte.
Im Bereich des Berechtigungsmanagements setzte ich Lake Formation ein und verwaltete verschiedene AWS-Konten, RDS-Datenbanken sowie Benutzergrup-pen. Ich gewährleistete den Datenschutz und führte das S3-Lifecycle-Management durch, um Daten gemäß der EU-DSGVO zu verwalten und zu lö-schen. Darüber hinaus übernahm ich DevOps-Aufgaben und sorgte für den Be-trieb und die Wartung der entwickelten Technologien.
Zusätzlich war ich zuständig für die Backups von EC2-Instanzen und richtete ein umfassendes Monitoring-System mit AWS CloudWatch, Prometheus, Grafana, SNS und RDS ein. Ich implementierte Jenkins mit Groovy-Skripten für das Deployment in verschiedenen Umgebungen und verwaltete die AWS-Infrastruktur mithilfe von Terraform. Auch setzte ich PoC-Umgebungen wie Tab-leau oder Pyramid auf EC2 auf und betreute diese während der Testphase.
Ergänzend automatisierte ich eine Vielzahl von Aufgaben mittels Bash- und Po-wershell-Skripten und nutzte Spark mit Scala für datenintensive Prozesse, um beispielsweise die Belastung der On-Premise-Datenbanken zu reduzieren. Für die hybride Architektur etablierte ich DirectConnect- und VPN-Verbindungen zu On-Premise-Systemen und unterstützte andere Entwicklerteams in AWS-bezogenen Fragestellungen.
Big Data, ETL, Graphql, SQL, Continuous Delivery, DevOps, Continuous Integration, Datenschutz, Netzwerk-Sicherheit, Server-Monitoring, Amazon Web Services (AWS)
11/2017 – 5/2021
Tätigkeitsbeschreibung
Im Rahmen des Aufbaus einer Machine-Learning-Plattform auf AWS war ich Teil eines kleinen, agilen Scrum-Teams, das aus zwei Data Engineers und einem Data Scientist bestand. In meiner Funktion als DevOps-Experte leitete ich die Einfüh-rung von AWS im Unternehmen und arbeitete eng mit dem Mutterkonzern zu-sammen, um eine datenschutzkonforme Umgebung zu etablieren. Ich war ver-antwortlich für die Planung und den Betrieb einer Infrastruktur zur Verarbei-tung von ML-Daten unter Einsatz von Amazon SageMaker, wobei NiFi und Spark-Jobs für das Daten-Loading genutzt wurden.
Die von mir in Scala entwickelten Spark-Jobs wurden auf EMR-Clustern ausge-führt, später ergänzt durch den Einsatz von AWS Glue. Dies ermöglichte eine effiziente und skalierbare Verarbeitung umfangreicher Datenmengen. Ich un-terstützte den Data Scientist bei der Implementierung in Scala und Python und führte verschiedene Proof of Concept (PoC) Projekte für die Fachabteilungen durch.
Für die Implementierung von Continuous Integration und Continuous Deploy-ment (CI/CD) nutzten wir eine Kombination aus Git und Jenkins, ergänzt durch Groovy-Skripte. Dieser Ansatz ermöglichte eine automatisierte und effiziente Entwicklung sowie das Deployment. Unsere CI/CD-Lösung erlaubte es uns, in den drei eingerichteten Umgebungen – Entwicklung, Integration und Produktion – unabhängig voneinander jeweils die gewünschte Version zu deployen. Dar-über hinaus orchestrierten wir die Umgebung mit Apache Airflow und verwalte-ten die AWS-Infrastruktur mit CloudFormation.
Apache Spark, Datenanalyse, ETL, SQL, Continuous Delivery, DevOps, Continuous Integration, Scrum, Java (allg.), Jenkins, Python, Scala, Infrastrukturarchitektur, Amazon Web Services (AWS)
9/2017 – 11/2017
Tätigkeitsbeschreibung
In einem firmeninternen Showcase entwickelte ich zusammen mit einem Kolle-gen aus dem Bereich Data Science eine AWS-basierte Datenplattform. Unser Ziel war die Schaffung einer effizienten Lösung, die in der Lage ist, Daten aus diversen Systemen, wie beispielsweise über eine REST-API, zu streamen und zu verarbeiten. Ein zentraler Schritt hierbei war der Aufbau eines robusten Kafka-Clusters auf EC2-Instanzen. Zur Steigerung der Zuverlässigkeit und Effizienz des Clusters integrierte ich einen Load Balancer, der eine gleichmäßige Lastvertei-lung und optimierte Netzwerkleistung gewährleistete. Im Bereich der Datenver-arbeitung war ich verantwortlich für die Entwicklung von Kafka-Producern und -Consumern in Java.
Ein weiterer bedeutender Aspekt des Projekts war die Verarbeitung von Daten mit Apache Spark, die es mir ermöglichte, komplexe Datenanalysen, insbeson-dere Sentiment-Analysen, durchzuführen. Hierbei griff ich auf den ELK-Stack zurück, der aus Elasticsearch, Logstash und Kibana besteht, um eine effektive Visualisierung der Analysen zu gewährleisten.
Zur effizienten Ausführung der Spark-Jobs integrierte ich zudem ein EMR-Cluster, was eine skalierbare und flexible Datenverarbeitung ermöglichte. Ein Hive Metadata Store kam ebenfalls zum Einsatz, um eine effektive Organisation und Verwaltung der Metadaten zu sichern. Abschließend implementierte ich Grafana für eine umfassende Visualisierung des Systemzustandes.
Dieses Projekt diente nicht nur intern als Demonstrations- und Schulungsmate-rial, sondern ich nutzte es auch aktiv für Präsentationen und Akquisitionsge-spräche, die ich persönlich durchführte.
Apache Spark, Big Data, Apache Kafka, Amazon Web Services (AWS), Elasticsearch, Representational State Transfer (REST)
9/2015 – 8/2017
Tätigkeitsbeschreibung
Bei der Entwicklung eines layerbasierten Data Lakes auf AWS war ich verant-wortlich für die Verarbeitung von Daten mittels EMR oder Glue und orchestrier-te die Datenladeprozesse mit Airflow. Ich importierte Daten aus verschiedenen Quellen, darunter Datenbanken, GraphQL und SFTP, und führte spezifische ETL-Jobs in Docker-Containern auf AWS ECS aus. In enger Zusammenarbeit mit den Fachabteilungen löste ich gezielt individuelle Herausforderungen. Eine meiner Initiativen war die Etablierung eines Benachrichtigungssystems mittels AWS SNS und Lambda, um die Fachabteilungen direkt zu informieren. Zudem implemen-tierte ich eine eigene CI/CD-Lösung auf Basis von Jenkins, die in den drei spezi-ell eingerichteten Umgebungen – Entwicklung, Integration und Produktion – den Einsatz der jeweils gewünschten Versionen ermöglichte.
Im Bereich des Berechtigungsmanagements setzte ich Lake Formation ein und verwaltete verschiedene AWS-Konten, RDS-Datenbanken sowie Benutzergrup-pen. Ich gewährleistete den Datenschutz und führte das S3-Lifecycle-Management durch, um Daten gemäß der EU-DSGVO zu verwalten und zu lö-schen. Darüber hinaus übernahm ich DevOps-Aufgaben und sorgte für den Be-trieb und die Wartung der entwickelten Technologien.
Zusätzlich war ich zuständig für die Backups von EC2-Instanzen und richtete ein umfassendes Monitoring-System mit AWS CloudWatch, Prometheus, Grafana, SNS und RDS ein. Ich implementierte Jenkins mit Groovy-Skripten für das Deployment in verschiedenen Umgebungen und verwaltete die AWS-Infrastruktur mithilfe von Terraform. Auch setzte ich PoC-Umgebungen wie Tab-leau oder Pyramid auf EC2 auf und betreute diese während der Testphase.
Ergänzend automatisierte ich eine Vielzahl von Aufgaben mittels Bash- und Po-wershell-Skripten und nutzte Spark mit Scala für datenintensive Prozesse, um beispielsweise die Belastung der On-Premise-Datenbanken zu reduzieren. Für die hybride Architektur etablierte ich DirectConnect- und VPN-Verbindungen zu On-Premise-Systemen und unterstützte andere Entwicklerteams in AWS-bezogenen Fragestellungen.
Adobe Creative Cloud, Big Data, ETL, SQL, DevOps, Java (allg.), Python, Scala, Amazon Web Services (AWS)
5/2014 – 9/2014
TätigkeitsbeschreibungIch entwickelte und optimierte Hadoop-basierte Cluster-Computing-Anwendungen die in AWS ausgeführt wurden, führte Datenanalysen mit R durch und evaluierte die Nutzung von Spark, um Datenverarbeitungs- und Analyseprozesse zu beschleunigen. Zudem löste ich erfolgreich ein "Erzeuger und Verbraucher-Problem" mithilfe von Semaphoren.
Eingesetzte QualifikationenApache Hadoop, Apache Spark, Big Data, C, Datenanalyse, ETL, R (Programmiersprache)
Ausbildung
FH Münster
Münster
FH Münster
Münster
Buerodata AG, Stadtlohn
Pictorius Berufskolleg, Coesfeld
Über mich
für technologische Innovationen. Besonders fasziniert mich die Spark-Entwicklung, insbeson dere mit Scala, und deren Einsatz in Cloud-Plattformen wie AWS. Diese Kombination bietet mir die ideale Plattform, um Daten umfassend zu
verarbeiten und daraus wertvolle Erkenntnisse zu gewinnen.
Meine Begeisterung für Cloud-Engineering ist im Laufe meiner Karriere stetig gewachsen. Es motiviert mich, in diesem dynamischen Feld neue Wege zu gehen und die Entwicklung und Implementierung von cloudbasierten Lösungen aktiv mitzugestalten. Diese Arbeit ermöglicht es mir, immer wieder neue Horizonte in der IT-Landschaft zu erkunden.
DevOps-Tätigkeiten sind für mich mehr als nur ein Berufsfeld – sie sind ein wesentlicher Teil meiner beruflichen Identität. Die Verbindung aus Softwareentwicklung und operativem IT-Management ermöglicht mir eine ganzheitliche Sichtweise auf den Lebenszyklus von Anwendungen und spiegelt meine Begeisterung für ganzheitliche IT-Lösungen wider.
Weitere Kenntnisse
• Apache Spark
• Apache Hive
• Apache Presto
• Apache Kafka
• Apache Nifi
• Apache Hadoop Stack
C L O U D T E C H N O L O G I E N
• AWS VPC
• AWS EC2
• AWS Identity and Access Management (IAM)
• AWS Backup
• AWS Elastic MapReduce (EMR)
• AWS Lambda
• AWS Glue
• AWS Sagemaker
• AWS LakeFormation
• AWS Elastic Container Service (ECS)
• AWS Managed Workflows for Apache Airflow (MWAA)
• AWS Athena
• AWS Key Management Service (KMS)
• AWS Simple Nofification Service (SNS)
• AWS Relational Database Service (RDS)
• AWS Redshift
• AWS CloudWatch
• AWS CloudTrail
C I / C D
• Jenkins
• Git
• CodeCommit
• CodeDeploy
M O N I T O R I N G
• AWS CloudWatch
• Grafana
• Prometheus
S P R A C H E N & T O O L S
• Scala/Java
• Python
• Bash-Script
• SQL
• C
• Terraform
• JUnit
• MapReduce
• Docker
• Spring-Framework
S C H N I T T S T E L L E N
• GraphQL
• REST
• SFTP
• Datenbanken ( JDBC/ODBC)
o Oracle
o MySQL
o MongoDB
o PostgreSQL
o Amazon DynamoDB
o Amazon Aurora
E N T W I C K L U N G S U M G E B U N G E N
• IntelliJ
• Eclipse
• Visual Studio Code
• Jupyter
Persönliche Daten
- Deutsch (Muttersprache)
- Englisch (Gut)
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden