Geschäftsführer one focus GmbH, Data/Solution Architect, Data Engineer, Kafka Expert, Consultant
- Verfügbarkeit einsehen
- 0 Referenzen
- auf Anfrage
- 50674 Köln
- Umkreis (bis 200 km)
- de | en
- 05.02.2024
Kurzvorstellung
Consultant im Bereich Big Data, Hadoop, Distributed Systems, Stream Processing Platforms.
Qualifikationen
Projekt‐ & Berufserfahrung
4/2017 – 4/2017
Tätigkeitsbeschreibung
Toolset: Scala, Spark, Spark SQL
- Ingest von Google Analytics Big Query Exports in den Hadoop Datalake
- Implementierung von Spark SQL Jobs zur Anlyse bestimmter Ereignispfade/Ereignisse
Apache Hadoop, Data Mining, Scala, Reactive Programming, It-Beratung
3/2017 – 8/2017
Tätigkeitsbeschreibung
Toolset: Hortonworks, Cloudera, MapR, Ansible
- Deployment mehrerer Hadoop Distributionen (Hortonworks, Cloudera, MapR) in gesicherter Umgebung zur Evaluation operationaler Aspekte des Kunden
- Beratung des Betriebs zum Operieren der Hadoop Distribution Hortonworks
Apache Hadoop, DevOps (allg.), It-Beratung
12/2016 – 10/2017
Tätigkeitsbeschreibung
Toolset: Scala, Play Framework, Kafka, Spark, HDFS, AWS EMR, AWS, Terraform, Ansible
Consultant/Data Architect
Konzeption einer Datenintegrations Referenzarchitektur inkl. Hadoop Datalake und near-realtime Zugriffszenarien
Cloud Architect/DevOps
Design der Architektur und automatisierte Basisprovisionierung auf AWS mittels Terraform und Ansible
Data Architekt/Data Engineer/Software Developer
- Implementierung eines PoC zum ingest von transaktionalen Datenströmen in den Datalake
- Konzept/Implementierung einer generic Streaming integration von Cloudservices mittels Kafka in den Datalake zum automatisierten Aufbau von Ingest Pipelines und laden in interne Datenbank
Apache Hadoop, Big Data, ETL, DevOps (allg.), Software Architecture, Scala, Reactive Programming, Cloud Computing, System Architektur, It-Beratung
11/2016 – 12/2016
Tätigkeitsbeschreibung
Toolset: Ansible, Scala, Flume, Logstash, Elasticsearch
- Konzept des Hadoop Clusters von 10 Nodes und dessen Komponentenverteilung
- Deployment der Hadoop Distribution Hortonworks via Ansible
- Konzept und Implementierung der Ingest Pipelines via Flume und Logstash
- Implementierung der Deploymentautomatisierung und Konfiguration der Edge Services
Apache Hadoop, ETL, DevOps (allg.), Scala, Reactive Programming
6/2016 – 12/2016
Tätigkeitsbeschreibung
Toolset: Ansible, Scala, Akka, Play Framework, Cassandra, PostgreSQL, Docker
- Review der bestehenden Deploymentprozesse, im speziellen von Cassandra
- Consulting im Bereich Ansible, Prozessautomatisierung
- Konzept und Implementierung einer Microservicearchitektur auf Basis von Akka zum automatisierten Deployment von Clustered Applications mitels REST API zum Instrumentieren von Ansible
- Beratung im Thema Monitoring von Cassandra per InfluxDB und Grafana
Software Architecture, Scala, Reactive Programming, It-Beratung
6/2016 – 10/2016
Tätigkeitsbeschreibung
Toolset: Scala, Spark, Hadoop, YARN, Hashicorp Nomad, Docker
- Automatisiertes Setup des Clusterseitigen Development Environments
- Automatisiertes Deployment/Setup von verteilten Applikationen via Ansible
- Apache Spark im Standalone Mode
- Apache YARN
- Apache Spark on YARN
- Apache Hadoop HDFS
- Apache Zeppelin
- Konzeptionierung und Implementierung Cluster/Container Manager Hashicorp Nomad
- Konzeptionierung und Implementierung Service Discovery via Hashicorp Consul
Apache Hadoop, DevOps (allg.)
6/2016 – 10/2016
Tätigkeitsbeschreibung
Toolset: Scala, Kafka, Spark, Spark Streaming, HDFS, Flume
- Konzept des Hadoop Clusers und dessen Komponenten
- Automatisiertes Deployment und Setup des Betriebssystems (CentOS 7)
- Automatisiertes Deployment von Flume Komponenten
- Konzeptionierung und Implementierung der Automatisierten Ingest Pipelines
- Konzeptionierung und Implementierung des Data Warehouses
- Vorbereiten und Führen von Schulungen von Mitarbeitern
- Implementieren weiterer Ingest Pipelines via Apache Flume
- Benutzen von Apache Zeppelin und Einweisung in Apache Spark
- Implementieren von Spark Jobs
- Erforschen von Dependency Injection mit Spark Jobs via Google Guice
Apache Hadoop, Big Data, Software Architecture, Scala, Reactive Programming
6/2016 – 10/2016
Tätigkeitsbeschreibung
Toolset: Scala, Spark, Play Framework, Elasticsearch, Machine Learning, ReactJS
- Anforderungsanalyse
- Erfassen der benötigten Datenquellen
- Konzeption der Applikation
- Ingest von externen Quellen
- Stream/Batch Processing via Spark
- Implementierung Machine Learning: Time Series Analyse der eingebundenen Sales Daten
- Konzeptionierung und Implementierung REST API mittels Play Framework
- Einarbeiten in React JS
- Implementierung eines Dashboards zur Visualiserung der Sales Forecast Daten
- Vorbereitende Konzeption und Implementierung des PIM Management (Daten Integration)
Maschinelles Lernen, Apache Hadoop, Big Data, Scala, Reactive Programming, Google Analytics, React (JavaScript library)
6/2016 – 7/2016
Tätigkeitsbeschreibung
Toolset: Scala, Spark, Akka, Elasticsearch, Machine Learning, Docker, AngularJS
- Akka (Microservices)
- Apache Kafka (Message Broker)
- Apache Cassandra (Persistence)
- Kamon (Monitoring Scala API via aspectj), InfluxDB und Grafana
- Docker/Docker-Compose/SBT Docker (Development Environment)
- Play Framework (REST API)
- Angular JS (Frontend, SPA)
Maschinelles Lernen, Apache Hadoop, Software Architecture, Scala, Reactive Programming
1/2016 – 6/2016
Tätigkeitsbeschreibung
Toolset: Scala, Spark, Akka, Play Framework, Flume, HDFS, Avro
- Deployment eines cross DC Cloudera Clusters
- Implementierung eines Akka Job Schedulers mit nachgelagertem Actor System
- Streambasierte Ingestion von externen Services in den Hadoop Datalake als Avro Files und Elasticsaerch zur späteren Aggregation
- HTTP API zum Abfragen aggregierter Result Sets
Apache Hadoop, Big Data, DevOps (allg.), Scala, Reactive Programming, Representational State Transfer (REST)
Ausbildung
Köln
Über mich
Fundierte Kenntnisse und mehrjährige Erfahrung im Bereich der Software Entwicklung, im Speziellen Scala (Functional Programming) und des Typesafe Stacks (Play Framework, Akka, Akka Streams).
Service orientierte Architekturen mit Akka HTTP/Play Framework asynchroner Kommunikation per Apache Kafka, Event Sourcing/Persistenz via Cassandra.
# Data Engineering
Mehrjährige Erfahrung mit dem Hadoop Ökosystem und artverwandten Technologien, wie columnar/document oriented Storage, Message Brokers, Stream Processing Frameworks, etc, wie zum Beispiel:
- Hadoop HDFS (Avro, Parquet)
- HBase
- YARN
- Hive/Impala
- Kudu
- Spark/Spark Streaming
- Kafka
- Cassandra
- Elasticsearch
- Logstash, Kibana => ELK
# Dev Ops Engineering
Plattformen mit oben genannten Technologien werden entweder bei den üblichen Cloud Providern (AWS, Google Cloud, Azure) aufgebaut - oder eben On-Premise beim Kunden.
Im Speziellen auf AWS haben wir in den letzten Jahren einige Projekte umgesetzt und gute Erfahrungen gemacht.
Entweder wurden managed Services der Cloud Provider genutzt (z.b. AWS EMR, Hortonworks on Azure), Hadoop Distributionen automatisiert von uns aufgebaut (Hortonworks, Cloudera, MapR) oder zum Teil auch Vanilla im Clusterbetrieb deployed (z.b. Spark Standalone, Kafka Cluster, Cassandra Cluster).
Infrastrukturautomatisierung wird wenn möglich per Terraform implementiert und per Ansible provisioniert.
Zu den Plattformen werden verständlicherweise auch mehrere CI/CD Pipelines per GIT, Jenkins und Docker aufgebaut.
Hierbei entstehen nicht selten PaaS Produkte, die es dem Kunden selbst ermuoglichen Managed Services innerhalb der Organisation anzubieten - z.b. Managed Cassandra, Kafka, Spark, etc.
# Architektur
Bei den meisten Kunden steht die Datenintegration und BI im Vordergrund, die meist Batchgetrieben ist. Je nach Use Case wurde ETL in Batches bzw. Streams betrieben - sowohl auf Hadoop Platformen, als auch maßgeschneidert mit oben genannten Technologien. Dies können z.b. Stream Processing Plattformen sein, die eventgetrieben einen hohen Durchsatz mit geringer Verarbeitungslatenz als Anforderung hatten.
Dabei wurden in der Regel Service Oriented Infrastructures entworfen, um den Anforderungen des Kunden seitens Skallierung, Fault Tolerance und Maintenance gerecht zu werden.
Durch moderaten Durchsatz an Projekten werden häufig neue Technologien evaluiert und wenn möglich eingesetzt - zugeschnitten auf den jeweiligen Use Case.
# End-to-End Projekte möglich:
- Consulting im Bereich Big Data, Hadoop, Architektur
- Design und Implementierung von Big Data Processing Plattformen
- Implementierung von ETL Pipelines zur Datenintegration
- Analyse der integrierten Daten
- Bereitstellung der Aggregate für nachgelagerte Systeme
- Workshops zwecks Wissenstransfer an Mitarbeiter des Kunden
Weitere Kenntnisse
* Big Data Engineering mit Apache Hadoop, Apache Spark, Apache HBase, Apache Cassandra, Apache Kafka incl. Deployment von Hadoop Clustern der Distributionen Hortonworks/Cloudera/Vanilla Hadoop, Spark on YARN und anschließender Implementierung von Big Data Applikationen
* Implementierung von Suchfunktionen mittels Elasticsearch
* Implementierungen erfolgen vorzugsweise funktional reaktiv und nach dem Clean Code Prinzip
Persönliche Daten
- Deutsch (Muttersprache)
- Englisch (Gut)
- Europäische Union
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden