Du bist mit den gängigen Data-Science-Libraries & Tools wie scikit-learn, pandas, Matplotlib und jupyter bestens vertraut und besitzt Erfahrung mit Big-Data-Frameworks wie ApacheSpark. * Das große Ganze stets im Blick: Du übernimmst das Datenmanagement von strukturierten und unstrukturierten Daten in verschiedenen Datenbanksystemen (z.B. GCP/BigQuery, Snowflake) sowie Analyse-Frameworks (z.B. Hadoop/Spark).
Du bist mit den gängigen Data-Science-Libraries & Tools wie scikit-learn, pandas, Matplotlib und jupyter bestens vertraut und besitzt Erfahrung mit Big-Data-Frameworks wie ApacheSpark. * Das große Ganze stets im Blick: Du übernimmst das Datenmanagement von strukturierten und unstrukturierten Daten in verschiedenen Datenbanksystemen (z.B. GCP/BigQuery, Snowflake) sowie Analyse-Frameworks (z.B. Hadoop/Spark).
Work with (semi-)structured data from our BigQuery DWH architecture and process with Spark where necessary. * You know how to work with Big Data platforms such as Big Query/Spark and know how to write a SQL query to pull the data you need.
Work with (semi-)structured data from our BigQuery DWH architecture and process with Spark where necessary. * You know how to work with Big Data platforms such as Big Query/Spark and know how to write a SQL query to pull the data you need.
Du hast erste oder vertiefte Erfahrung mit verteilten Systemen und der Verarbeitung großer Datenmengen (z. B. mit ApacheSpark, Kafka, Flink oder Cassandra). * Freie Open-Source-Welt (FOSS): Arbeit mit unserem eigenen Apache/Nginx-Cluster, Mailcow, Nextcloud, Kubernetes, Cassandra und ApacheSpark
Du hast erste oder vertiefte Erfahrung mit verteilten Systemen und der Verarbeitung großer Datenmengen (z. B. mit ApacheSpark, Kafka, Flink oder Cassandra). * Freie Open-Source-Welt (FOSS): Arbeit mit unserem eigenen Apache/Nginx-Cluster, Mailcow, Nextcloud, Kubernetes, Cassandra und ApacheSpark
Du entwickelst und standardisierst unsere ETL-Prozesse und nutzt moderne Big-Data-Verarbeitungsframeworks wie Spark oder Databricks, um große Datenmengen effizient und zuverlässig zu verarbeiten
Du entwickelst und standardisierst unsere ETL-Prozesse und nutzt moderne Big-Data-Verarbeitungsframeworks wie Spark oder Databricks, um große Datenmengen effizient und zuverlässig zu verarbeiten
Garching bei München, Augsburg, Bonn, Berlin, Frankfurt am Main, Düsseldorf, Koblenz, Karlsruhe
Teilweise Home-Office
Anschreiben nicht erforderlich
Relevante Technologien sind für uns zum Beispiel ApacheSpark / Databricks, Apache Kafka, Apache Airflow, relationale und nichtrelationale Datenbanken, Pandas / Polars, FastAPI, MLFlow, Docker, Kubernetes, Prometheus, Grafana, AWS und Azure
Relevante Technologien sind für uns zum Beispiel ApacheSpark / Databricks, Apache Kafka, Apache Airflow, relationale und nichtrelationale Datenbanken, Pandas / Polars, FastAPI, MLFlow, Docker, Kubernetes, Prometheus, Grafana, AWS und Azure
Sehr gute Kenntnisse und Berufserfahrung in der Entwicklung moderner Softwarelösungen (z. B. mit Microsoft .NET, SQL, Scala, Python, Spark, Databricks)
Sehr gute Kenntnisse und Berufserfahrung in der Entwicklung moderner Softwarelösungen (z. B. mit Microsoft .NET, SQL, Scala, Python, Spark, Databricks)
Berlin, Dortmund, Düsseldorf, Frankfurt, Hamburg, Köln, München
Teilweise Home-Office
Anschreiben nicht erforderlich
Aufgrund deiner mind. fünfjährigen Erfahrung blickst du auf einen reichen Erfahrungsschatz und ein tiefes Verständnis im Bereich (Cloud) Datenplattformen und des Big Data Ökosystems (Kafka, Spark, Databricks, Delta Lake, Iceberg, etc.) und Cloud Analytics Services (AWS, GCP) zurück, im Optimalfall belegt durch Herstellerzertifizierungen (Professional/ Specialist Level) und/oder nachgewiesene Projekterfahrung. * Du bist fit in gängigen Data Platform Architektur-Konzepten: Data Lake, DWH und Datenmodellierung, Data Mesh und Delta Lake sind für dich ebenso wenig Fremdwörter, wie Databricks oder (py)Spark.
Aufgrund deiner mind. fünfjährigen Erfahrung blickst du auf einen reichen Erfahrungsschatz und ein tiefes Verständnis im Bereich (Cloud) Datenplattformen und des Big Data Ökosystems (Kafka, Spark, Databricks, Delta Lake, Iceberg, etc.) und Cloud Analytics Services (AWS, GCP) zurück, im Optimalfall belegt durch Herstellerzertifizierungen (Professional/ Specialist Level) und/oder nachgewiesene Projekterfahrung. * Du bist fit in gängigen Data Platform Architektur-Konzepten: Data Lake, DWH und Datenmodellierung, Data Mesh und Delta Lake sind für dich ebenso wenig Fremdwörter, wie Databricks oder (py)Spark.
Sehr gute Kenntnisse in Python und SQL, Erfahrung mit GIT in Verbindung mit entsprechenden Versionskontrollsystemen (z.B. GitHub oder GitLab), Java bzw. Scala (ApacheSpark) von Vorteil
Sehr gute Kenntnisse in Python und SQL, Erfahrung mit GIT in Verbindung mit entsprechenden Versionskontrollsystemen (z.B. GitHub oder GitLab), Java bzw. Scala (ApacheSpark) von Vorteil
Du hast einschlägige Erfahrung im Umgang mit technologierelevanten Tools und Frameworks wie z.B. Tensorflow, Pytorch, Keras, LangChain, LlamaIndex, OpenAI, Spark und Scala.
Du hast einschlägige Erfahrung im Umgang mit technologierelevanten Tools und Frameworks wie z.B. Tensorflow, Pytorch, Keras, LangChain, LlamaIndex, OpenAI, Spark und Scala.