Librairie Python pour lingénierie de données

Conception et développement d'une librairie Python (alstompy) au sein d'une équipe de 5 personnes pour interagir avec les données de la plateforme de maintenance prédictive HealthHub d'Alstom, améliorant l'accès et l'analyse des données ferroviaires.

Software Engineering, Transport, Data

Projet: Société Alstom Transport

Jan. 2022 - Aout 2022

Durée: 8 mois

Présentation :

Le projet alstompy a consisté en la conception et le développement, au sein d'une équipe de 5 personnes, d'une librairie Python dédiée aux employés et clients d'Alstom. Son objectif principal était de faciliter l'interaction avec les vastes ensembles de données captées par la plateforme HealthHub, une solution intelligente de maintenance prédictive pour les systèmes ferroviaires (train, infrastructure, signalisation). Cette librairie a permis de démocratiser l'accès aux données complexes et d'optimiser leur exploitation pour des analyses approfondies.



Contexte :

Dans le secteur de l'industrie et du transport, la maintenance prédictive est cruciale pour assurer la fiabilité et la sécurité des opérations ferroviaires. La plateforme HealthHub d'Alstom collecte des volumes importants de données (événements, KPIs, incidents, séries temporelles) issues des systèmes ferroviaires. Cependant, l'accès et la manipulation de ces données pour des analyses personnalisées ou des intégrations tierces pouvaient s'avérer complexes pour les utilisateurs non-experts.


Problématique :

Comment permettre aux employés et aux clients d'Alstom d'interagir de manière simple, efficace et sécurisée avec les données brutes et traitées de la plateforme HealthHub, sans nécessiter une expertise approfondie en manipulation de bases de données ou en appels d'API complexes ? L'objectif était de créer un outil standardisé pour l'accès aux données, l'intégration avec d'autres systèmes et l'automatisation des tâches d'ingénierie de données.


Solution :

La solution a été la conception et l'implémentation de la librairie Python alstompy. Cette librairie encapsule la complexité des interactions avec la plateforme HealthHub et ses sources de données (notamment Amazon S3 et des APIs). Elle offre un ensemble de fonctions Python intuitives pour la récupération, le traitement et l'exportation des données. Des connecteurs spécifiques ont été développés pour faciliter l'importation depuis Amazon S3 et la création de sources de données pour Tableau Software, assurant ainsi une intégration fluide dans l'écosystème d'analyse existant.



Réalisations :

  • Recueil et Intégration des Besoins : J'ai collaboré étroitement avec les principales parties prenantes (équipes techniques, business et managériales) pour recueillir, intégrer et affiner les besoins fonctionnels et techniques de la librairie, garantissant son alignement avec les objectifs stratégiques.

  • Développement de Fonctions Python Clés : J'ai participé à la conception et à l'implémentation de fonctions Python robustes pour interagir efficacement avec les données de la plateforme HealthHub, permettant des requêtes, des filtres et des transformations de données complexes.

  • Mise en Œuvre de Connecteurs de Données : J'ai contribué au développement de connecteurs Python pour l'importation de données depuis Amazon S3 et pour la création automatisée de sources de données pour Tableau Software, simplifiant ainsi l'accès aux données pour la visualisation.

  • Conception de Services Complémentaires : J'ai participé à la conception et à la planification de services additionnels, incluant l'extension des fonctionnalités liées à Tableau Server et l'amélioration du composant Task Scheduler pour l'orchestration et la planification des scripts Python.

  • Tests et Qualité du Code : J'ai contribué activement à la mise en place et à l'exécution de tests unitaires et d'intégration (en utilisant Pytest) pour garantir la robustesse, la fiabilité et la conformité des fonctions de la librairie. J'ai également collaboré à la rédaction de la documentation technique et utilisateur complète de la librairie, et j'ai activement contribué à l'identification et à la communication des erreurs, assurant ainsi la maintenabilité du code.


Stack technique :

  • Langage : Python (Pytest, Pandas, Logger, Boto, Requests, BeautifulSoup)

  • Cloud : Amazon S3

  • Visualisation des Données : Tableau Software

  • Formats de Fichiers : Feather, CSV, JSON, XML, YAML, RDATA

  • Gestion de Version : Git, GitHub

  • APIs : Interaction avec diverses APIs

  • Données : Séries temporelles, Événements (alertes, KPI, incidents)

  • Environnements de Développement : PyCharm, Jupyter Notebook, Postman


Tags

Alstom, HealthHub, Maintenance Prédictive, Data Engineering

You might also like

SmartCity - Data Platform for Urban Intelligence

Data Engineering, Open Data

SmartCity - Data Platform for Urban Intelligence

Data Engineering, Open Data

Reconnaissance de Chiffres Manuscrits

Deep Learning, Computer Vision

Reconnaissance de Chiffres Manuscrits

Deep Learning, Computer Vision

SRAXC : Un Chatbot Expert sur mon Portfolio

Natural Language Processing (NLP), MLOps

SRAXC : Un Chatbot Expert sur mon Portfolio

Natural Language Processing (NLP), MLOps

Multilingual Text Summarizer with Transformers

Natural Language Processing (NLP), MLOps

Multilingual Text Summarizer with Transformers

Natural Language Processing (NLP), MLOps

Create a free website with Framer, the website builder loved by startups, designers and agencies.