Optimisation Fichiers Énergie

Analyse comparative des performances de lecture/écriture (temps et taille) des formats CSV, Feather, Parquet et Pickle.

Plan d'Expérience, Analyse de Performances

Projet: Société Alstom Transport

Mars, 2023

Durée: 1 mois

Visit Website

Ce projet a consisté en une étude comparative approfondie des formats de fichiers de données courants (CSV, Feather, Parquet, Pickle) afin d'identifier le format le plus performant en termes de temps de lecture/écriture et de taille de stockage pour les données énergétiques spécifiques d'Alstom. L'objectif était de recommander un format optimisé pour améliorer l'efficacité des pipelines de traitement de données et réduire les coûts d'infrastructure, avec une présentation claire des résultats via Power BI.

Contexte :

Dans le cadre de la gestion des données énergétiques chez Alstom, la performance des opérations d'entrée/sortie (I/O) est un facteur critique. Des volumes importants de données sont générés et consommés, et le choix du format de fichier peut avoir un impact significatif sur la rapidité des traitements, l'utilisation des ressources de stockage et, in fine, sur l'efficacité opérationnelle des systèmes.

Problématique :

Quel est le format de fichier le plus adapté aux besoins d'Alstom pour les données énergétiques, en considérant les contraintes de performance (temps de lecture/écriture) et d'optimisation du stockage (taille des fichiers et niveau de compression) ? Comment visualiser et communiquer efficacement les résultats de ce benchmark aux équipes techniques et métiers ?

Solution :

La solution a impliqué la mise en place d'un plan d'expérience rigoureux en Python. J'ai conçu et développé des scripts pour générer des jeux de données représentatifs des données énergétiques d'Alstom, puis pour mesurer les temps de lecture et d'écriture ainsi que la taille des fichiers et leur niveau de compression pour chaque format (CSV, Feather, Parquet, Pickle). Les données de performance ont ensuite été collectées, transformées et exportées pour être visualisées de manière interactive sur un tableau de bord Power BI, permettant une analyse facile et des prises de décision éclairées.

Réalisations :

Conception du Plan d'Expérience et du Benchmark : J'ai défini un plan d'expérience détaillé et une méthodologie de benchmark pour comparer équitablement les formats de fichiers sur des critères de performance de lecture/écriture et de niveau de compression, en utilisant des jeux de données simulant la structure et le volume des données énergétiques d'Alstom.
Développement de Scripts Python : J'ai développé des scripts Python robustes (en utilisant Pandas et des librairies spécifiques à chaque format comme pyarrow pour Feather/Parquet) pour automatiser les tests de performance, incluant la génération de données synthétiques, l'écriture dans différents formats, la lecture et la mesure précise des temps, des tailles et du niveau de compression.
Analyse de Données et Recommandations : J'ai analysé les résultats bruts du benchmark pour identifier les tendances et les performances spécifiques à chaque format, permettant de formuler des recommandations claires et basées sur des preuves quant au format le plus optimal pour les données d'énergie.
Création de Dashboard Power BI : J'ai conçu et implémenté un tableau de bord interactif sur Power BI. Ce dashboard visualise les temps de lecture/écriture, les tailles de fichiers et les niveaux de compression pour chaque format, offrant des filtres et des segments pour une exploration dynamique des résultats et une communication efficace aux parties prenantes.

Stack technique

Langages : Python
Librairies Python : Pandas, pyarrow (pour Feather/Parquet), fastparquet, pickle
Formats de Fichiers : CSV, Feather, Parquet, Pickle
Visualisation des Données : Microsoft Power BI
Outils : Jupyter Notebook (pour l'expérimentation et l'analyse)