Multilingual Text Summarizer with Transformers

Développement d'une application web multilingue (EN/FR) de résumé de texte utilisant les Large Language Models (LLMs) tels que BART et T5, avec une interface interactive Gradio déployée sur Hugging Face Spaces

Natural Language Processing (NLP), MLOps

Projet: Personnel

Mai, 2025

Durée: 1 mois

Ce projet est une application web innovante, conçue pour synthétiser automatiquement des textes en anglais et en français. Il tire parti de l'état de l'art en matière de Large Language Models (LLMs) pour fournir des résumés précis et pertinents, démontrant ainsi la capacité à concevoir et à industrialiser des solutions NLP de bout en bout.


Problématique

Dans un monde saturé d'informations, la synthèse manuelle de longs documents (e-mails, rapports, articles) est chronophage et inefficace. Il y avait un besoin crucial d'une solution automatisée et fiable, capable de traiter du contenu multilingue et de s'intégrer facilement dans des flux de travail existants.

Solution

J'ai développé une application web complète qui utilise des modèles de la bibliothèque Transformers (BART, T5) pour la synthèse de texte. L'application gère une variété de formats d'entrée, y compris le texte direct, les fichiers .txt et .pdf, et intègre une détection automatique de la langue. Une interface conviviale a été construite avec Gradio pour une interaction simple et intuitive.

Réalisations clés

  • Application Web Fonctionnelle : Conception et implémentation d'une application web robuste pour la synthèse de texte multilingue.

  • Implémentation de Modèles de Pointe : Utilisation et adaptation de Large Language Models (LLMs) pré-entraînés pour des résumés de haute qualité.

  • Gestion des Données et Fichiers : Intégration de la capacité à traiter divers formats d'entrée, offrant une flexibilité maximale aux utilisateurs.

  • Détection Automatique de Langue : Mise en œuvre d'une fonctionnalité de détection automatique de la langue (anglais/français) pour une expérience utilisateur fluide.

  • Déploiement et MLOps : Déploiement réussi de l'application sur Hugging Face Spaces, démontrant ma capacité à industrialiser et à rendre accessible un modèle NLP de manière efficace.

  • Code Structuré et Documenté : Le dépôt GitHub présente une structure de projet claire et documentée, facilitant la compréhension et la réplicabilité.

Tech Stack

  • Modèles de Langage : Transformers (BART, T5), PyTorch

  • Interface Web : Gradio, Streamlit (alternative explorée)

  • Déploiement & MLOps : Hugging Face Spaces

  • Langage & Outils : Python, Pandas, NumPy, Git, GitHub

  • Détection de Langue : langdetect


Démonstration en ligne & Dépôt GitHub


Ce projet est une démonstration de mes compétences en tant que Data Scientist et Ingénieur en Machine Learning, depuis la conceptualisation jusqu'au déploiement d'une application de bout en bout.




Tags

Transformers, LLM, BART, T5, Python, Gradio, Streamlit, Résumé de Texte, Détection de Langue, Web Application, MLOps, Hugging Face, Spaces, Data Science

You might also like

SmartCity - Data Platform for Urban Intelligence

Data Engineering, Open Data

SmartCity - Data Platform for Urban Intelligence

Data Engineering, Open Data

Reconnaissance de Chiffres Manuscrits

Deep Learning, Computer Vision

Reconnaissance de Chiffres Manuscrits

Deep Learning, Computer Vision

SRAXC : Un Chatbot Expert sur mon Portfolio

Natural Language Processing (NLP), MLOps

SRAXC : Un Chatbot Expert sur mon Portfolio

Natural Language Processing (NLP), MLOps

Métro Stockholm - Monitoring Énergétique

Transport & Énergie, Maintenance Prédictive

Métro Stockholm - Monitoring Énergétique

Transport & Énergie, Maintenance Prédictive

Create a free website with Framer, the website builder loved by startups, designers and agencies.