Développement d'un modèle d'IA pour la prédiction de l'identité de métabolites inconnus à partir de l'analyse de données HPLC-MS
Loading...
Date
2025
Journal Title
Journal ISSN
Volume Title
Publisher
UNIVERSITE MOHAMED BOUDIAF - M’SILA
Abstract
L’annotation précise des spectres de spectrométrie de masse (MS) demeure un défi majeur
en métabolomique. Nous proposons un cadre d’apprentissage profond multitâche capable de
prédire simultanément les noms des composés et leurs formules moléculaires à partir des spectres
MS. À partir de 122 512 entrées spectrales représentant 18 332 entités moléculaires uniques, un
jeu de données de 15 930 spectres de haute qualité (correspondant à 255 composés uniques) a été
extrait de la bibliothèque MassBank-NIST 2024.11, puis prétraité à l’aide de Python 3.12.4 avec
les bibliothèques pandas, numpy et scikit-learn pour la transformation et la normalisation des
données. Un réseau de neurones convolutif unidimensionnel (1D-CNN) a été implémenté sous
TensorFlow/Keras, entraîné et validé dans l’environnement Visual Studio 2022. Le modèle a
atteint une précision de 93.31 % pour la prédiction des noms et de 94.76 % pour celle des formules.
Ces résultats démontrent le potentiel des architectures profondes multitâches à améliorer
l’annotation spectrale et à accélérer l’identification des composés en métabolomique.
Description
Keywords
Identification des Métabolites, IA, HPLC, MS, CNN