CLASSIFICATION AUTOMATIQUE DE TEXTES ARABES SUPERVISEE PAR L’ONTOLOGIE LEXICALE WORDNET
Loading...
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
FACULTE DES MATHEMATIQUES ET DE L’INFORMATIQUE DEPARTEMENT D’INFORMATIQUE
Abstract
La classification des textes est une tâche plus ou moins compliquée mais fréquemment
appliquée pour: assigner un texte à une catégorie (classe) selon son contenu (catégorisation
thématique),orienter et filtrer d'autres textes comme étant importants ou non importants (e.g.,
filtrage de spams), ou même comme partie intégrale du processus de traitement du langage
naturel NLP.
Les méthodes classiques de classification sont typiquement basées sur un modèle de
représentation connu sous le nom "sac de mots", ou chaque terme et ses dérivés sont
considérés comme des éléments indépendant (informer, information, informatique) en
ignorant toute relation sémantique entre termes ce qui aboutit à un échec pour les algorithmes
d'apprentissage lors de leur application.
Le présent projet consiste à utiliser l'ontologie lexicale WordNet pour capturer toute
relation sémantique entre les termes ce qui permet de réduire la dimension de l'espace de
représentation des textes d'une part, et d'améliorer l'exactitude de la catégorisation proprement
dite d'une autre part.
Description
Keywords
classification de documents, classification supervisée, algorithmes d'apprentissage, Ontologies, WordNet.