CLASSIFICATION AUTOMATIQUE DE TEXTES ARABES SUPERVISEE PAR L’ONTOLOGIE LEXICALE WORDNET

Loading...
Thumbnail Image

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

FACULTE DES MATHEMATIQUES ET DE L’INFORMATIQUE DEPARTEMENT D’INFORMATIQUE

Abstract

La classification des textes est une tâche plus ou moins compliquée mais fréquemment appliquée pour: assigner un texte à une catégorie (classe) selon son contenu (catégorisation thématique),orienter et filtrer d'autres textes comme étant importants ou non importants (e.g., filtrage de spams), ou même comme partie intégrale du processus de traitement du langage naturel NLP. Les méthodes classiques de classification sont typiquement basées sur un modèle de représentation connu sous le nom "sac de mots", ou chaque terme et ses dérivés sont considérés comme des éléments indépendant (informer, information, informatique) en ignorant toute relation sémantique entre termes ce qui aboutit à un échec pour les algorithmes d'apprentissage lors de leur application. Le présent projet consiste à utiliser l'ontologie lexicale WordNet pour capturer toute relation sémantique entre les termes ce qui permet de réduire la dimension de l'espace de représentation des textes d'une part, et d'améliorer l'exactitude de la catégorisation proprement dite d'une autre part.

Description

Keywords

classification de documents, classification supervisée, algorithmes d'apprentissage, Ontologies, WordNet.

Citation

Collections