Développement d’une nouvelle approche pour la classification non supervisée de données

Loading...
Thumbnail Image

Date

2025-10-09

Journal Title

Journal ISSN

Volume Title

Publisher

University of M'Sila

Abstract

Le partitionnement spatial de données basé sur la densité avec bruit (DBSCAN) est un algorithme de clustering largement utilisé, capable d'identifier des groupes de formes arbitraires et de gérer efficacement les données bruitées. Cependant, la performance de l'algorithme dépend du choix de deux paramètres cruciaux : Eps (epsilon) et MinPts (nombre minimum de points). Eps définit le rayon dans lequel rechercher les points de données voisins, tandis que MinPts spécifie le nombre minimum de points requis pour former une région dense. La détermination de la valeur optimale d'Eps est un défi bien connu dans DBSCAN. Une valeur fixe d'Eps peut être inadéquate pour les ensembles de données contenant des clusters de densités variables. Si Eps est défini trop petit, les clusters de faible densité pourraient être classés à tort comme du bruit, tandis qu'une grande valeur d'Eps pourrait conduire à la fusion de clusters distincts de haute densité. Dans cette thèse, nous relevons ce défi en proposant un algorithme DBSCAN modifié qui élimine le besoin de spécification manuelle d'Eps. Notre approche exploite l'algorithme des k plus proches voisins (kNN) pour calculer de manière adaptative une valeur Eps pour chaque point de données en fonction de la densité de son voisinage local. Ce calcul adaptatif d'Eps permet à notre algorithme d'identifier efficacement les clusters avec des densités hétérogènes, une tâche avec laquelle le DBSCAN traditionnel a du mal. En automatisant le processus de sélection d'Eps et en l'adaptant aux caractéristiques de densité locales des données, notre algorithme DBSCAN modifié améliore la flexibilité et la précision du clustering basé sur la densité. Cette contribution est particulièrement précieuse pour les ensembles de données réels, qui présentent souvent des distributions de densité diverses. Notre approche simplifie le processus de réglage des paramètres, rendant DBSCAN plus accessible et convivial, tout en améliorant sa capacité à découvrir des structures de cluster complexes dans les données.

Description

تطرقنا في هذه الرسالة إلى مشكلة تصنيف البيانات غير الخاضعة للإشراف ، مع التركيز بشكل خاص على خوارزميات التجميع القائمة على الكثافة. بدأنا بمراجعة المفاهيم الأساسية للتجميع وتطبيقاته المتنوعة عبر مختلف المجالات. ثم تعمقنا في تعقيدات خوارزمية DBSCAN ، وهي تقنية قوية للتجميع على أساس الكثافة معروفة بقدرتها على تحديد مجموعات من الأشكال التعسفية والتعامل مع البيانات الصاخبة بشكل فعال. إدراكًا لقيود اعتماد DBSCAN على قيمةEps ، شرعنا في تطوير نسخة معدلة من الخوارزمية التي تلغي الحاجة إلى تحديد Eps يدويًا. يستخدم نهجنا خوارزمية k-nearest neighbors (kNN) لحساب قيمة Eps لكل نقطة بيانات بشكل تكيفي بناءً على كثافة الجوار المحلي. تمكن هذه الآلية التكيفية خوارزميتنا من تحديد المجموعات ذات الكثافات غير المتجانسة بشكل فعال ، وهي مهمة غالبًا ما تكافح الأساليب التقليدية معها. من خلال التقييمات التجريبية المكثفة على كل من مجموعات البيانات الاصطناعية والعالمية الحقيقية ، أظهرنا الأداء المتفوق لخوارزمية DBSCAN المعدلة مقارنة بنظيرتها التقليدية. لا يؤدي حساب Eps التلقائي والتكيفي إلى تبسيط عملية التجميع فحسب ، بل يؤدي أيضًا إلى تحديد الكتلة بشكل أكثر دقة وذات مغزى. بينما حقق عملنا خطوات كبيرة في تطوير التجميع القائم على الكثافة ، لا تزال هناك طرق مثيرة للبحث في المستقبل. أحد الاتجاهات الواعدة هو استكشاف التحديد التلقائي لقيمة MinPts ، مما قد يجعل الخوارزمية خالية تمامًا من المعلمات. بالإضافة إلى ذلك ، يمكن أن يؤدي التحقيق في قابلية تطبيق نهج Eps التكيفي الخاص بنا على خوارزميات التجميع الأخرى القائمة على الكثافة إلى توسيع تأثيره بشكل أكبر. من خلال الاستمرار في تحسين هذا البحث وتوسيعه ، نهدف إلى المساهمة في تطوير أدوات تجميع أكثر قوة ودقة وسهلة الاستخدام يمكنها فتح رؤى قيمة من البيانات المعقدة.

Keywords

clustering, DBSCAN, KNN, apprentissage non supervisé, clustering basé sur la densité, réglage des paramètres, data mining, apprentissage automatique., التجميع ، DBSCAN ، KNN، التعلم غير الخاضع للإشراف ، التجميع القائم على الكثافة ، ضبط المعلمات ، استخراج البيانات ، التعلم الآلي

Citation