Détection d’anomalies sur des données biologiques par SVM

Loading...
Thumbnail Image

Date

2012-10-14

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

L’objectif de ce travail est de détecter des anomalies sur des données biologiques en effectuant une classification de ces dernières en deux catégories : normales et pathologiques. Pour ce faire, nous avons choisi d’utiliser un algorithme nommé « Séparateurs à vaste marge (SVM) ». Les données utilisées dans cette étude sont issues de la base de données internationale UCI «University of California Irvin ». Ces données sont caractérisées par N exemples d’apprentissages (patients). Chaque exemple est représenté par un vecteur de caractéristiques (attributs) et associé à une classe label. Dans un premier temps, nous avons estimé les performances des SVM en calculant le taux de bonne classification, la sensitivité et la spécificité sur chaque base. Ensuite, une procédure de sélection automatique d’attributs a été effectuée afin de réduire le volume de l’information à traiter et par conséquent de réduire le temps de calcul et la complexité du classificateur. Les algorithmes utilisés pour cette tâche sont « Support Vector Machines Recursive Feature Elimination (SVM-RFE) », le «test du Students (t-test)» et « entropie ». Ces algorithmes attribuent à chaque attribut un score de pertinence puis les ordonnent dans un ordre décroissant. La sélection d’un sous ensemble d’attributs se fait par validation croisée, le sous ensemble choisi est celui pour lequel le taux de bonne classification est max. Les résultats obtenus montrent que les SVM sont des techniques très efficaces et que leur performance en généralisation s’améliore toujours en sélectionnant un sous ensemble d’attributs pertinents.

Description

66 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Support Vector Machines, Classification supervisé, Apprentissage statistique, UCI, Entropie, Sélection automatique d’attributs, T-test, SVM-RFE

Citation

Option : télédétection