Reconnaissance automatique des noms arabes manuscrits anciens
Loading...
Date
2011
Authors
Ben Belkacem Farida
Amalou Kenza
Journal Title
Journal ISSN
Volume Title
Publisher
Université Mouloud Mammeri
Abstract
Depuis son invention il y a plus de 5300 ans [9], l'écriture reste un moyen de communication privilégié entre les êtres humains. Bien que l'imprimerie créée il y a plus de 550 ans puis l'informatique aient permis son automatisation, l'écriture manuscrite est loin d'avoir disparu de notre société et les individus émettent et reçoivent une grande quantité de documents manuscrits. Le traitement de masse de ces documents apparaît alors incontournable. Le traitement se donne pour objectif l'archivage, la recherche, la modification, la réutilisation et la transmission de l'information contenue dans ces documents. Une grande variété de documents manuscrits sont candidats à de tels traitement, nous citons entre autre les manuscrits arabes anciens. Les manuscrits arabes anciens représentent un patrimoine culturel très précieux. Témoins d'une civilisation lointaine, ce sont de véritables trésors pour l'humanité. Ces documents se trouvent, souvent, soumis à une dégradation progressive et irréversible à cause de la corrosion. Ils sont menacés d'un réel danger de disparition et d'effritement à cause de leur structure physique (papier ancien, présence de bactéries, …etc.) et du manque de moyens des lieux de conservation. Par conséquent, la numérisation et la mise en ligne de ce type de document deviennent une démarche incontournable. Cette dernière permettra d'accéder à ces ressources sans aucune contrainte d'espace et de temps. L'accès aux manuscrits numérisés ne saurait se faire sans un système d'indexation adéquat. Pour ce faire, le catalogage automatique des manuscrits s'avère indispensable dont le but d’extraire certaines informations clés. Parmi les informations les plus pertinentes du catalogue, le nom de l'auteur ou du copiste se trouvent en bonne posture. Il est donc vivement recherché la reconnaissance des divers noms existants dans le manuscrit numérisé, ce qui nécessite la mise en oeuvre d’un système de reconnaissance des noms arabes. L’objectif de notre travail est la réalisation de système de reconnaissance de noms arabes manuscrit. Pour ce faire, nous proposons un système basé sur une méthode analytique en utilisant le modèle de Markov caché (MMC). Pour mener à bien notre travail, nous avons organisé ce dernier en trois chapitres comme suit : Dans le premier chapitre, nous présentons les généralités et l’architecture des systèmes de reconnaissance de caractères, puis nous décrivons les différentes méthodes de reconnaissance de caractères (Markov Caché, réseau bayésien, réseau de neurone, machine à vecteur de support) et enfin, nous présentons quelques système existants de reconnaissance de l’écriture arabe. Dans le deuxième chapitre, nous présentons l’architecture de notre système de reconnaissance des noms arabes manuscrits, la description générale et détaillée de ses diverses parties ainsi que leur fonctionnement et les différents algorithmes utilisés pour réaliser notre système. Dans le troisième chapitre, nous décrivons l'implémentation de notre système de reconnaissance de noms et les essais expérimentaux pour évaluer la performance du système réalisé. Enfin, nous présentons nos perspectives après avoir conclu le mémoire et une glossaire pour définir et expliquer quelques concepts du domaine. Notre travail se situe dans le cadre de la reconnaissance de l'écriture manuscrite. Nous nous intéressons en particulier, à la reconnaissance de l'écriture arabe manuscrite hors-ligne. La difficulté de ce sujet a amené plusieurs chercheurs à conduire plusieurs travaux pour remédier au problème de la reconnaissance. Cependant, nous la recherche demeure loin d'atteindre le niveau de la capacité humaine dans ce domaine. L'handicap majeur de la reconnaissance pour les approches existantes est l'opération de la segmentation. Pour remédier à ce problème nous avons proposé un algorithme qui permet la segmentation de nom en caractères en éliminant les éléments d’épaisseur uniforme qui relient ces caractères. Le système que nous avons proposé est composé de deux sous systèmes: un sous système d'apprentissage et un sous système de reconnaissance. Le système d'apprentissage a la capacité de traitement des images, et se charge aussi d’extraction des caractéristiques sous forme d’un vecteur de description, qui sera destiné à être traité par le modèle de Markov caché. Trois matrices (A, B, P) représentant chaque lettre sont générées (cf. algorithme de Baum Welch). Les résultats obtenus seront sauvegardés dans une base de données d'apprentissage. Chaque lettre est représentée sur la base de données d'apprentissage sous quatre formes différentes (début, milieu, fin, isolée). Le sous système de reconnaissance à pour objectif la reconnaissance du nom. Il se charge d’abord du prétraitement de l'image du nom d’entrée. L'image sera segmentée en lignes puis en caractères. Chaque caractère passe par le module
Description
90 f. : ill. ; 30 cm. (+ CD-Rom)
Keywords
Reconnaissance de caractéres, Traitement d'image, Modéle Markovcache, Réseau de neuronne
Citation
Systéme Informatique