Pre-localisation de texte dans les images naturelles par approche texture
Encadrants : Myriam Robert-Seidowsky et Jonathan Fabrizio
Email : myriam@lrde.epita.fr
Disponible : OUI
Spécialité : IMA
Nombre d'étudiants : 1
Description : La détection de texte est une tâche majeure dans le domaine de la vision
par ordinateur. Les applications sont diverses: l'indexation automatique
du contenu, l'assistance aux déficients visuels, la lecture de plaques
d'immatriculations, l'effacement de sous-titres dans des vidéos, etc.
Et bientôt on pourra lire son journal les yeux fermés grâce aux google
glass !
C'est une tâche très difficile du fait de la variabilité du texte
présent dans notre quotidien (par exemple dans un environnement urbain:
panneaux routiers, vitrines, annonces, etc).
Aucune hypothèse ne peut être faite sur l'apparence du texte: la
couleur, la forme, l'orientation, le style, la position, l'éclairage,
les déformations de perspective, etc.
Afin d'améliorer notre existante chaîne de détection du texte (et donc
l'extraction du texte et par la suite sa lecture grâce à un OCR), nous
souhaitons y ajouter une étape
de pre-localisation.
Le but de cette étape est de sélectionner une sous partie de
l'image qui sera l'entrée de la chaîne de détection de texte. Ainsi, les
zones qui ne sont évidement pas du texte (par exemple les motifs
répétitifs) ne seront pas analysés ce qui permettra de gagner du temps
de calcul (qui dans le cadre de la vidéo peut vite être contraignant).
Pré-requis : Connaissance d'une bibliothèque de traitement d'images (si possible en
C++), notion d'apprentissage
Travail demandé : L'objectif de ce projet est de proposer, d'étudier et d’implémenter
plusieurs descripteurs de textures (la DCT avait été étudiée par
exemple) afin de classifier (par des approches d'apprentissage par
exemple) une image en deux zones: texte et non-texte.
Il faudra privilégier une approche qui conserve tout le texte et qui
élimine le plus de faux-positif possible (zones de non-texte classifiés
comme du texte) afin de ne perdre aucune zone de texte en entrée de la
détection.