Reconnaissance de caractères

Encadrants : Dubuisson Séverine - Vidal Quentin
Disponible : OUI

Nombre d'étudiants : 1
Description : Les techniques de Reconnaissance Optique de Caractères, plus connues sous leur forme anglo-saxonne Optical Character Recognition (OCR), sont des procédés informatiques qui permettent d’extraire le texte contenu dans des images. Généralement, les techniques de reconnaissance de caractères sont divisées en trois grandes parties qui sont : — la localisation du texte dans l’image (plaques d’immatriculation, livres, etc.) ; — la segmentation des caractères permettant la suppression du fond qui peut être un élément gênant lors de la troisième étape ; — la reconnaissance des caractères a proprement parlé qui peut aller de la simple utilisation d’heuristiques (comptage de lignes, présence ou non d’un point comme c’est le cas pour les lettres i et j, etc.) à l’utilisation de réseaux de neurones. Les techniques de reconnaissance de caractères sont de plus en plus utilisées à l’heure actuelle, et ce dans de nombreux domaines. Un premier exemple nous vient de la numérisation de documents qui permet, entre autres aux grandes entreprises, de conserver une trace numérique d’anciens documents. Il est également possible que, dans un avenir relativement proche, les studios de cinéma s’intéressent à l’utilisation de ces algorithmes pour traduire des passages écrits dans les films afin d’augmenter l’immersion des spectateurs qui ne vont pas le voir en version originale. Enfin, dans le cadre du tourisme, il existe des applications de réalité augmentée (comme World Lens (voir lien ci-après)) qui détectent, reconnaissent et traduisent en temps réel les textes présents dans une vidéo.
Pré-requis : Connaissance préalable d'une librairie de traitement de l'image (OpenCV, Toolbox Image Processing) ainsi que de techniques d'apprentissage sont un plus.
Travail demandé : L’objectif du projet Reconnaissance Optique de Caractères est triple. Il faudra tout d’abord identifier et évaluer les différents logiciels/librairies de reconnaissance de caractères puis rédiger un état de l’art sur les différentes techniques de reconnaissance de caractères et mettre en place un système de reconnaissance de captchas. Pour vérifier si votre outil de reconnaissance de captchas fonctionne correctement, il faudra vous créer un compte sur le site de challenge http ://w3challs.com. Une fois le compte créé, il faudra que votre outil résolve l’épreuve de programmation Reverse captcha (disponible à l’adresse : https ://w3challs.com/challenges/challenge57). Dans ce dernier, il faudra correctement reconnaître 45 des 50 captchas générés en moins de 60 secondes (voir figure n°1 pour des exemples de captchas à reconnaitre).
Fichiers complémentaires : OCR