Apprentissage interactif de représentations multicouche à large échelle pour la création de bases de connaissances dans le contexte de la valorisation d’archives

Encadrants : Olivier Buisson (Ina) et Alexis Joly (Inria-Zenith)
Disponible : OUI

Spécialité : IMA
Nombre d'étudiants : 1
Description : Ce sujet de stage a pour but de préparer une thèse Cifre au sein de l’Ina (Institut national de l'audiovisuel). Cette thèse débuterait en septembre 2017 et serait encadrée par Dr Olivier BUISSON (Ina) et Dr Alexis Joly (HDR, Inria-Zenith). Dans de nombreux domaines (comme la médecine, l’imagerie satellitaire, la biologie, l’archivage télévisuel, …), l’accroissement perpétuel du nombre de documents visuels (images et vidéos) impose des contraintes de productivité nouvelles sur la gestion de ce type de documents. Le développement d’outils automatiques et semi-automatiques pour assister le travail documentaire est désormais indispensable pour exploiter au mieux la très grande quantité d’information disponible. Ces dernières années, sont ainsi apparues des techniques d’indexation et d’analyse de contenu visuel ou sonore, permettant la modélisation d’information de haut niveau, comme par exemple : des visages, des locuteurs, des monuments, des logos, des décors, des noms de chansons, etc. La modélisation consiste à construire des représentations visuelles des entités avec lesquelles on désire annoter des archives multimédia. Les processus de modélisation sont basés sur des méthodes d’apprentissage non-supervisées, supervisées, ou parfois pauvrement supervisées. Avec l’essor des réseaux de neurones convolutionnels durant ces dernières années, les représentations visuelles ad-hoc (“hand-crafted”) sont progressivement remplacées par des représentations multicouche apprises à partir de données d’apprentissage dédiées à la tâche d’annotation visée. Ces stratégies (Deep Learning) d’apprentissage supervisées allant du signal (pixels) jusqu’aux classes ou entités dans un même formalisme ont permis d’atteindre des performances très importantes pour la reconnaissances d’objets dans les images. Ces méthodes à base de Deep Learning ont toutefois une limitation majeure : elles supposent que les bases de connaissances ou d’apprentissage sont pré-existantes. Hors dans de nombreux domaines comme l’Ina, ces bases n’existent pas et doivent être constituées voire mise à jour. Pour diminuer des coûts d’annotations humaines très importants, des stratégies d’apprentissage actif et incrémental du type bouclage de pertinence ont été développées pour des classifieurs de type : SVM, GMM, KNN, … A ce jour très peu de travaux à base de Deep Learning permettent d’envisager efficacement des stratégies d’apprentissage actif et incrémental du type bouclage de pertinence. Dans le cadre de ce stage, nous aimerions donc commencer à étudier et explorer cette problématique. Il est tout d’abord envisagé de réaliser un état de l’art conjoint entre les méthodes de Deep Learning et d’active learning. Puis, dans un seconde temps, nous envisageons d’étudier et d’implémenter l’article suivant : “Relevance Feedback in Deep Convolutional Neural Networks for Content Based Image Retrieval”, Maria Tzelepi and Anastasios Tefas, SETN '16 Proceedings of the 9th Hellenic Conference on Artificial Intelligence.
Pré-requis : Computer Vision et Machine Learning. Programmation en C++ et Python.
Travail demandé : Etude bibliographique sur le sujet. Développement de la méthode de l’article proposé. Mise en place d’un protocole d’évaluation. Programmation en C++ et Python.