L’apprentissage multi-instance appliqué à l’histopathologie numérique
L’apprentissage profond est actuellement l’état de l’art dans de multiples tâches de vision par ordinateur, comme la classification des images. Sa puissance repose fortement sur les vastes ensembles de données d’apprentissage disponibles, comme ImageNet. Cependant, dans le domaine médical, ici la pathologie numérique, où les images sont d’une résolution beaucoup plus élevée (de l’ordre de 100K2 pixels) et les annotations sont coûteuses à obtenir, les annotations locales et détaillées sont rarement disponibles, on s’appui souvent seulement sur le diagnostic global. Il est très intéressant de pouvoir classer les lames pathologiques tout en localisant les zones d’intérêt, étant donné qu’un échantillon contient à la fois des zones normales et pathologiques. Cela permet également d’apporter une explication au résultat de la classification, ce qui est utile pour les outils d’aide au diagnostic.
L’apprentissage multi-instance (MIL) est un type d’apprentissage semi-supervisé. Au lieu de recevoir un ensemble d’instances étiquetées individuellement, le model reçoit un ensemble de “sacs” étiquetés, chacun contenant de nombreuses instances. Dans le cas de la classification binaire, un sac peut être étiqueté négatif si toutes les instances qu’il contient sont négatives. En revanche, un sac est étiqueté positif si au moins une de ses instances est positive. Dans notre cas, les sacs sont des lames pathologiques entières et les instances sont des patchs d’images.
Méthode principale : Classification and disease localization in histopathology using only global labels: A weakly-supervised approach. P Courtiol, EW Tramel, M Sanselme, G Wainrib. arXiv:1802.02212v2, 2020 [https://arxiv.org/pdf/1802.02212.pdf]
Lecture complémentaire (facultatif) : WELDON: Weakly Supervised Learning of Deep Convolutional Neural Networks. Thibaut Durand, Nicolas Thome, Matthieu Cord. 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2016), Jun 2016, Las Vegas, NV, United States. [http://cedric.cnam.fr/~thomen/papers/Durand_CVPR_2016.pdf]
2) Implémenter la solution proposée dans le langage de votre choix (Python fortement recommandé, à l'appui des libraires PyTorch ou Keras/TensorFlow.).
3) Tester la méthode sur une base de données fournie des biopsies du sein pour la détection du cancer.