Stage de 6 mois à pourvoir sur Brest à partir du 02/03/2026
État de l'art : Étudier les méthodes de retrieval denses (bi-encodeurs) et les techniques d'encodage de documents structurés (ex: modèles de layout-aware).
Modélisation & Implémentation :
Conserver la représentation latente (embedding) de chaque "chunk" (élément fin).
Entraîner un modèle d'agrégation au niveau de la Page, qui produit un unique vecteur sémantique encapsulant tous les éléments qu'elle contient.
Entraîner un modèle d'agrégation au niveau du Document, qui produit un vecteur global encapsulant l'ensemble de ses pages.
Expérimentation :
Mettre en œuvre le pipeline de recherche hiérarchique.
Évaluer rigoureusement la performance du retriever en utilisant notre benchmark interne déjà établi, basé sur une évaluation au niveau de la page.
Analyse & Synthèse : Comparer l'approche hiérarchique aux méthodes de RAG "plates" (flat RAG) et rédiger un rapport technique.
Étudiant(e) en Master 2 ou dernière année d'École d'Ingénieur (Informatique, IA, Data Science, NLP).
Compétences solides en Python et dans un framework de Deep Learning majeur (PyTorch).
Un premier contact avec les systèmes RAG (ex: LangChain, LlamaIndex) ou les bases de données vectorielles est un plus très apprécié.
Qualités : Rigueur scientifique, curiosité, autonomie et goût pour la R&D fondamentale.