Mettre en œuvre une stratégie de retrieval hybride combinant :
La recherche sémantique (via embeddings) pour la compréhension du sens.
La recherche lexicale (ex: BM25, TF-IDF) pour garantir la remontée des documents contenant des termes métiers ou des acronymes spécifiques (que le sémantique seul peut manquer).
Évaluer l'équilibre entre ces deux approches.
Axe 2 : Expansion de Requête (Multi-Query)
Explorer les techniques de "query expansion" pour reformuler la question initiale de l'utilisateur.
Développer une approche Multi-Query où un LLM génère plusieurs variantes de la question, en y injectant des synonymes et, surtout, des termes du vocabulaire métier pertinent, afin d'augmenter les chances de "toucher" le bon document.
Axe 3 : Filtrage Métadonnées & "Routage Métier"
Mettre en place un système de filtrage par silos métiers (ex: produits, périmètres fonctionnels, ...).
L'enjeu sera d'associer la requête utilisateur au bon silo avant l'étape de retrieval pour éviter la "contamination" contextuelle.
Vous explorerez des méthodes pour :
Induire les métadonnées (le silo) à partir de la question de l'utilisateur.
Guider l'utilisateur (via l'interface) pour qu'il précise son périmètre de recherche.
Synthèse et Benchmark : Mener une campagne d'évaluation rigoureuse pour mesurer l'apport de chaque brique et leur combinaison.
Étudiant(e) en Master 2 ou dernière année d'École d'Ingénieur en Informatique, Data Science ou Intelligence Artificielle.
Compétences solides en Python
Connaissances en NLP.
Une première expérience (même via des projets) avec les systèmes RAG (ex: LangChain) et les bases de données vectorielles est un atout majeur.
Qualités : Curiosité technique, pragmatisme, autonomie et esprit analytique.