RAG vs contexte long : le vrai débat qui divise

On vous a vendu l’idée qu’avec des LLM capables d’ingérer des millions de tokens, le RAG (Retrieval-Augmented Generation) allait devenir obsolète. Balancez tous vos documents dans le modèle et laissez l’IA faire le reste. Simple, non ? Pas vraiment. Et c’est précisément ce que décortique Amélie Chatelain, Head of Training & Inference chez Lighton, dans le dernier épisode du podcast Que du Web édité par le moteur de recherche francais Ibou.

Physicienne reconvertie en experte IA, elle entraîne et déploie en production les modèles qui font tourner la recherche d’information. Autant dire qu’elle parle avec des chiffres concrets, pas des slides de conférence.

Nous avons regardé ce podcast annimé par le duo Sylvain Peyronnet et Grégory Pairin et voici ce qu’il faut retenir.

1 million de tokens, c’est moins bien que vous ne le croyez

Le premier mythe à faire tomber : la taille du contexte ne suffit pas à l’échelle.
Amélie Chatelain l’illustre avec une analogie parlante. Imaginez une réunion où vous invitez 200 personnes pour poser une question à une seule d’entre elles. Tout le monde est là, tout le monde écoute, tout le monde consomme de l’énergie, mais seule une fraction de l’information est réellement utile.

C’est exactement ce qui se passe avec le long contexte : vous payez pour traiter l’intégralité des données, même celles qui ne servent à rien. Et ce coût n’est pas anodin.

Il y a aussi un problème documenté que les chercheurs appellent le « Lost in the Middle » : les LLM ont tendance à bien mémoriser ce qui est au début et à la fin d’un contexte, mais à « oublier » ce qui est au milieu. Bourrez un modèle de 500 pages de documentation interne, et il risque de passer à côté de la clause importante nichée à la page 247.

Le vrai tueur du long contexte en entreprise : les permissions

Au-delà du coût et des limites cognitives du modèle, il y a un obstacle beaucoup plus terre-à-terre que les équipes IT soulèvent systématiquement : la gestion des droits d’accès.

Dans une vraie entreprise, tout le monde n’a pas accès aux mêmes documents. Un commercial ne doit pas voir les contrats RH. Un prestataire externe ne doit pas consulter la roadmap produit.

Avec le long contexte, gérer ces permissions granulaires devient ingérable. Avec le RAG, vous ne récupérez que les documents auxquels l’utilisateur a droit et seulement eux. C’est architecturalement beaucoup plus propre.

Le RAG n’est pas mort. Il mute.

L’approche RAG classique fonctionnait en deux temps : on cherche des documents pertinents, on les injecte dans le prompt. C’est devenu plus sophistiqué.

Lexical + sémantique : le duo qui gagne

Deux grandes familles de recherche coexistent :

La recherche lexicale (BM25) : elle cherche les termes exacts. Parfaite quand vous avez des noms propres, des références produits, des codes spécifiques. BM25 n’est pas mort, il est même indispensable pour tout ce qui est rare ou précis.
La recherche sémantique (dense vectors) : elle cherche le sens. Idéale pour les questions conceptuelles où les mots exacts ne correspondent pas forcément aux documents utiles.

La bonne pratique en 2026 ? Les deux ensemble. Chaque approche compense les angles morts de l’autre.

Le multivecteur : la technologie qui change la donne

Plutôt que d’encoder un document entier en un seul vecteur, le multivecteur encode chaque mot (ou token) séparément. Résultat : une précision de recherche nettement supérieure, surtout sur des données multilingues ou des corpus rares.

La bonne nouvelle : le coût de cette approche s’effondre. Ce qui était réservé aux grandes entreprises tech il y a 18 mois devient accessible à tout le monde.

Le RAG agentique : l’IA qui décide comment chercher

La prochaine évolution (déjà en production dans certaines entreprises) c’est le RAG agentique. Ici, le modèle ne se contente plus de recevoir des documents récupérés par un système externe. Il décide lui-même :

s’il a besoin de chercher
combien de fois il faut relancer une recherche
quelle stratégie adopter pour affiner les résultats

C’est plus lent, mais c’est beaucoup plus intelligent. Et surtout, ça devient accessible, y compris pour des entreprises qui n’ont pas d’équipe data de 20 personnes.

Petits modèles vs grands modèles : qui gagne vraiment ?

La tendance se confirme : l’avenir n’est pas forcément dans un gros modèle généraliste qui fait tout. C’est dans un chef d’orchestre qui coordonne des modèles spécialisés.

Un petit modèle fine-tuné sur votre domaine métier (e-commerce, juridique, médical) va souvent surpasser un GPT-4 généraliste sur vos cas d’usage spécifiques, tout en coûtant infiniment moins cher à faire tourner.

Et dans 2 ans ?

La question posée en fin d’épisode est la bonne : est-ce que la chatbox textuelle va survivre ?

La réponse d’Amélie Chatelain est franche : se limiter à une interface de chat, c’est peut-être un manque d’imagination. La voix, le multimodal, des interfaces contextuelles liées à vos outils métier, c’est là que se jouera la prochaine bataille de l’IA en entreprise.

Ce qu’il faut retenir si vous êtes entrepreneur ou marketeur

Idée reçue	La réalité
« Le contexte long va tuer le RAG »	Non. Le RAG mute, il ne disparaît pas
« Plus de tokens = meilleure qualité »	Non. Coût plus élevé + problème du « Lost in the Middle »
« BM25, c’est has been »	Non. Lexical + sémantique = combo gagnant
« Il faut un gros modèle pour être performant »	Non. Des petits modèles spécialisés battent souvent les généralistes
« L’IA en entreprise, c’est juste une chatbox »	C’est la partie émergée. La vraie révolution est dans les systèmes agentiques

Le Podcast Que Du Web est à découvrir sur Youtube, Apple Podcast, Amazon Music et même Spotify.