Connexion Premium

Dis Next, c’est quoi un « RAG » en IA générative ?

Rag against the machine

Dis Next, c’est quoi un « RAG » en IA générative ?

Illustration : Flock

Ces dernières années, vous entendez peut-être parler de RAG, surtout dans le monde des entreprises. De quoi s’agit-il ? Pourquoi certaines organisations n’ont que ce mot à la bouche ? On vous explique tout, le plus simplement possible.

RAG signifie « Retrieval-Augmented Generation », littéralement « génération augmentée par récupération ». Dans les grandes lignes, c’est un type d’architecture que l’on met en place pour obtenir des réponses rapides et précises sur une base de connaissances spécifiques, en utilisant de l’IA.

Des explications sans (trop de) jargon

Pour comprendre ce que le RAG permet, on utilise souvent l’analogie d’un expert, mais qui n’aurait pas connaissance de l’armoire dans laquelle vous rangez tous vos documents. Il peut s’agir de modes d’emploi, de cartes de vœux, de livres particuliers, voire de factures et d’autres informations que vous avez jugées suffisamment importantes pour les placer là. L’expert en sait beaucoup, mais il ne pourra répondre à aucune question sur le contenu de cette armoire. On peut toujours décrire le type de documents que l’on possède, ses réponses manqueront de précision.

C’est un comportement que l’on retrouve dans les IA génératives habituellement. Elles « savent » quantité de choses, mais si vous êtes dans une entreprise possédant un grand nombre de ressources, l’IA n’y aura probablement pas accès.

Or, ces ressources internes peuvent être à la fois le cœur d’une entreprise comme sa base d’exploitation. Si vous mettez en place un chatbot pour gérer l’assistance, il vaut mieux qu’il ait accès à ces ressources. Les réponses données pourraient sinon être vagues, ou même – pire ! – inventées. Car les IA génératives hallucinent et ont encore bien du mal à répondre simplement « Je ne sais pas ».

Un RAG se situe à mi-chemin entre un moteur de recherche (qui trouve, mais ne répond pas) et une IA générative (plus précisément un LLM, ou grand modèle de langage, qui répond mais ne cherche pas en temps réel). Le problème s’est réduit depuis que les IA savent chercher dans le web, mais cette opération peut prendre du temps et, surtout, le problème des hallucinations est toujours là. Dans sa présentation, Google évoque bien l’intérêt de la technique, mettant en avant le R de « récupération » et les AG pour « génération augmentée ». Cette augmentation est directement liée à l’IA.

Mais alors, pourquoi pas une simple documentation efficacement organisée ? Parce qu’elle impose à l’utilisateur de savoir ce qu’il cherche, de naviguer, de lire, et de synthétiser lui-même plusieurs pages. Un système RAG le fait à sa place : il comprend la question en langage naturel, même imprécise ou formulée maladroitement, récupère les passages pertinents répartis sur plusieurs documents, et produit une réponse directe et contextualisée. Il gère également les questions qui croisent plusieurs sources. Une recherche classique par mots-clés ne peut pas le faire.

Pourquoi maintenant ?

Le concept n’est pas apparu de nulle part. Il est au croisement de deux familles de technologies qui ont mis du temps à mûrir. D’un côté, les fameux (et omniprésents) LLM, dont la conquête a commencé avec l’arrivée tonitruante de ChatGPT d’OpenAI, permise par l’explosion de la puissance de calcul (qu’elle siphonne désormais). De l’autre, tout ce qui touche à la recherche sémantique dense, c’est-à-dire la capacité à représenter le sens d’un texte sous forme de vecteurs mathématiques, et celle de les comparer efficacement dans un grand nombre de documents, même sur des millions.

Le terme RAG lui-même n’est apparu qu’en 2020. Plus précisément, il est mentionné comme tel dans un article de recherche dirigé par Patrick Lewis, qui travaille alors pour Facebook AI Research (depuis renommé Meta AI). Il n’a pas travaillé seul : l’University College London et l’université de New York ont collaboré. L’article est publié lors de la conférence NeurIPS, avec un titre peu évocateur pour le grand public : « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ».

Cette publication a tout changé. Non pas parce qu’il était impossible de retrouver du texte précédemment, mais parce que la nouvelle technique le faisait beaucoup plus efficacement. Les technologies précédentes de « retrieve-and-read » (retrouver et lire) étaient soit purement extractives (en gros, elles copiaient-collaient un passage), soit incapables de faire la synthèse des informations à partir de plusieurs sources.

Des avantages et…

Un système RAG au sein d’une organisation a de nombreux avantages. Le plus important est sans contexte la précision : puisque le modèle reçoit des passages réels en entrée, il invente moins d’informations pour répondre. La réponse est ancrée dans des documents vérifiables. De plus, le système peut toujours citer les passages sur lesquels il s’appuie, permettant la vérification, et donc à l’organisation de prouver la conformité des réponses.

Autre point fort, les connaissances sont systématiquement à jour. Il suffit de mettre à jour la base documentaire – sans réentraîner le modèle – pour que le système dispose immédiatement des informations les plus récentes. C’est un avantage conséquent dans des environnements où les données évoluent vite, que l’on parle de procédures, de prix ou de réglementations.

La confidentialité et le contrôle sont des atouts supplémentaires. Les données sensibles restent dans une base privée et ne servent pas à entraîner un modèle tiers. Elles ne sont consultées qu’au moment de la requête, ce qui offre un contrôle d’accès granulaire impossible avec l’entrainement des LLM classiques.

Source : Tribes

Enfin, et pour les mêmes raisons, un système RAG est beaucoup (beaucoup) moins onéreux que l’utilisation d’un LLM. La création et la mise à jour d’une base vectorielle ne réclament qu’une fraction de la puissance nécessaire au réentrainement d’un LLM, qui exige toujours des ressources de calcul considérables.

… des limites réelles

En revanche, un RAG n’est pas une solution universelle ou magique, et il impose des limites à connaître. Ainsi, la qualité de la récupération conditionne tout. Si le système récupère des passages non pertinents, la réponse générée sera de mauvaise qualité, voire trompeuse. Une piètre qualité de prétraitement des données était la cause principale d’échec dans 42 % des implémentations RAG ratées en 2024, si l’on en croit DhiWise, qui cite des études mais n’en donne pas les liens. En clair, il ne suffit pas de faire ingérer des papiers scannés pour que la magie s’opère.

En outre, un RAG implique une certaine complexité opérationnelle. Il faut maintenir une chaine de plusieurs composants, dont un circuit d’ingestion documentaire (crucial donc), une base vectorielle ou encore le LLM spécialisé lui-même, en plus du mécanisme de récupération. Ajoutons à cela que la fenêtre de contexte est une contrainte : le LLM ne peut absorber qu’un volume limité de texte. Si la réponse nécessite de synthétiser un très grand nombre de passages, des informations pertinentes peuvent être perdues ou diluées. Et si les hallucinations baissent largement, elles ne disparaissent pas complètement.

Enfin, le découpage (ou chunking) est une étape majeure. L’équipe s’occupant de la mise en place doit faire les bons choix, en fonction des besoins de la structure. Ainsi, s’ils sont trop petits, les fragments perdent leur contexte. Trop grands, ils noient les informations pertinentes dans du bruit. Il n’existe pas de stratégie universelle.

Profitons-en pour apporter une précision, car les termes « RAG » et « fine-tuning » sont souvent mélangés. Ce dernier représente le processus de spécialisation d’une intelligence artificielle généraliste pour en faire un « expert métier ». Les deux approches sont souvent comparées, parfois mixées, mais restent différentes. Le fine-tuning est performant dans son approche, mais n’est pas adapté à une base de données évoluant souvent, car son entrainement devrait recommencer à chaque fois, ce qui n’est pas le cas du RAG.

Commentaires (2)

votre avatar
Merci 👍
votre avatar
Merci pour cet article