⚡ Points Clés

Les fenetres de contexte longues comportent cinq couts caches qui s’aggravent en production : la taxe de relecture (chaque token est retraite a chaque requete), la degradation de la precision au milieu des contextes longs, la latence qui augmente avec la taille du contexte, l’exposition securitaire liee au melange de niveaux de confiance dans un meme prompt, et la dependance aux fournisseurs pour la gestion proprietaire du contexte. Les deploiements RAG en entreprise ont augmente de 280% en 2025 precisement parce que les equipes de production ont decouvert ces couts.

En résumé : Le contexte long est excellent pour le prototypage et les requetes a faible volume. Pour les charges de travail de production a volume eleve, mettez en place un suivi des couts des le premier jour et planifiez une architecture hybride utilisant la recuperation pour les schemas d’acces repetes.

Lire l’analyse complète ↓

Publicité

🧭 Radar de Décision (Filtre Algérie)

Pertinence pour l’Algérie
Élevée

Les startups IA algériennes et les équipes entreprise développant des applications LLM doivent comprendre ces dynamiques de coûts avant de s’engager dans des décisions d’architecture qui déterminent les dépenses cloud pour des mois
Infrastructure prête ?
Oui

Les API LLM cloud (OpenAI, Anthropic, Google) sont accessibles depuis l’Algérie ; ces arbitrages s’appliquent à toute équipe consommant ces API
Compétences disponibles ?
Partielles

Comprendre les arbitrages RAG vs contexte long nécessite une expérience en IA de production, qui se développe mais reste limitée sur le marché local ; la plupart de l’expertise se concentre dans les laboratoires universitaires et quelques équipes de startups
Horizon d’action
Immédiat

Les décisions d’architecture prises maintenant verrouillent les structures de coûts ; les équipes devraient benchmarker les deux approches avant de s’engager
Parties prenantes clés
Ingénieurs IA, CTO de startups, architectes cloud, chefs de produit développant des fonctionnalités alimentées par l’IA, groupes de recherche universitaires en IA
Type de décisionStratégique
Nécessite des décisions organisationnelles qui façonnent le positionnement concurrentiel à long terme et l’allocation des ressources.

Les fenêtres de contexte ont explosé, passant de 4 000 tokens à 2 millions de tokens en à peine trois ans. Gemini 2.5 Pro accepte désormais 2 millions de tokens. Claude Opus 4.6 et GPT-4.1 en supportent chacun 1 million. L’argumentaire marketing est séduisant : déversez tout dans le prompt et laissez le modèle s’en charger. Pas de découpage, pas d’embeddings, pas de bases de données vectorielles, pas de pipeline de récupération. Juste des documents bruts et de l’intelligence brute.

Pour certains cas d’usage, cette promesse tient. Mais l’enthousiasme de l’industrie pour des fenêtres de contexte toujours plus grandes a occulté un ensemble de coûts réels qui s’accumulent en production. Ce ne sont pas des préoccupations théoriques. Ce sont des réalités d’ingénierie que les équipes découvrent après s’être engagées dans des architectures à contexte long et avoir monté en charge vers des environnements de production.

Les déploiements RAG en entreprise ont augmenté de 280 % en 2025. Pinecone a rapporté une croissance de revenus de 340 % en glissement annuel au T4 2025. Weaviate a bouclé une levée de fonds Series C de 163 millions de dollars. La catégorie des bases de données vectorielles a attiré plus de 800 millions de dollars en investissement venture au cours de l’année. Si le contexte long avait véritablement remplacé la récupération, rien de tout cela ne se serait produit. Cette croissance signale que les équipes de production apprennent exactement là où le contexte long échoue.

Comprendre ces coûts cachés ne signifie pas abandonner le contexte long. Cela signifie le déployer délibérément, dans les bonnes situations, en toute connaissance de cause.

Coût 1 : La taxe de relecture

Chaque token dans la fenêtre de contexte est traité à chaque requête. C’est le modèle computationnel fondamental des LLM basés sur les transformers, et cela crée une structure de coûts qui évolue linéairement (au mieux) avec la taille du contexte.

Le calcul

Prenons un manuel technique de 500 pages, soit environ 250 000 tokens. Charger ce document dans la fenêtre de contexte signifie que le modèle traite 250 000 tokens pour chaque requête.

  • 10 requêtes par jour = 2,5 millions de tokens traités
  • 100 requêtes par jour = 25 millions de tokens traités
  • 1 000 requêtes dans une organisation = 250 millions de tokens traités

Et ce n’est qu’un seul document. La plupart des cas d’usage en entreprise impliquent plusieurs documents, des wikis internes et des documents de référence qui font grimper la consommation de contexte encore davantage.

La structure tarifaire renforce cette préoccupation. Tous les grands fournisseurs facturent désormais un supplément pour les requêtes à contexte long. Claude Sonnet 4.6 double son prix d’entrée de 3 à 6 dollars par million de tokens lorsque les requêtes dépassent 200 000 tokens d’entrée. GPT-4.1 facture 2x pour les requêtes au-delà de 272 000 tokens. Gemini 2.0 Pro passe de 1,25 à 2,50 dollars par million de tokens au-delà du seuil de 200 000 tokens. Les fournisseurs eux-mêmes signalent que le contexte long est coûteux à servir.

L’alternative RAG

Avec la génération augmentée par récupération (RAG), le document est traité une seule fois lors de l’indexation. Chaque requête suivante ne récupère que les fragments pertinents, peut-être 2 000 à 5 000 tokens, et ne traite que ceux-ci. Une analyse de Redis Labs a montré que le RAG peut atteindre un coût par requête environ 1 250 fois inférieur à celui des approches purement basées sur le contexte long. Une seule requête entièrement chargée de 10 millions de tokens peut coûter 2 à 5 dollars, tandis qu’une requête RAG coûte des fractions de centime.

Pour les applications à fort volume de requêtes sur des ensembles de documents stables, la taxe de relecture rend le contexte long économiquement prohibitif. Le gain en simplicité est réel, mais il échange la complexité d’ingénierie contre le coût de calcul, et à l’échelle, le coût de calcul l’emporte.

Quand la relecture est acceptable

La taxe de relecture est gérable lorsque :

  • Le volume de requêtes est faible (quelques requêtes par document par jour)
  • Les documents changent fréquemment (la réindexation pour le RAG devient coûteuse aussi)
  • Le nombre total de tokens est modeste (moins de 50 000 tokens)
  • La mise en cache du contexte est disponible : la mise en cache implicite de Google offre une réduction de 90 % sur les tokens mis en cache pour les modèles Gemini 2.5, et la mise en cache de prompts d’Anthropic offre des économies similaires pour les préfixes répétés

La mise en cache du contexte est le contrepoids le plus significatif à la taxe de relecture. Lorsque le même grand document est interrogé de manière répétée, les tokens mis en cache évitent complètement le retraitement. Mais la mise en cache aide surtout avec des contextes stables et répétés. Elle n’élimine pas le coût pour des entrées nouvelles ou fréquemment modifiées.

Coût 2 : La dilution de l’attention

Les fenêtres de contexte sont passées de 4 000 tokens à 2 millions de tokens. Mais la capacité du modèle à prêter attention aux informations à travers ce contexte n’a pas évolué proportionnellement. Cela crée un écart de qualité qui s’élargit avec la taille du contexte.

Le problème du « lost-in-the-middle »

Une étude marquante de 2024 par Liu et al., publiée dans les Transactions of the Association for Computational Linguistics, a démontré que les LLM obtiennent des performances significativement inférieures sur les informations situées au milieu des contextes longs par rapport aux informations au début ou à la fin. Les chercheurs ont testé plusieurs modèles sur des tâches de questions-réponses multi-documents et de récupération clé-valeur, et ont constaté que cet effet « lost-in-the-middle » persiste même dans les modèles spécifiquement entraînés pour le contexte long.

Le problème est suffisamment sévère pour avoir engendré son propre sous-domaine de recherche. À NeurIPS 2024, des chercheurs ont présenté Multi-scale Positional Encoding (Ms-PoE), une approche plug-and-play pour aider les modèles à mieux gérer l’information au milieu du contexte. Le fait que des conférences majeures consacrent des sessions à corriger cette limitation montre à quel point elle est persistante.

Les recherches de Chroma (l’étude « Context Rot ») ont ajouté une découverte contre-intuitive : les modèles obtiennent en fait de moins bons résultats lorsque le contexte environnant préserve un flux logique d’idées. Des contextes mélangés et incohérents produisent une meilleure précision que ceux logiquement structurés. Le mécanisme d’attention du modèle se laisse distraire par un texte environnant cohérent mais non pertinent.

Rapport signal/bruit

Le problème fondamental est le rapport signal/bruit. Lorsque vous chargez 500 000 tokens de contexte et que la réponse existe dans 200 de ces tokens, le modèle doit distinguer le signal (0,04 % du contexte) du bruit (99,96 % du contexte). Comme l’a démontré l’analyse de Zep sur GPT-4.1, malgré sa fenêtre de contexte d’un million de tokens, le modèle n’a atteint que 56,72 % de précision moyenne sur les tâches nécessitant une analyse et un rappel simultanés sur de longs contextes, soit moins que GPT-4o-mini à 57,87 %.

Des baisses de précision de 10 à 20 points de pourcentage sont courantes lorsque l’information pertinente se trouve au milieu des contextes longs plutôt qu’au début ou à la fin, en raison du biais de primauté et de récence dans le mécanisme d’attention.

Le RAG résout ce problème directement en filtrant avant la génération. En ne récupérant que les cinq à dix fragments les plus pertinents, le RAG présente au modèle un contexte à rapport signal/bruit élevé où la majeure partie de l’entrée est pertinente. Le travail du modèle passe de la recherche d’une aiguille dans une botte de foin à la lecture d’un document court et sélectionné.

Stratégies d’atténuation

Les équipes utilisant le contexte long peuvent partiellement atténuer la dilution de l’attention :

  • Ordonnancement stratégique des documents — Placer les informations les plus importantes au début et à la fin du contexte
  • Marqueurs de section explicites — Utiliser des en-têtes et des délimiteurs clairs pour aider le modèle à naviguer
  • Prompting en chaîne de pensée — Demander au modèle de localiser d’abord les sections pertinentes avant de répondre
  • Découpage sensible au contexte — Même dans une approche à contexte long, organiser l’information pour minimiser l’effet « lost-in-the-middle »

Ces stratégies aident mais n’éliminent pas la limitation fondamentale.

Coût 3 : La pénalité de latence

Le traitement de contextes plus longs prend plus de temps. C’est inévitable : plus de tokens nécessitent plus de calcul, et la relation n’est pas purement linéaire.

Temps jusqu’au premier token

Le temps jusqu’au premier token (TTFT) augmente considérablement avec la longueur du contexte. Pour un contexte de 10 000 tokens, le TTFT peut être inférieur à une seconde. Pour de grands contextes, les chiffres grimpent fortement. Le TTFT de Gemini 2.5 Pro atteint 36,54 secondes. Gemini 2.0 Pro affiche 17,40 secondes. Même Gemini 2.5 Flash, le plus rapide de la gamme Google, prend 0,40 seconde — raisonnable, mais toujours mesurabllement plus lent que les requêtes à contexte court. Aux longueurs de contexte maximales, les fournisseurs rapportent que la latence de prefill peut s’étendre à 2 minutes ou plus avant le début de la génération.

Dans les applications interactives — chatbots, interfaces de recherche, assistants de codage — cette latence dégrade considérablement l’expérience utilisateur. Les utilisateurs s’attendent à des réponses en moins d’une seconde, et une pause de 15 à 30 secondes pendant que le modèle ingère une fenêtre de contexte massive semble cassée.

Dans une comparaison contrôlée, un pipeline RAG a atteint en moyenne environ 1 seconde pour des requêtes de bout en bout, tandis que la configuration équivalente en contexte long prenait 30 à 60 secondes sur la même charge de travail.

Réduction du débit

Les requêtes à contexte long consomment également plus de mémoire GPU et de calcul, réduisant le nombre de requêtes concurrentes qu’un système peut traiter. Le cache KV pour une seule session d’un million de tokens nécessite environ 15 Go de mémoire. Les recherches montrent que les systèmes d’inférence LLM gaspillent 60 à 80 % de la mémoire allouée au cache KV en raison de la fragmentation et de la sur-allocation. Un serveur qui traite 100 requêtes à contexte court par seconde pourrait n’en gérer que 5 à 10 à contexte long.

Des innovations comme le PagedAttention de vLLM (réduisant le gaspillage mémoire à moins de 4 %) et la quantification NVFP4 de NVIDIA (réduisant la mémoire du cache KV de 50 %) comblent cet écart, mais l’inférence à contexte long reste fondamentalement plus gourmande en ressources par requête.

Coût 4 : L’illusion de la fraîcheur

Le contexte long semble résoudre le problème de la fraîcheur — il suffit de charger les données les plus récentes dans la fenêtre de contexte à chaque fois. Mais cette simplicité est trompeuse.

Complexité de la synchronisation

Si vos données sources changent fréquemment, vous avez besoin d’un système pour :

  • Détecter les changements dans les documents sources
  • Recharger les documents mis à jour dans le contexte pour chaque nouvelle session
  • Gérer le versionnement pour que les utilisateurs voient des données cohérentes au sein d’une conversation
  • Gérer les documents qui dépassent la fenêtre de contexte au fil du temps

Cette logique de synchronisation est plus simple que la maintenance d’un pipeline RAG, mais elle n’est pas nulle. Et à mesure que le nombre de documents sources augmente, la surcharge de gestion se rapproche de ce que le RAG résout déjà avec son infrastructure d’indexation.

Le problème de la croissance

Les documents et les bases de connaissances croissent. Un système qui tient dans une fenêtre de contexte aujourd’hui pourrait ne plus y tenir dans six mois. Les équipes qui construisent des architectures à contexte long sans planifier la croissance atteignent un point de migration douloureux lorsqu’elles dépassent la fenêtre, se retrouvant soudainement à devoir ajouter une infrastructure de récupération qu’elles n’avaient pas prévue.

Une enquête Gartner du T4 2025 auprès de 800 déploiements d’IA en entreprise a révélé que 71 % des entreprises ayant initialement déployé des approches de « context-stuffing » avaient ajouté des couches de récupération vectorielle dans les 12 mois. Le schéma est récurrent : les équipes commencent avec le contexte long par simplicité, puis découvrent qu’elles ont besoin de la récupération à mesure que leurs données croissent.

Publicité

Coût 5 : Le déficit de reproductibilité

Les réponses en contexte long peuvent être plus difficiles à déboguer et à reproduire que les réponses RAG. Cela compte surtout dans les environnements réglementés et à enjeux élevés.

Difficulté d’attribution

Lorsqu’un modèle génère une réponse à partir d’un contexte de 500 000 tokens, identifier quels passages spécifiques ont informé la réponse est un défi. Le modèle peut avoir synthétisé des informations provenant de plusieurs sections de manières difficiles à tracer.

Les systèmes RAG ont un avantage naturel ici : les fragments récupérés sont explicites et journalisés. Vous pouvez voir exactement quelles informations ont été fournies au modèle, ce qui facilite l’audit des réponses et l’identification des cas où c’est la récupération — et non la génération — qui a causé une erreur.

Amplification des hallucinations

Les contextes plus longs ne font pas que diluer l’attention. Ils augmentent activement le risque d’hallucination. Les recherches issues d’une étude de 172 milliards de tokens ont montré que les taux d’hallucination augmentent avec le nombre de tokens, certains modèles atteignant des taux d’hallucination allant jusqu’à 99 % pour certaines longueurs de contexte et configurations de tâches. Le mécanisme d’attention souple distribue le focus entre des tokens moins pertinents, conduisant à un raisonnement dégradé et à des inexactitudes factuelles.

L’étude Context Rot de Chroma a révélé une différence comportementale entre les familles de modèles sous pression : les modèles Claude tendent à s’abstenir lorsqu’ils sont incertains (moins d’hallucinations, plus de refus), tandis que les modèles GPT produisent des réponses confiantes mais incorrectes. Aucun des deux comportements n’est idéal, mais la distinction compte pour la conception des systèmes.

Assurance qualité dans les industries réglementées

Pour les industries réglementées — santé, finance, juridique — la capacité à auditer et expliquer les réponses de l’IA n’est pas optionnelle. Le contexte long rend cela plus difficile. Pas impossible, mais l’effort d’ingénierie pour intégrer l’attribution et la traçabilité dans un système à contexte long approche souvent les économies de complexité qui avaient motivé ce choix en premier lieu. LongBench v2 (2025) a démontré que la compréhension en contexte long reste un défi même pour les modèles de pointe, avec des tâches annotées par des humains couvrant 8 000 à 2 millions de mots dans six catégories.

Coût 6 : L’illusion du test de l’aiguille

Les fournisseurs présentent régulièrement des benchmarks « needle in a haystack » (aiguille dans une botte de foin) pour prouver que leurs modèles gèrent le contexte long. Gemini 1.5 Pro a atteint un rappel supérieur à 99,7 % jusqu’à 1 million de tokens sur ce test. Les chiffres semblent impressionnants, mais ils sont trompeurs quant aux performances réelles.

Le test de l’aiguille place un seul fait clairement distinct dans un texte de remplissage autrement non pertinent. Les documents du monde réel ne sont pas du remplissage aléatoire. Ils contiennent des informations sémantiquement liées qui créent de l’ambiguïté et de l’interférence. La recherche Context Rot de Chroma a montré exactement cela : les modèles obtiennent de moins bons résultats lorsque le contexte environnant est cohérent et thématiquement lié, précisément la condition qui existe dans tout document réel.

Les performances de GPT-4 sur le test de l’aiguille original ont décliné au-dessus de 64 000 tokens et chuté fortement à 100 000 tokens et au-delà. Les tâches de récupération en conditions réelles, où l’« aiguille » n’est pas une anomalie plantée mais un détail spécifique parmi des détails connexes, se dégradent plus rapidement que ne le suggère aucun benchmark.

SIGIR 2025 accueille un atelier dédié sur « Long Context vs RAG », reflétant la reconnaissance par la communauté de recherche que cette question n’est pas tranchée. Le résumé de l’atelier formule explicitement le débat comme étant en cours plutôt que résolu.

L’évaluation honnête

Les fenêtres de contexte longues sont une véritable avancée qui simplifie l’architecture IA pour de nombreux cas d’usage. Elles ne sont cependant pas un remplacement universel des systèmes basés sur la récupération.

Le contexte long excelle dans :

  • L’analyse ou le résumé de documents délimités (contrats, articles de recherche, rapports)
  • La comparaison de plusieurs documents complets côte à côte
  • Les tâches nécessitant un raisonnement holistique sur un texte complet
  • Le prototypage et le développement où la vitesse d’itération prime sur le coût
  • Les applications à faible volume et fort raisonnement où le coût par requête est acceptable

Le contexte long peine avec :

  • Les applications de production à fort volume (coût et latence se cumulent)
  • La récupération de précision dans de très grands corpus (téraoctets de données)
  • Les bases de connaissances d’échelle entreprise avec des milliers de documents
  • Les applications nécessitant auditabilité et attribution
  • Les cas d’usage où la précision sur des détails spécifiques prime sur la compréhension générale

Le consensus hybride

La meilleure pratique émergente pour 2025 et 2026 n’est ni le contexte long pur ni le RAG pur. Les implémentations gagnantes utilisent la récupération vectorielle pour identifier le contexte pertinent, puis alimentent ces résultats dans une fenêtre de contexte long pour le raisonnement. Cette approche hybride obtient la précision du RAG et la profondeur de raisonnement du contexte long.

Comme l’a observé une équipe de recherche, il n’existe pas de solution universelle. Le choix dépend de la taille du modèle, du type de tâche, de la longueur du contexte et de la qualité de la récupération. Les équipes qui construisent les meilleures applications d’IA ne choisissent pas le contexte long ou le RAG. Elles déploient chacun là où cela fait sens économiquement et techniquement.

Conclusion

Les coûts cachés des fenêtres de contexte longues n’invalident pas la technologie. Ils contraignent son déploiement optimal. La taxe de relecture, la dilution de l’attention, la pénalité de latence, la complexité de la fraîcheur, les défis de reproductibilité et les illusions de benchmark sont des considérations d’ingénierie réelles que les systèmes de production doivent prendre en compte.

La mise en cache du contexte atténue partiellement le problème de coût. Des architectures d’attention améliorées comblent lentement l’écart de qualité. Mais en 2026, ces limitations restent suffisamment significatives pour que les ignorer conduise à des architectures qui échouent à l’échelle.

La simplicité du contexte long est réelle. Les coûts aussi. Construire des systèmes d’IA en production nécessite une comptabilité honnête des deux côtés de cette équation.

FAQ

Le RAG est-il obsolète maintenant que les fenêtres de contexte supportent des millions de tokens ?

Non. Le RAG et le contexte long servent des objectifs différents et ont des profils de coûts différents. Le RAG excelle dans les charges de travail de production à fort volume où le coût par requête importe, lorsque les bases de connaissances couvrent des téraoctets de données, et lorsque l’auditabilité est requise. Le contexte long excelle dans l’analyse holistique de documents et les tâches de raisonnement. Le consensus de l’industrie pour 2025-2026 est une approche hybride : utiliser le RAG pour récupérer les documents pertinents, puis utiliser les fenêtres de contexte long pour raisonner sur ceux-ci. Les déploiements RAG en entreprise ont augmenté de 280 % en 2025, et la catégorie des bases de données vectorielles a attiré plus de 800 millions de dollars en capital-risque, démontrant que l’infrastructure de récupération reste essentielle même à l’ère des fenêtres d’un million de tokens.

Combien la mise en cache du contexte réduit-elle les coûts du contexte long ?

La mise en cache du contexte peut réduire considérablement les coûts pour les requêtes répétées sur les mêmes documents. La mise en cache implicite de Google offre une réduction de 90 % sur les tokens mis en cache pour les modèles Gemini 2.5. La mise en cache de prompts d’Anthropic offre des économies similaires pour les préfixes répétés. Cependant, la mise en cache aide surtout avec des contextes stables et fréquemment réutilisés. Elle n’élimine pas les coûts pour les entrées nouvelles, les documents qui changent rapidement, ou les requêtes initiales. Les équipes devraient évaluer leurs schémas de requêtes réels : si 80 % des requêtes touchent des contextes mis en cache, la mise en cache transforme significativement l’économie. Si les requêtes sont majoritairement uniques, les économies sont minimales.

Qu’est-ce que le problème du « lost-in-the-middle » et peut-il être résolu ?

En bref : Les startups et équipes entreprises algériennes paient un coût disproportionné pour les appels API à contexte long car les budgets cloud sont libellés en devises fortes tandis que les revenus sont en dinars — une facture de tokens 10x qu’une startup américaine absorbe facilement peut casser l’allocation cloud mensuelle d’une équipe algérienne. Les développeurs d’entreprises algériennes comme Yassir, TemTem et DjazairIA devraient implémenter un suivi des coûts par requête dès leur premier déploiement en production. L’architecture hybride (RAG pour la récupération, contexte long pour le raisonnement) n’est pas qu’une bonne pratique mondiale — c’est une stratégie de survie financière pour les équipes opérant sous les contraintes de change algériennes.

Suivez AlgeriaTech sur LinkedIn pour des analyses tech professionnelles Suivre sur LinkedIn
Suivez @AlgeriaTechNews sur X pour des analyses tech quotidiennes Suivre sur X

Publicité

Questions Fréquemment Posées

Comment les fournisseurs de modèles de pointe tarifent-ils les requêtes en contexte long par rapport aux requêtes standard ?

Chaque fournisseur majeur facture un supplément pour les requêtes en contexte long. Claude Sonnet 4.6 double son prix d’entrée de 3 à 6 dollars par million de tokens lorsque les requêtes dépassent 200 000 tokens en entrée. GPT-4.1 facture le double pour les requêtes au-delà de 272 000 tokens. Gemini 2.0 Pro passe de 1,25 à 2,50 dollars par million de tokens au-delà du seuil de 200 000 tokens. Ces structures tarifaires signalent que les fournisseurs eux-mêmes reconnaissent que le contexte long est coûteux à servir.

Quelle précision GPT-4.1 a-t-il atteinte dans les tests nécessitant une analyse et un rappel simultanés sur de longs contextes ?

Selon l’analyse de Zep, malgré sa fenêtre de contexte d’un million de tokens, GPT-4.1 n’a atteint qu’une précision moyenne de 56,72 % sur les tâches nécessitant une analyse et un rappel simultanés sur de longs contextes — en fait inférieure à GPT-4o-mini à 57,87 %. Des baisses de précision de 10 à 20 points de pourcentage sont courantes lorsque l’information pertinente se trouve au milieu de longs contextes plutôt qu’au début ou à la fin, en raison du biais de primauté et de récence dans le mécanisme d’attention.

Quelle découverte contre-intuitive l’étude « Context Rot » de Chroma a-t-elle révélée sur les contextes cohérents versus mélangés ?

La recherche de Chroma a montré que les modèles performent en réalité moins bien lorsque le contexte environnant préserve un flux logique d’idées. Les contextes mélangés et incohérents produisent une meilleure précision que les contextes logiquement structurés. Le mécanisme d’attention du modèle est distrait par le texte cohérent mais non pertinent. Cette découverte contre-intuitive, combinée à l’effet « lost-in-the-middle » documenté par les chercheurs de Stanford Liu et al., a engendré son propre sous-domaine de recherche, avec NeurIPS 2024 présentant le Multi-scale Positional Encoding (Ms-PoE) pour atténuer le problème.

Sources et lectures complémentaires