Le Goulot d’Étranglement de l’Étiquetage que RLHF Ne Pouvait Pas Contourner
La narration dominante de l’entraînement IA en 2023 et 2024 était le RLHF — le reinforcement learning from human feedback — la technique qui a transformé les modèles de langage bruts en assistants alignés capables de suivre des instructions, de refuser des requêtes nuisibles et de produire des sorties préférées par les humains. Le mécanisme central du RLHF requiert des évaluateurs humains pour évaluer les sorties des modèles et exprimer des préférences, ce qui entraîne un modèle de récompense que l’IA optimise ensuite.
Cette approche a produit la percée de l’IA conversationnelle. Elle a aussi un plafond structurel.
L’étiquetage des préférences humaines est coûteux : obtenir des évaluations cohérentes et de haute qualité à l’échelle nécessaire pour l’entraînement de modèles frontier requiert de grandes équipes d’annotateurs qualifiés évaluant des millions de sorties. C’est lent : le goulot d’étranglement humain limite la vitesse à laquelle le signal de récompense peut être généré. C’est subjectif : les évaluateurs humains sont en désaccord sur la qualité d’une manière qui introduit du bruit dans le signal de récompense, particulièrement pour les domaines techniques où la correction n’est pas une question d’opinion. Et il optimise pour la mauvaise chose dans les contextes de raisonnement.
Le RLVR — Reinforcement Learning with Verifiable Rewards — résout ces quatre problèmes simultanément pour les tâches où la correction peut être déterminée par programmation. Au lieu de demander à un humain si la réponse du modèle est bonne, RLVR vérifie la réponse contre un vérificateur objectif : un compilateur de code qui confirme que le programme s’exécute et produit la bonne sortie, un vérificateur de preuve mathématique qui valide la dérivation, un exécuteur SQL qui confirme que la requête renvoie les données correctes. Le vérificateur renvoie un signal binaire : correct (récompense 1) ou incorrect (récompense 0). Aucune intervention humaine requise.
Ce que RLVR Change Réellement dans l’Entraînement des Modèles
L’architecture technique du RLVR diffère du RLHF d’une manière qui se cascade en différences pratiques significatives dans ce que peuvent faire les modèles entraînés.
RLHF entraîne un modèle de récompense neural à partir de données de préférence humaine, puis utilise ce modèle de récompense pour fournir un signal de gradient pendant l’entraînement RL. Cela crée deux modes de défaillance : le modèle de récompense peut être « hacké » — l’IA apprend à produire des sorties qui scorent bien sur le modèle de récompense sans être réellement meilleures — et le plafond de qualité du modèle de récompense est borné par la qualité des données de préférence humaine.
RLVR remplace le modèle de récompense appris par une fonction de vérificateur programmatique. DeepSeek-R1 a implémenté cela en utilisant GRPO (Group Relative Policy Optimization) — un algorithme qui élimine à la fois le modèle de récompense et le modèle de valeur (critique) du pipeline d’entraînement. Cette simplification n’est pas seulement une réduction des coûts : elle change la dynamique d’entraînement. Sans un modèle de récompense appris qui peut être « hacké », l’IA doit réellement résoudre le problème correctement pour recevoir une récompense. Le résultat, démontré dans DeepSeek-R1-Zero (qui a sauté l’étape de fine-tuning supervisé et a été entraîné purement avec RLVR), est l’émergence spontanée du raisonnement en chaîne de pensée — le modèle a appris à montrer son travail parce que montrer son travail est ce qui produit des réponses correctes vérifiables.
Les modèles o3 et o4-mini d’OpenAI (publiés en avril 2025) étendent ce paradigme à la vérification de l’utilisation d’outils. Tsinghua University a publié en avril 2025 des recherches sur l’application du RLVR avec la compression de recherche. Le signal de performance pratique : Databricks a rapporté une amélioration de précision de 73,5% → 75,68% sur le benchmark BIRD Text-to-SQL avec des modèles entraînés RLVR. Qwen2.5-Math-7B a montré une amélioration de 21,4% sur le benchmark MATH-500 sous entraînement RLVR, bien que les chercheurs notent que cette amélioration mérite une interprétation prudente.
Publicité
Ce que les Équipes d’Ingénierie IA et les Constructeurs de Modèles Doivent Faire
RLVR n’est pas un remplacement de RLHF — c’est un remplacement de RLHF pour les tâches où la vérification est possible. Comprendre où l’appliquer, comment construire des vérificateurs et ce que la dynamique d’entraînement requiert sont les questions pratiques pour les équipes d’ingénierie IA en 2026.
1. Cartographier votre portefeuille de tâches sur le spectre de vérifiabilité RLVR
L’avantage de RLVR s’applique précisément là où une vérification objective est possible : exécution de code (le programme compile et produit la bonne sortie), mathématiques (la dérivation est valide et la réponse est correcte), SQL et requêtes de données (la requête renvoie le résultat spécifié), suivi d’instructions (la sortie correspond à un format spécifié) et inférence logique (la conclusion découle des prémisses selon des règles définies). Il ne s’applique pas là où la correction est intrinsèquement subjective : écriture créative, préférences stylistiques, jugements de sensibilité culturelle et outputs consultatifs ouverts. La première étape pratique pour toute équipe IA envisageant RLVR est de cartographier leur portefeuille de tâches spécifiques sur ce spectre.
2. Investir dans la qualité du vérificateur comme actif d’ingénierie principal
Le plafond de qualité d’un modèle entraîné par RLVR est borné par la qualité de ses vérificateurs. Un vérificateur de code défaillant — qui accepte des programmes qui s’exécutent mais produisent des sorties incorrectes, ou rejette des programmes corrects à cause de lacunes dans les cas de test — entraînera un modèle à « hacker » le vérificateur plutôt qu’à résoudre réellement des problèmes de coding. Construire des vérificateurs robustes est donc non pas un travail d’infrastructure subordonné à l’entraînement des modèles — c’est l’investissement technique principal. Pour les tâches de code, cela signifie des suites de tests complètes couvrant les cas limites. Pour le raisonnement mathématique, des vérificateurs de preuve formels, pas seulement une correspondance de réponse numérique. Pour SQL, des schémas de base de données avec une complexité suffisante.
3. Utiliser GRPO pour les tâches de raisonnement où les données d’entraînement du modèle de récompense sont rares
GRPO, l’algorithme utilisé dans l’implémentation RLVR de DeepSeek-R1, offre un avantage pratique spécifique : il élimine le besoin d’entraîner un modèle de récompense séparé en utilisant à la place une estimation d’avantage relatif au groupe. Pour les équipes avec des tâches vérifiables mais des données insuffisantes étiquetées par préférence pour entraîner un modèle de récompense fiable, RLVR basé sur GRPO est la voie la plus accessible vers l’amélioration du raisonnement basée sur RL. L’implémentation de l’algorithme est disponible dans le codebase d’entraînement de DeepSeek-R1 (open-source) et dans plusieurs frameworks dérivés.
4. Surveiller la littérature sur les limitations RLVR avant de le traiter comme universellement supérieur
La communauté de recherche a identifié une limitation nuancée de RLVR que les équipes d’entreprise doivent comprendre. Un article 2026 de Scale AI soutient que l’entraînement RLVR produit principalement un « gain de capacité via la compression de recherche plutôt qu’une capacité de raisonnement étendue » — ce qui signifie que le modèle devient meilleur à atteindre de manière fiable des réponses qu’il pouvait déjà produire occasionnellement, plutôt que de développer des capacités de raisonnement fondamentalement nouvelles. Pour les tâches nécessitant des chaînes de raisonnement genuinement nouvelles, RLVR seul peut ne pas être suffisant.
La Vue d’Ensemble : Ce qui Change Quand l’Entraînement est Objectif
L’implication la plus profonde de la montée du RLVR n’est pas une question de coût ou d’efficacité — c’est ce que des types de comportement IA il devient possible d’entraîner du tout.
RLHF est limité par la capacité des évaluateurs humains à évaluer les sorties. En pratique, cela signifie que les modèles IA frontier ont été optimisés principalement pour les tâches que les humains peuvent facilement juger : qualité d’écriture, utilité, précision factuelle apparente. Les tâches nécessitant une véritable expertise pour être évaluées — preuves mathématiques avancées, code complexe, arguments logiques rigoureux — ont été sous-représentées dans l’entraînement RLHF.
RLVR supprime cette contrainte. Une fois qu’un vérificateur formel existe pour une tâche, le signal d’entraînement peut être généré automatiquement à une échelle arbitraire. L’implication est que les domaines les plus susceptibles de voir une croissance rapide des capacités IA en 2026 et 2027 sont précisément les domaines où la vérification formelle est possible : mathématiques, génération de code, logique formelle, génération de requêtes de bases de données, et tout domaine où un oracle computationnel peut évaluer la correction.
Questions Fréquemment Posées
Quelle est la différence pratique entre RLHF et RLVR pour une équipe produit IA ?
RLHF (Reinforcement Learning from Human Feedback) nécessite des évaluateurs humains pour évaluer les sorties des modèles et exprimer des préférences, ce qui entraîne un modèle de récompense utilisé pour l’optimisation RL. RLVR (Reinforcement Learning with Verifiable Rewards) remplace l’évaluateur humain par un vérificateur programmatique — un exécuteur de code, vérificateur de mathématiques ou validateur SQL — qui fournit un signal déterministe correct/incorrect. La différence pratique : RLHF fonctionne pour toute tâche que les humains peuvent juger, y compris les évaluations de qualité subjective ; RLVR ne fonctionne que pour les tâches où la correction peut être vérifiée par programmation, mais produit des signaux de récompense plus fiables pour ces tâches.
DeepSeek-R1 a-t-il vraiment sauté le fine-tuning supervisé ?
DeepSeek-R1-Zero — le modèle de recherche démontrant les capacités du RLVR — a été entraîné uniquement avec RLVR et GRPO, sans étape de fine-tuning supervisé. Ce modèle a développé spontanément un comportement de raisonnement en chaîne de pensée : montrer son travail étape par étape parce que c’est la voie la plus fiable vers des réponses correctes vérifiables. Le modèle DeepSeek-R1 en production inclut une étape SFT pour l’alignement et le suivi d’instructions, mais les capacités de raisonnement ont été établies par l’entraînement RLVR. Le résultat R1-Zero est significatif parce qu’il démontre que le raisonnement structuré peut émerger uniquement de signaux de récompense.
Quelles tâches bénéficient le plus des modèles entraînés par RLVR, et lesquelles non ?
RLVR offre le plus fort avantage pour les tâches avec des critères de correction objectifs : coding (le programme peut-il être compilé et testé ?), mathématiques (la réponse peut-elle être vérifiée ?), requêtes de données (le SQL renvoie-t-il le résultat attendu ?), logique formelle (la conclusion découle-t-elle des prémisses ?). Il apporte peu d’avantage pour les tâches intrinsèquement subjectives : écriture créative, nuance conversationnelle, préférences stylistiques, sensibilité culturelle et conseil ouvert.
Sources et lectures complémentaires
- Reinforcement Learning with Verifiable Rewards Rend les Modèles Plus Rapides, Pas Plus Intelligents — Promptfoo
- Reinforcement Learning from Verifiable Rewards — Label Studio
- L’État de l’Entraînement des Modèles de Raisonnement LLM — Sebastian Raschka
- DeepSeek-R1 : Inciter les Capacités de Raisonnement via l’Apprentissage par Renforcement — arXiv
- RLVR : Récompenses Vérifiables pour des LLM d’Entreprise Fiables — Appen
- Reinforcement Learning with Verifiable Rewards — GitHub Awesome-RLVR















