L'ÉTAT DE L'IA EN 2026 : DeepSeek, Reasoning Models et l'essor de l'Inference Scaling
TL;DR. L'ÉTAT DE L'IA EN 2026 : DeepSeek, Reasoning Models et l'essor de l'Inference Scaling Tags: IntelligenceArtificielle DeepSeek ReinforcementLearning OpenSource
Published: Feb 1, 2026, 11:40 AM
Topic: Artificial Intelligence
Source: https://www.youtube.com/watch?v=EV7WhVT270Q
📋 Vue d'ensemble
- Type : Podcast / Table ronde technique / Prévisions stratégiques
- Sujet principal : Une analyse rétrospective du "moment DeepSeek" de 2025, du virage technique vers des techniques de post-training décisives (RLVR), et des prédictions pour le paysage de l'IA en 2026.
- Intervenants :
- Lex Fridman (Hôte)
- Sebastian Raschka (Chercheur en IA, Enseignant, Auteur de Build a LLM From Scratch)
- Nathan Lambert (Chercheur en IA chez AI2, Expert RLHF, Lead Post-training)
🎯 Objectif principal et Contexte
Cette conversation se déroule début 2026 (cadre temporel contextuel), et revient sur l'année explosive que fut 2025. L'objectif premier est de décortiquer les percées techniques qui ont eu lieu — plus précisément la transition d'un pre-training massif vers l'inference-time scaling (la mise à l'échelle au moment de l'inférence) et le Reinforcement Learning with Verifiable Rewards (RLVR). Le trio analyse les tensions géopolitiques entre les laboratoires américains développant des modèles fermés (OpenAI, Anthropic, Google) et la domination chinoise sur les modèles open-weight (DeepSeek, Qwen). Ils visent à fournir un état de l'art à destination des chercheurs et des ingénieurs, en démystifiant le fonctionnement des modèles de raisonnement et en identifiant où la valeur économique de l'IA va se stabiliser.
🧠 Concepts clés et Définitions techniques
Les intervenants proposent des explications pédagogiques de haut niveau pour des mécanismes complexes.
RLVR (Reinforcement Learning with Verifiable Rewards - Apprentissage par renforcement avec récompenses vérifiables) :
- Définition : Une méthode d'entraînement où le modèle est récompensé en fonction de l'exactitude de sa réponse finale (par exemple, en mathématiques ou en code) plutôt que sur la base de préférences humaines.
- Mécanisme : Elle permet au modèle de générer des milliers de "pensées" ou d'étapes internes. Si la réponse finale est correcte, l'intégralité de la chaîne est renforcée. Cela simule la pensée "Système 2".
- Impact : C'est ce qui a permis le moment "DeepSeek R1", en prouvant que des modèles plus petits peuvent atteindre l'état de l'art en réfléchissant plus longtemps, plutôt qu'en étant simplement plus massifs.
Inference-Time Scaling (Le paradigme O1) :
- Concept : Au lieu d'investir un capital colossal pour entraîner un modèle massif en une seule fois (Scaling en pre-training), on dépense ce capital au moment de la requête elle-même (Scaling à l'inférence).
- Compromis : On sacrifie la latence (vitesse) au profit de l'intelligence. Le modèle génère des tokens cachés ("pensées") pour s'auto-corriger avant de produire la réponse finale.
- Basculement économique : Déplace les coûts du développeur (entraînement) vers l'utilisateur (temps d'inférence).
Pre-training vs. Post-training :
- Pre-training : "L'absorption des connaissances." La prédiction du prochain token sur un corpus gigantesque (Internet/Livres). Nécessite une puissance de calcul colossale, avec un coût fixe.
- Post-training : "Le déblocage des capacités." L'utilisation du RLHF ou du RLVR pour apprendre au modèle comment exploiter les connaissances qu'il a déjà emmagasinées. C'est la frontière actuelle de l'innovation.
Modèles de diffusion de texte (Text Diffusion Models) :
- Architecture alternative : Contrairement aux Transformers (qui écrivent un mot à la fois, de gauche à droite), les modèles de diffusion partent de bruit et affinent l'intégralité du bloc de texte simultanément.
- Promesse : Potentiellement beaucoup plus rapides pour générer de longs blocs de code ou des diffs, bien qu'ils soient actuellement moins performants en raisonnement.
🧭 Analyse stratégique et "Game Changers"
1. L'inversion géopolitique : La Chine domine l'"Open", les États-Unis dominent le "Closed"
Un thème majeur est le renversement des normes technologiques historiques. Les entreprises américaines (OpenAI, Google) sont devenues des forteresses fermées, motivées par le profit et des enjeux de sécurité. Pendant ce temps, les laboratoires chinois (DeepSeek, Qwen/Alibaba, 01.AI) ont poussé de manière très agressive les modèles Open Weights.
- L'enjeu : En inondant le marché avec des modèles ouverts à l'état de l'art (SOTA), la Chine capte le mindshare (l'attention et l'adoption) des développeurs à l'échelle mondiale. Les startups occidentales construisent sur une infrastructure chinoise parce qu'elle est gratuite et performante.
- La réponse : Le "Projet Atom" (mentionné par Nathan) est une initiative politique visant à forcer les États-Unis à financer des modèles open-weight pour retrouver leur pertinence au sein de la communauté des chercheurs.
2. La mort du "Vibe Check" (Le RLHF atteint un plafond)
Le RLHF traditionnel (Reinforcement Learning from Human Feedback) touche à ses limites. Il est impossible de le mettre à l'échelle indéfiniment, car les préférences humaines sont subjectives et difficiles à évaluer.
- Game Changer : Le RLVR est le nouveau moteur. Étant donné que les mathématiques et le code possèdent une vérité objective (le code compile/s'exécute ou non), on peut scaler les données d'entraînement de manière synthétique, sans intervention humaine. C'est pourquoi les capacités en code et en maths ont littéralement explosé en 2025.
3. La frontière d'intelligence "irrégulière" (Jagged Frontier)
Nous ne nous approchons pas d'une IA "divine" et uniforme. Au contraire, l'IA devient profondément irrégulière.
- Insight : L'IA est surhumaine pour écrire des fonctions isolées (Python, composants React), mais se révèle très médiocre lorsqu'il s'agit d'architecturer des systèmes distribués ou de faire des découvertes scientifiques inédites.
- Implication : Le "Codeur Surhumain" ne remplace pas encore les ingénieurs ; il remplace la frappe au clavier. Le rôle de l'humain passe de "rédacteur" à "vérificateur" et "architecte".
4. Convergence architecturale
Malgré l'engouement, les Transformers restent incontournables.
- De GPT-2 à GPT-5/DeepSeek, l'architecture n'a pas fondamentalement changé. Les innovations sont algorithmiques (stratégies RL, curation de données) plutôt qu'architecturales.
- Connexion implicite : Cela suggère que nous approchons peut-être d'un maximum local sur le plan de l'architecture, forçant les laboratoires à innover plutôt sur la qualité des données et l'intégration de systèmes (agents).
🎙️ Citations notables et Insights
- Sur le code : "Déboguer, c'est comme boire un verre d'eau après avoir traversé un désert... mais avec [l'IA], on saute la partie du désert où l'on souffre." — Lex/Sebastian sur la perte de la "difficulté formatrice" dans l'apprentissage.
- Sur le Pre-training : "Le pre-training, c'est s'imprégner des connaissances. Le post-training, c'est le déblocage des capacités." — Sebastian Raschka
- Sur les échéances : "Les géants de la Tech ne vont pas dépenser 100 milliards de dollars plus vite qu'on ne parviendra à développer un chercheur en IA automatisé... Le rêve d'un modèle unique pour les gouverner tous est un peu en train de mourir." — Nathan Lambert
- Sur la culture 996 : "Le rythme constant du jeu du saute-mouton... est alimenté par un coût humain lourd. Les gens font manifestement des burn-out." — Nathan Lambert sur le rythme effréné des laboratoires d'IA.
📊 Analyse détaillée
Le paysage de 2025/2026
- [00:03:22] Le Moment DeepSeek : La conversation s'articule autour de janvier 2025, lorsque le laboratoire chinois DeepSeek a publié DeepSeek R1. Il offrait des performances SOTA pour une fraction du coût, provoquant une onde de choc au sein des laboratoires occidentaux.
- [00:06:29] La Guerre des Modèles :
- Anthropic : Mise énormément sur "Claude Opus 4.5" et ses capacités en code. L'entreprise est perçue comme le laboratoire "le moins chaotique" et le plus cohérent d'un point de vue culturel.
- Google : Gemini 3 est techniquement excellent (en particulier pour la récupération de contexte long) mais manque de la "hype" virale d'Anthropic ou OpenAI. Google possède un avantage structurel sur les puces (TPUs) et ne paie pas la "taxe Nvidia".
- OpenAI : Reste l'acteur historique, mais son fonctionnement est chaotique. Leur passage à O1 (reasoning models) a défini la tendance du scaling à l'inférence.
- [00:10:29] La stratégie chinoise : Les entreprises chinoises (DeepSeek, MiniMax, 01.AI) publient des modèles ouverts car les entreprises occidentales refusent d'acheter leurs APIs par crainte pour leur sécurité et du contrôle des exportations. Les open weights constituent leur seule voie vers une influence mondiale.
Expérience Utilisateur & "Vibe Coding"
- [00:14:32] Le modèle de Routeur : Les utilisateurs se servent désormais de "Routeurs" (ex: ChatGPT Pro) qui basculent dynamiquement entre les modèles "Réflexifs" (pour les maths complexes) et les modèles "Rapides" (pour les scripts bash).
- [00:22:46] Outils de code :
- Cursor vs. Claude Code : Sebastian préfère Codex/VS Code (davantage de contrôle), tandis que Nathan privilégie Claude Code (génération d'applications depuis du texte, "vibe coding").
- Le basculement : La programmation passe de "l'écriture de syntaxe" à la "gestion de spécifications en anglais".
- Données d'enquêtes [01:31:03] : Les développeurs seniors utilisent l'IA plus intensivement que les développeurs juniors (plus de 50 % du code mis en production). Les experts sont plus aptes à vérifier le "slop" (code douteux) généré par l'IA ; les juniors peinent à apprendre sans avoir fait le "sale boulot" initial.
Plongée technique : Comment fonctionnent les modèles en 2026
- [00:41:15] Ajustements architecturaux :
- MOE (Mixture of Experts) : Utilisé par DeepSeek et Mistral. Au lieu d'avoir un seul cerveau monolithique, on dispose de nombreux petits experts. Un routeur choisit l'expert qui répondra à une requête. Cela économise de la puissance de calcul (activation parcimonieuse / sparse activation).
- Latent Attention & Grouped Query Attention : Optimisations de la mémoire (KV Cache) pour permettre d'immenses fenêtres de contexte (plus d'1M de tokens) sans saturer la mémoire des GPUs.
- [01:06:14] Le Pipeline d'entraînement défini :
- Pre-training : Des milliers de milliards de tokens (Internet/Données synthétiques).
- Mid-training : Données de haute qualité, spécifiques à un domaine (contexte long, traces de raisonnement complexes).
- Post-training :
- SFT (Supervised Fine-Tuning) : Apprentissage du format.
- RLVR (Verifiable Rewards) : La phase de "Raisonnement". Le modèle tente de résoudre un problème mathématique 10 000 fois ; les essais qui aboutissent à la bonne réponse sont renforcés.
- [01:46:33] Le débat sur la contamination : Les modèles "Qwen" ont obtenu des scores étonnamment hauts sur les benchmarks. Le débat porte sur le fait de savoir s'ils mémorisent les réponses des tests ou s'ils apprennent réellement la logique. (Conclusion : C'est encore flou, mais le RLVR permet bel et bien de débloquer des capacités latentes).
Le "Projet Atom" et la politique américaine
- [03:53:52] Le Projet Atom : Initiative de Nathan. Part du constat que si les États-Unis ne financent pas publiquement des modèles open-weight, le standard mondial de la recherche en IA sera dicté par les architectures chinoises.
- Le risque : Les innovateurs au Brésil, en Inde ou en Europe pourraient commencer à construire exclusivement sur les architectures de DeepSeek/Qwen, réduisant l'influence des États-Unis sur la stack technologique mondiale.
Robotique et IA physique
- [02:52:22] World Models : Application de la prédiction des LLMs au monde physique.
- [02:59:47] Le Scepticisme : Le groupe est pessimiste concernant la robotique domestique (type robot majordome) à court terme en raison de l'exigence de sûreté impliquant "le droit à l'erreur zéro" dans les espaces physiques.
- Le scénario optimiste : L'Automatisation industrielle. Les entrepôts conçus pour les robots (sans humains autorisés) connaîtront un passage à l'échelle beaucoup plus rapide que les robots conçus pour vivre dans les foyers humains.
Perspectives d'avenir : AGI et 2027
- [03:02:56] Définir l'AGI : La définition évolue d'une "IA omnipotente" vers la notion de "Remplacement Économique". Le modèle peut-il remplacer un travailleur à distance ?
- [03:07:37] Échéances :
- Codeur Surhumain : Probable d'ici 2027.
- Chercheur en IA Automatisé : Post-2030.
- [03:22:44] Le risque de plafonnement : Il y a de fortes chances que nous atteignons un plafond sur les capacités "générales". Nous pourrions obtenir des développeurs incroyables et des biologistes hors pair, mais pas un "Omni-modèle" unique.
- [03:41:36] Consolidation du marché : Prédiction selon laquelle les fournisseurs indépendants de LLMs (qui ne vendent que des tokens) mourront ou se feront racheter. Seuls ceux qui possèdent des écosystèmes (Apple, Google) ou des workflows spécialisés de grande échelle (Databricks, Salesforce) survivront.
🔑 Points clés à retenir
- Le Raisonnement est le nouveau passage à l'échelle : L'ère du "plus grand, c'est mieux" se transforme en "chercher plus longtemps, c'est mieux". La puissance de calcul à l'inférence (O1, DeepSeek R1) est le principal moteur de valeur en 2026.
- L'Open Source a basculé à l'Est : Les États-Unis ont en grande partie abandonné les modèles open-weights au profit d'APIs propriétaires, cédant le terrain open-source à la Chine, ce qui représente un risque stratégique majeur à long terme pour l'influence technologique occidentale.
- L'avantage du "Dév Senior" : L'IA accélère les experts capables de vérifier ses outputs. Elle neutralise potentiellement les juniors qui contournent la "difficulté formatrice" de l'apprentissage. Cela crée une crise pour les futurs viviers de talents.
- Le Mur des données (Data Wall) : Nous avons épuisé le texte humain de haute qualité. L'avenir dépend des Données Synthétiques et de Récompenses Vérifiables (RLVR) (comme la vérification de maths/code) pour créer la prochaine génération de tokens d'entraînement.
- Agents et Consolidation : Nous évoluons vers des workflows "agentiques" (des IA qui utilisent des ordinateurs), mais cela peine encore à fonctionner de manière fiable sur les interfaces humaines complexes. Attendez-vous à une énorme vague de consolidation sur le marché des startups IA, où les entreprises fonctionnant de type "wrappers" se feront balayer par les capacités natives des modèles fondationnels.
❓ Questions en suspens et Suivi
- Le "Data Wall" face à la Qualité Synthétique : Les modèles peuvent-ils véritablement s'améliorer d'eux-mêmes indéfiniment en utilisant des données synthétiques, ou finiront-ils par subir un "model collapse" (effondrement du modèle) sans nouvel apport humain ?
- Fiabilité du "Computer Use" : Les agents peuvent-ils réellement naviguer de manière fiable sur une interface graphique (GUI) sans faire d'erreur catastrophique ? Le taux de réussite actuel est trop faible pour un déploiement massif.
- La réponse politique américaine : Le "Projet Atom" va-t-il aboutir ? Le gouvernement de États-Unis va-t-il financer un "équivalent de la NASA pour l'IA Open Source" afin de contrer DeepSeek ?
- L'impact sur le PIB : Nous avons des avancées technologiques claires, mais où est le pic de croissance du PIB ? L'impact économique est encore à la traîne par rapport aux capacités techniques réelles.
Tags: ArtificialIntelligence, DeepSeek, ReinforcementLearning, OpenSource, ScalingLaws
Frequently Asked Questions
Qu'est-ce que le RLVR (Reinforcement Learning with Verifiable Rewards) ?
RLVR est une méthode d'entraînement où un modèle est récompensé en fonction de l'exactitude de sa réponse finale, comme en mathématiques ou en code, plutôt que sur la préférence humaine. Le modèle génère des milliers de pensées ou d'étapes internes, et si la réponse finale est correcte, toute la chaîne est renforcée, simulant la pensée de Système 2. Cette approche a permis le moment DeepSeek R1 en prouvant que des modèles plus petits peuvent atteindre des résultats de pointe en "réfléchissant" plus longtemps au lieu d'être simplement plus grands.
Qu'est-ce que le moment DeepSeek en 2025 ?
Le moment DeepSeek s'est produit vers janvier 2025, lorsque le laboratoire chinois DeepSeek a publié DeepSeek R1, un modèle de raisonnement offrant des performances de pointe à une fraction du coût. Cela a choqué les laboratoires occidentaux et démontré que la mise à l'échelle au moment de l'inférence et les récompenses vérifiables pouvaient rivaliser avec des modèles beaucoup plus grands et plus coûteux. C'est devenu un exemple marquant du passage du pré-entraînement massif vers des modèles qui raisonnent plus longtemps au moment de l'inférence.
Quelle est la différence entre le pré-entraînement et le post-entraînement dans les modèles d'IA ?
Le pré-entraînement est décrit comme l'acquisition de connaissances en prédisant le prochain token à travers un corpus massif comme l'internet et les livres, ce qui nécessite une puissance de calcul énorme et représente un coût fixe. Le post-entraînement est le déverrouillage de compétences, utilisant des méthodes comme RLHF ou RLVR pour apprendre au modèle comment utiliser les connaissances qu'il possède déjà. Le post-entraînement, en particulier RLVR, est considéré comme la frontière actuelle de l'innovation en IA.
Pourquoi la Chine est-elle devenue dominante dans les modèles d'IA open-weight ?
Les laboratoires chinois tels que DeepSeek, Qwen, MiniMax et Z.AI ont publié agressivement des modèles open-weight, en partie parce que les entreprises occidentales n'achèteront pas leurs API en raison de craintes liées à la sécurité et à l'exportation, faisant des poids ouverts leur seule voie vers une influence mondiale. En inondant le marché de modèles ouverts de pointe, la Chine capte l'attention des développeurs mondiaux qui construisent sur son infrastructure car elle est gratuite et performante. En revanche, les entreprises américaines comme OpenAI et Google sont devenues des entreprises secrètes et fermées, motivées par le profit et les préoccupations de sécurité.
Glossary
- DeepSeek R1
- A reasoning model from China that popularized RLVR, achieving SOTA performance with minimal training costs.
- RLVR
- Reinforcement Learning with Verifiable Rewards; a training method using objective outcomes (math/code) to scale reasoning.
- Inference Time Scaling
- Increasing compute during the generation phase (letting the model 'think') to improve performance, rather than just scaling training.
- MoE
- Mixture of Experts; an architecture that activates only a subset of parameters per token, increasing efficiency.
- KV Cache
- Key-Value Cache; a memory optimization mechanism in transformers to speed up token generation, critical for long contexts.
- Vibe Coding
- A colloquial term for coding by guiding an AI via prompts and high-level checks rather than writing syntax manually.
- GRPO
- Group Relative Policy Optimization; a specific algorithm used in scaling reinforcement learning for models like DeepSeek.
- Pre-training
- The initial phase of training on massive text corpora to teach the model language and general knowledge.
- Mid-training
- A newly distinct phase between pre-training and fine-tuning, focusing on specific high-value domains like code or reasoning traces.
- Post-training
- The refinement phase (RLHF, RLVR, SFT) where a base model is molded into a helpful assistant or reasoning engine.
- Claude Code
- An agentic coding interface from Anthropic that integrates deeply with developer workflows.
- Atom Project
- An initiative advocating for the US to build and release high-quality open-weight models to compete with China.
- Olmo
- An open language model project by the Allen Institute for AI (AI2) focused on scientific transparency and open data.
- VRAM/Memory Bound
- A bottleneck where the speed of processing is limited by how fast data can be moved from memory, common in RL training.
- Slop
- Pejorative term for low-quality, mass-produced AI content that clutters the internet and exhausts human attention.
- 996
- An intense work culture (9am to 9pm, 6 days a week) common in Chinese tech and increasingly in US AI labs.
- Distillation
- The process of training a smaller model to mimic the outputs of a larger, smarter model to save costs.
- Qwen
- A family of high-performance open-weight models from Alibaba, currently conflicting with Llama for dominance.