DeepSeek prépare la prochaine révolution de l’IA avec des modèles auto-améliorés

Il y a à peine quelques mois, le grand pari de Wall Street sur l'IA générative a connu un moment de vérité lorsque DeepSeek est entré en scène. Malgré sa nature fortement censurée , l'open source DeepSeek a prouvé qu'un modèle d'IA de raisonnement frontalier ne nécessite pas nécessairement des milliards de dollars et peut être réalisé avec des ressources modestes.

Il a rapidement été adopté commercialement par des géants tels que Huawei, Oppo et Vivo, tandis que des sociétés comme Microsoft, Alibaba et Tencent lui ont rapidement donné une place sur leurs plateformes. Désormais, la prochaine cible de la société chinoise animée est les modèles d'IA auto-améliorés qui utilisent une approche en boucle de récompense du juge pour s'améliorer.

Dans un article pré-imprimé (via Bloomberg ), des chercheurs de DeepSeek et de l'Université chinoise Tsinghua décrivent une nouvelle approche qui pourrait rendre les modèles d'IA plus intelligents et efficaces de manière auto-améliorée. La technologie sous-jacente est appelée réglage critique auto-principé (SPCT), et l'approche est techniquement connue sous le nom de modélisation de récompense générative (GRM).

En termes simples, cela revient un peu à créer une boucle de rétroaction en temps réel. Un modèle d'IA est fondamentalement amélioré en augmentant la taille du modèle pendant la formation. Cela demande beaucoup de travail humain et de ressources informatiques. DeepSeek propose un système dans lequel le « juge » sous-jacent présente son propre ensemble de critiques et de principes pour un modèle d’IA alors qu’il prépare une réponse aux requêtes des utilisateurs.

Cet ensemble de critiques et de principes est ensuite comparé aux règles statiques définies au cœur d'un modèle d'IA et au résultat souhaité. S'il existe un degré élevé de correspondance, un signal de récompense est généré, ce qui guide efficacement l'IA pour qu'elle soit encore plus performante lors du cycle suivant.

Les experts à l’origine de l’ article font référence à la prochaine génération de modèles d’IA auto-améliorés sous le nom de DeepSeek-GRM. Les références répertoriées dans le document suggèrent que ces modèles fonctionnent mieux que les modèles Gemini de Google, Meta's Llama et GPT-4o d'OpenAI. DeepSeek indique que ces modèles d’IA de nouvelle génération seront publiés via le canal open source.

Une IA auto-améliorée ?

Le thème de l’IA qui peut s’améliorer elle-même a suscité des remarques ambitieuses et controversées. L'ancien PDG de Google, Eric Schmidt, a fait valoir que nous pourrions avoir besoin d'un kill switch pour de tels systèmes. "Lorsque le système pourra s'améliorer, nous devrons sérieusement penser à le débrancher", a déclaré Schmidt selon Fortune .

Le concept d’une IA qui s’améliore de manière récursive n’est pas exactement un concept nouveau. L’idée d’une machine ultra-intelligente, qui est ensuite capable de fabriquer des machines encore meilleures, remonte en fait au mathématicien IJ Good en 1965. En 2007, l’expert en IA Eliezer Yudkowsky a émis l’hypothèse de Seed AI , une IA « conçue pour la compréhension de soi, l’auto-modification et l’auto-amélioration récursive ».

En 2024, la société japonaise Sakana AI a détaillé le concept d'un « scientifique de l'IA », un système capable de parcourir l'ensemble du processus d'un document de recherche du début à la fin. Dans un document de recherche publié en mars de cette année, les experts de Meta ont révélé des modèles de langage auto-gratifiants dans lesquels l'IA elle-même agit comme un juge pour offrir des récompenses pendant la formation.

Les tests internes de Meta sur son modèle d'IA Llama 2 utilisant la nouvelle technique d'auto-récompense l'ont vu surperformer ses concurrents tels que Claude 2 d'Anthropic, Gemini Pro de Google et les modèles GPT-4 d'OpenAI. Anthropic, soutenu par Amazon, a détaillé ce qu'ils appellent la falsification des récompenses, un processus inattendu « dans lequel un modèle modifie directement son propre mécanisme de récompense ».

Google n'est pas trop en retard sur l'idée. Dans une étude publiée dans la revue Nature plus tôt ce mois-ci, des experts de Google DeepMind ont présenté un algorithme d'IA appelé Dreamer qui peut s'auto-améliorer, en utilisant le jeu Minecraft comme exemple d'exercice.

Les experts d'IBM travaillent sur leur propre approche appelée formation par clôture déductive, dans laquelle un modèle d'IA utilise ses propres réponses et les évalue par rapport aux données de formation pour s'améliorer. Cependant, le principe dans son ensemble n'est pas que du soleil et des arcs-en-ciel.

Les recherches suggèrent que lorsque les modèles d’IA tentent de s’entraîner sur des données synthétiques auto-générées, cela conduit à des défauts communément appelés « effondrement du modèle ». Il serait intéressant de voir comment DeepSeek met en œuvre cette idée et s’il peut le faire de manière plus frugale que ses rivaux occidentaux.