La précision diagnostique de l’IA de Microsoft est quatre fois supérieure à celle des médecins. Devrions-nous désormais la demander avant de consulter un médecin ?

Quatre fois, la précision du diagnostic du médecin IA dépasse de loin celle des médecins humains.

Cela peut être un peu difficile à croire, mais l'équipe d'intelligence artificielle de Microsoft a récemment publié un système de coordination de diagnostic IA MAI-DxO (MAI Diagnostic Orchestrator), qui fait vraiment cela.

Le test a été évalué sur la base de 304 cas réels complexes publiés chaque semaine dans le New England Journal of Medicine. Les résultats ont montré un taux de précision de 85,5 %.

Ce benchmark n'est plus un simple sujet d'examen pouvant être complété par mémorisation, mais une toute nouvelle norme d'évaluation créée par Microsoft, le « Sequential Diagnosis Bench » (SD Bench). Il restitue pleinement les défis interactifs du processus réel de diagnostic et de traitement :

  1. Commencez par la description initiale des symptômes du patient.
  2. Au travers de plusieurs séries de questions et d'une sélection de divers tests et examens, les informations sur l'état du patient sont progressivement collectées.
  3. Pour chaque inspection, enregistrez le coût de l’élément d’inspection ; évaluez la nécessité et le coût.
  4. Donner un diagnostic final.

Confronté aux mêmes 304 cas complexes, Microsoft a sélectionné 21 autres médecins en exercice aux États-Unis et au Royaume-Uni, dotés de 5 à 20 ans d'expérience clinique. Les résultats des tests ont montré que la précision moyenne des vrais médecins n'était que de 20 %, soit quatre fois supérieure à celle des « médecins IA ».

Dans le même temps, par rapport aux médecins humains, ce « médecin IA » a également ordonné moins d’examens inutiles, réduisant ainsi les coûts de diagnostic de 20 à 70 %.

Illustration d’un test de référence de diagnostic séquentiel, dans lequel le gardien répond aux demandes d’informations des agents de diagnostic, et le modèle d’évaluation évalue l’exactitude des diagnostics finaux et des rapports de cas des agents de diagnostic.

▲ Diagramme d'introduction du test de référence diagnostique séquentiel. Le « gardien » répond aux demandes d'informations des agents de diagnostic, et le modèle d'évaluation évalue l'exactitude du diagnostic final et du rapport de cas de l'agent de diagnostic.

Comment MAI-DxO atteint-il un taux de précision quatre fois supérieur à celui des médecins ? Il ne s'agit pas d'un nouveau modèle de langage à grande échelle, et il ne repose pas sur un modèle unique.

MAI-DxO est un système qui simule le processus de diagnostic collaboratif de plusieurs médecins dans la réalité. Grâce au développement continu du modèle de langage étendu actuel, MAI-DxO propose différents modèles de langage pour cinq rôles médicaux différents.

Ces rôles médicaux incluent le médecin d'hypothèses qui spécule sur divers résultats, le médecin de sélection, le médecin de défi qui remet en question les hypothèses diagnostiques actuelles, le médecin de gestion des coûts qui évite les tests inutiles et le médecin de liste de contrôle qui s'assure que les étapes de diagnostic et la logique de sélection sont cohérentes.

Ces « médecins » travaillent en collaboration, simulant entièrement le flux de travail d’une équipe médicale humaine et compensant les défauts qu’un seul modèle d’IA peut présenter dans les diagnostics complexes.

Présentation du système MAI-DxO

▲Présentation du système MAI-DxO

Comme le montre le schéma de présentation du système décrit ci-dessus, MAI-DxO simule complètement le processus consistant à se rendre à l’hôpital pour consulter un médecin.

  1. Dès la consultation, MAIN-DxO recevra un bref récit clinique, généralement de 2 à 3 phrases, couvrant les détails de base du cas.
  2. Ensuite, MAI-DxO commencera à résumer les principales demandes du patient et choisira l'étape suivante, soit continuer à poser des questions au patient, soit demander un examen.
  3. Le coût de chaque examen est calculé et plusieurs cycles d’interaction se poursuivent jusqu’à ce que le diagnostic final soit posé.

Au cours du processus de test, MAI-DxO a utilisé o4-mini et des médecins professionnels pour mettre en place un « gardien » afin de garantir que les informations que le système fournissait à l'IA étaient les mêmes que les informations que les médecins normaux pouvaient obtenir lors des consultations et de la pratique clinique.

L'émergence de MAI-DxO a considérablement amélioré les performances des grands modèles de langage dans le diagnostic médical. Microsoft a testé différents modèles des séries OpenAI, Gemini, Claude, Grok, DeepSeek et Llama, et les performances se sont avérées supérieures à celles d'un seul modèle d'IA. La combinaison la plus performante a été celle de MAI-DxO et de l'association o3 d'OpenAI.

Comme il n'est pas limité par de grands modèles de langage, MAI-DxO peut également s'adapter de manière synchrone lorsque de meilleurs modèles seront disponibles à l'avenir.

Comparaison de la précision de différents modèles d'IA et du coût moyen des tests de diagnostic par cas

▲Comparaison de la précision de différents modèles d'intelligence artificielle et du coût moyen des tests de diagnostic par cas

Même s’il semble que le terme « médecin IA » ait pris forme, il n’est pas facile pour l’IA d’être un bon médecin.

Microsoft a mentionné à la fin du document de projet que cette étude présentait d'importantes limites, notamment l'absence d'accès à des outils de discussion entre pairs, à des ouvrages de référence, à l'IA générative et à d'autres ressources pour les 21 médecins ayant participé à l'expérience comparative. De plus, l'expérience de Microsoft n'a abordé que les cas les plus complexes et n'a pas mené de tests complémentaires sur notre diagnostic quotidien général des maladies.

Microsoft souligne que l’IA ne remplacera pas les médecins, mais deviendra un assistant à la fois pour les médecins et pour les patients.

Mais cet assistant destiné aux médecins et aux patients continue de susciter l'intérêt du monde entier. Dès mars dernier, Microsoft a lancé le premier assistant IA du secteur médical dédié aux flux de travail cliniques, Microsoft Dragon Copilot, qui permet aux médecins de mieux organiser leurs dossiers médicaux.

La plateforme d'intelligence artificielle médicale IBM Watson Health d'IBM, DeepMind de Google et NVIDIA Clara de NVIDIA apportent toutes de nouveaux changements aux scénarios médicaux tels que l'orientation médicale, la consultation et la pathologie.

Il y a quelque temps, Alibaba DAMO Academy a également publié le premier modèle d'IA au monde pour le dépistage par imagerie du cancer gastrique, DAMO GRAPE, qui a utilisé pour la première fois des images CT simples combinées à un apprentissage profond pour identifier les lésions précoces du cancer gastrique.

Huawei n'a établi son corps médical et sanitaire que cette année et, la semaine dernière, en collaboration avec l'hôpital Ruijin, a annoncé le modèle de pathologie open source RuiPath, qui dispose de capacités de vérification clinique et couvre sept cancers courants, dont le cancer du poumon.

La médecine exige une précision extrême, et une erreur de 0,01 % peut avoir de graves conséquences. C'est totalement différent des bugs qui apparaissent lorsque les programmeurs écrivent du code.

MAI-DxO simule le processus d'une véritable consultation médicale, et il semble que le chemin des soins médicaux par IA devienne de plus en plus clair.

De la consultation Baidu à la consultation ChatGPT, je pense qu'à l'avenir, en plus d'obtenir les résultats des examens des hôpitaux ordinaires, de vérifier les classements des hôpitaux et de payer pour demander aux médecins en ligne, vous pourrez également jeter un œil à ce « médecin IA » en premier.

#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo