Nouveau banc d'essai pour évaluer la capacité des IA à raisonner comme des cliniciens
Un groupe de chercheurs a développé un banc d'essai, le CPC-Bench, basé sur plus de 7 100 cas cliniques publiés dans le NEJM et environ 1 000 images médicales. Ce banc d'essai permet à des IA génératives de produire une analyse diagnostique complète en se glissant dans le rôle d'un médecin discutant. L'originalité réside dans l'évaluation de la cohérence argumentative et de la maîtrise des différentes sources d'information, comme le ferait un médecin face à un dossier patient complet. Les IA sont également évaluées sur leur capacité à recommander l'examen complémentaire le plus pertinent. Dr CaBot s'est distingué avec un taux de réussite de 98 %, mais les performances chutent nettement lorsque la question repose uniquement sur une image sans texte d'accompagnement.