L’IA est désormais entraînée par l’IA pour devenir une meilleure IA
OpenAI a développé un assistant d'IA , baptisé CriticGPT , pour aider ses formateurs participatifs à affiner davantage le modèle GPT-4 . Il détecte des erreurs de codage subtiles que les humains pourraient autrement manquer.
Une fois qu'un grand modèle de langage tel que GPT-4 est initialement formé, il subit ensuite un processus continu de raffinement, connu sous le nom d'apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Les formateurs humains interagissent avec le système et annotent les réponses à diverses questions, ainsi qu'évaluent diverses réponses les unes par rapport aux autres, de sorte que le système apprenne à renvoyer la réponse préférée et augmente la précision des réponses du modèle.
Le problème est qu'à mesure que les performances du système s'améliorent, celui-ci peut dépasser le niveau d'expertise de son formateur, et le processus d'identification des erreurs et des fautes devient de plus en plus difficile.
Ces formateurs en IA ne sont pas toujours des experts en la matière, remarquez. L'année dernière, OpenAI s'est fait surprendre en faisant appel à des travailleurs kenyans – et en les payant moins de 2 dollars de l'heure – pour améliorer les performances de ses modèles.
Ce problème est particulièrement difficile lors du perfectionnement des capacités de génération de code du système, et c'est là qu'intervient CriticGPT.
"Nous avons formé un modèle basé sur GPT-4, appelé CriticGPT, pour détecter les erreurs dans la sortie du code de ChatGPT", a expliqué la société dans un article de blog jeudi . "Nous avons constaté que lorsque les gens obtiennent l'aide de CriticGPT pour examiner le code ChatGPT, ils surpassent ceux sans aide dans 60 % du temps."
De plus, la société a publié un livre blanc sur le sujet, intitulé « LLM Critics Help Catch LLM Bugs », qui révèle que « les LLM détectent beaucoup plus de bogues insérés que les humains qualifiés payés pour la révision du code, et que les critiques de modèles sont préférées aux critiques humaines. plus de 80 pour cent du temps.
Fait intéressant, l’étude a également révélé que lorsque des humains collaboraient avec CriticGPT, le taux de réponses hallucinatoires de l’IA était inférieur à celui lorsque CriticGPT faisait le travail seul, mais ce taux d’hallucinations était toujours plus élevé que si un humain faisait simplement le travail par lui-même.