Le nouvel outil d’IA jugé « trop dangereux » pour être publié
En 2019, OpenAI a refusé de publier l’intégralité de ses recherches sur le développement de GPT2, craignant qu’elles soient « trop dangereuses » pour être rendues publiques. Jeudi, le plus grand bailleur de fonds d'OpenAI, Microsoft, a fait une déclaration similaire à propos de son nouveau synthétiseur vocal VALL-E 2 AI .
Le système VALL-E 2 est une IA de synthèse texte-parole (TTS) sans tir, ce qui signifie qu'il peut recréer une parole hyperréaliste basée sur seulement quelques secondes d'échantillons audio. Selon l'équipe de recherche, VALL-E 2 « surpasse les systèmes précédents en termes de robustesse de la parole, de naturel et de similarité des locuteurs. C’est le premier du genre à atteindre la parité humaine sur ces critères.
Le système serait même capable de traiter des phrases difficiles à prononcer en raison de leur complexité structurelle ou de leur formulation répétitive, comme les virelangues.
Il existe une multitude d'utilisations bénéfiques potentielles pour un tel système, comme permettre aux personnes souffrant d' aphasie ou de sclérose latérale amyotrophique (communément appelée SLA ou maladie de Lou Gehrig) de parler à nouveau, même via un ordinateur, ainsi que son utilisation dans l'éducation, le divertissement. , le journalisme, les chatbots et la traduction, ou comme fonctionnalités d'accessibilité et « systèmes de réponse vocale interactifs », comme Siri. Cependant, l’équipe reconnaît également de nombreuses opportunités pour le public d’utiliser sa technologie à mauvais escient, « comme l’usurpation de l’identification vocale ou l’usurpation d’identité d’un locuteur spécifique ».
En tant que telle, l’IA ne sera disponible qu’à des fins de recherche. "Actuellement, nous n'avons pas l'intention d'incorporer VALL-E 2 dans un produit ou d'élargir l'accès au public", a écrit l'équipe. " Si vous soupçonnez que VALL-E 2 est utilisé d'une manière abusive ou illégale ou porte atteinte à vos droits ou à ceux d'autrui, vous pouvez le signaler sur le portail de signalement d'abus. "
Microsoft n'est pas le seul à s'efforcer d'entraîner les ordinateurs à parler comme les humains. Chirp de Google, Iconic Voices d'ElevenLabs et Voicebox de Meta visent tous à remplir des fonctions similaires.
Cependant, ces systèmes ont fait l’objet d’un examen éthique car ils ont été utilisés à plusieurs reprises pour arnaquer des victimes sans méfiance en imitant la voix d’un proche ou d’une célébrité bien connue . Et contrairement aux images générées, il n’existe actuellement aucun moyen de « filigraner » efficacement l’audio généré par l’IA.