Les 10 annonces qui ont fait de 2024 une année charnière pour l’IA

25 décembre 2024 Hibou Gourou

Nous avons officiellement franchi le deuxième anniversaire du début du boom de l’IA, et les choses n’ont pas ralenti. Tout le contraire. L’IA générative se développe à un rythme presque écrasant, s’étendant à un rythme incessant à de nouvelles plates-formes, supports et même appareils.

Voici les 10 annonces qui ont fait de 2024 une année monumentale dans le monde de l’IA.

OpenAI publie GPT-4o

Lorsque ChatGPT (exécutant GPT-3.5 ) est arrivé pour la première fois en novembre 2022, il s'agissait essentiellement d'un jeu sophistiqué et contrôlé par ordinateur de Mad Libs. Ne vous méprenez pas, même cette capacité était révolutionnaire à l'époque, mais ce n'est qu'avec la sortie de GPT-4o en mai 2024 que les systèmes d'IA générative ont véritablement pris tout leur sens.

S'appuyant sur la capacité de son prédécesseur à analyser et générer à la fois du texte et des images, GPT-4o offre une compréhension contextuelle plus complète que GPT-4 seul. Cela se traduit par de meilleures performances dans tous les domaines, depuis le sous-titrage d'images et l'analyse visuelle jusqu'à la génération de contenu à la fois créatif et analytique comme des graphiques, des diagrammes et des images.

Le mode vocal avancé aide les ordinateurs à parler comme des humains

Application de bureau en mode vocal avancé ChatGPT — OpenAI

En septembre, OpenAI a une fois de plus montré pourquoi elle est la principale société d'intelligence artificielle en proposant son mode vocal avancé aux abonnés ChatGPT. Cette fonctionnalité éliminait le besoin pour les utilisateurs de saisir leurs questions dans une fenêtre d'invite, leur permettant plutôt de converser avec l'IA comme ils le feraient avec une autre personne.

Tirant parti des temps de réponse équivalents à ceux des humains de GPT-4o, le mode vocal avancé a fondamentalement changé la façon dont les gens peuvent interagir avec l'intelligence artificielle et a aidé les utilisateurs à libérer toute la capacité créative de l'IA.

L'IA générative arrive à la limite

Utilisation de l'intelligence visuelle sur un iPhone 16 Pro affichant la réponse ChatGPT. — L'intelligence visuelle sur iPhone s'appuie sur la caméra pour donner un sens au monde qui l'entoure. Christine Romero-Chan / Tendances numériques

Lorsque ChatGPT a fait ses débuts en 2022, c'était la seule IA en ville et disponible précisément à un seul endroit : ChatGPT.com. Oh, quelle différence deux ans font. De nos jours, vous pouvez trouver l’IA générative dans tout, des smartphones et appareils domestiques intelligents aux véhicules autonomes et gadgets de surveillance de la santé. ChatGPT, par exemple, est disponible sous forme d'application de bureau, d'API, d'application mobile et même via un numéro 800 . Microsoft, de son côté, a intégré l'IA directement dans sa gamme d' ordinateurs portables Copilot+ .

L’exemple le plus significatif est peut-être bien sûr celui d’Apple Intelligence . Ce n’est peut-être pas le lancement le plus réussi (beaucoup de fonctionnalités que nous attendons encore), mais en termes de rendre les pouvoirs de l’IA générative aussi accessibles que possible, rien n’était aussi important qu’Apple Intelligence.

Désormais, ni les PC Copilot+ ni Apple Intelligence n’ont expliqué ce que les entreprises impliquées voulaient probablement – en particulier pour Microsoft – mais comme nous le savons tous, ce n’est que le début.

La résurgence de la production nucléaire

île de trois milles — Énergie des Constellations

Avant cette année, l’énergie nucléaire était considérée comme une proposition perdante aux États-Unis. Considéré comme peu fiable et dangereux, en grande partie à cause de l'incident de Three Mile Island en 1979, au cours duquel l'un des principaux réacteurs de la centrale a partiellement fondu et a rejeté des matières radioactives toxiques dans l'atmosphère. Cependant, avec l’augmentation rapide de la quantité d’énergie électrique requise par les grands modèles linguistiques modernes – et la pression massive qu’ils exercent sur les réseaux électriques régionaux – de nombreuses grandes entreprises d’IA envisagent de plus près la possibilité de faire fonctionner leurs centres de données en utilisant la puissance de l’atome.

Amazon, par exemple, a acheté un centre de données d'IA à énergie nucléaire à Talen en mars, puis a signé un accord pour acquérir des petits réacteurs modulaires (SMR) miniaturisés et autonomes auprès d'Energy Northwest en octobre. Microsoft, pour ne pas être en reste, a racheté la capacité de production de Three Mile Island elle-même et travaille actuellement à la remise en service du Reactor One et à la production d'électricité.

Les agents sont sur le point de devenir la prochaine grande nouveauté de l’IA générative

lunettes et chatgpt — Matheus Bertelli / Pexels

Il s'avère que vous ne pouvez consacrer qu'une quantité limitée de données de formation, d'énergie et d'eau à la tâche de développement de votre grand modèle de langage jusqu'à ce que vous rencontriez le problème des rendements décroissants. L’industrie de l’IA en a fait l’expérience directe en 2024 et, en réponse, a commencé à s’éloigner des LLM massifs qui définissaient à l’origine l’expérience de l’IA générative en faveur des agents ; des modèles plus petits et plus réactifs, conçus pour effectuer des tâches spécifiques, plutôt que d'essayer de faire tout ce qu'un utilisateur pourrait lui demander.

Anthropic a lancé son agent, baptisé Computer Use , en octobre. Microsoft a emboîté le pas avec Copilot Actions en novembre, tandis qu'OpenAI serait sur le point de publier sa fonctionnalité d'agent en janvier .

L’essor des modèles de raisonnement

OpenAI

La plupart des grands modèles de langage actuels visent davantage à générer des réponses le plus rapidement possible, souvent au détriment de l'exactitude et de l'exactitude. Le modèle de raisonnement o1 d'OpenAI, que la société a publié en avant-première en septembre et en tant que modèle entièrement fonctionnel en décembre, adopte l'approche inverse : il sacrifie la vitesse de réponse pour vérifier en interne la justification d'une réponse donnée, garantissant ainsi qu'elle est aussi précise et complète. que possible.

Bien que cette technologie n'ait pas encore été pleinement adoptée par le public (o1 n'est actuellement disponible que pour les abonnés des niveaux Plus et Pro), les principales sociétés d'IA vont de l'avant avec leurs propres versions. Google a annoncé sa réponse à o1, baptisée Gemini 2.0 Flash Thinking Experimental , le 19 décembre, tandis qu'OpenAI a révélé qu'il travaillait déjà sur le successeur de o1, qu'il appelle o3 , lors de son événement de diffusion en direct des 12 jours d'OpenAI le 20 décembre.

La recherche basée sur l'IA se propage sur Internet

Application Perplexity AI fonctionnant sur un iPhone 14 Pro. — Joe Maring / Tendances numériques

L’IA générative est apparemment partout de nos jours, alors pourquoi ne serait-elle pas intégrée dans l’une des fonctionnalités les plus basiques d’Internet ? Google joue avec cette technologie depuis deux ans, lançant pour la première fois Search Generative Experience en mai 2023 avant de déployer sa fonctionnalité AI Overview en mai dernier.AI Overview génère un résumé des informations demandées par un utilisateur en haut de sa page de résultats de recherche.

Perplexity AI va encore plus loin dans cette technique. Son « moteur de réponse » parcourt Internet à la recherche des informations demandées par les utilisateurs, puis synthétise ces données en une réponse cohérente, conversationnelle (et citée), éliminant ainsi le besoin de cliquer sur une liste de liens. OpenAI, toujours innovateur, a développé un système presque identique pour son chatbot, baptisé ChatGPT Search , qu'il a lancé en octobre.

Anthropic's Artifact lance une révolution collaborative

Anthropique

Essayer de générer, d'analyser et de modifier des fichiers volumineux (qu'il s'agisse d'essais créatifs de longue durée ou d'extraits de code informatique) directement dans le flux de discussion peut s'avérer écrasant, vous obligeant à faire défiler sans cesse d'avant en arrière pour afficher l'intégralité du document.

La fonctionnalité Artifacts d'Anthropic , qui a fait ses débuts en juin, contribue à atténuer ce problème en fournissant aux utilisateurs une fenêtre d'aperçu distincte dans laquelle ils peuvent afficher le texte créé par l'IA en dehors de la conversation principale. La fonctionnalité s’est avérée être un tel succès qu’OpenAI a rapidement emboîté le pas avec sa propre version.

Ses derniers modèles et fonctionnalités ont fait d’Anthropic un formidable adversaire d’OpenAI et de Google cette année, ce qui à lui seul semble important.

Les générateurs d'images et de vidéos découvrent enfin les doigts

Utilisez Camera Control pour diriger chaque prise de vue avec intention.
Apprenez comment avec la Runway Academy d'aujourd'hui. pic.twitter.com/vCGMkkhKds
— Piste (@runwayml) 2 novembre 2024

Autrefois, repérer une image ou une vidéo générée par l'IA était aussi simple que de compter le nombre d'appendices montrés par le sujet – plus de deux bras, deux jambes et 10 doigts étaient évidemment générés, comme le démontraient les images de type Cronenberg de Stable Diffusion 3 dans Juin. Pourtant, alors que 2024 touche à sa fin, il est devenu beaucoup plus difficile de faire la différence entre le contenu créé par l’homme et celui créé par la machine, car les générateurs d’images et de vidéos ont rapidement amélioré à la fois la qualité et la précision physiologique de leurs sorties.

Les systèmes vidéo IA comme Kling , Gen 3 Alpha et Movie Gen sont désormais capables de générer des clips photoréalistes avec une distorsion minimale et un contrôle de caméra à grain fin, tandis que des systèmes comme Midjourney , Dall-E 3 et Imagen 3 peuvent créer des images fixes avec un degré surprenant de réalisme (et artefacts hallucinés minimes) dans une myriade de styles artistiques.

Oh oui, et Sora d'OpenAI a finalement fait ses débuts dans le cadre de ses annonces de décembre . La bataille pour les modèles vidéo générés par l’IA s’intensifie et ils sont devenus incroyablement impressionnants en 2024.

L'effort de 10 milliards de dollars d'Elon Musk pour créer le plus grand pôle de formation en IA au monde

Elon Musk au Tesla Cyber Rodéo. — Tendances numériques

xAI a lancé Grok 2.0 cette année, le dernier modèle intégré à X. Mais la plus grande nouvelle concernant le projet d'IA d'Elon Musk concerne la direction qu'il prendra dans le futur. En 2024, Elon Musk a entrepris de construire le « plus grand supercalculateur du monde » juste à l'extérieur de Memphis, dans le Tennessee, qui a été mis en service à 4 h 20 le 22 juillet. Piloté par 100 000 GPU Nvidia H100, le supercluster est chargé de former de nouvelles versions des xAI. Le modèle d'IA générative Grok , qui, selon Musk, deviendra « l'IA la plus puissante au monde ».

Musk devrait dépenser environ 10 milliards de dollars en coûts d’investissement et d’inférence rien qu’en 2024, mais il s’efforcerait de doubler le nombre de GPU alimentant le supercalculateur au cours de la nouvelle année.