D’autres viennent de commencer « de bout en bout », mais Ideal Smart Driving a encore réitéré.
La technologie de conduite autonome s’est développée au fil des années. Quel est le plus grand changement ?
La veille de la rédaction de cet article, deux amis de l'industrie automobile sont venus à Aifaner et se sont assis avec nous pour discuter. Nous avons parlé de beaucoup de choses, de la promotion de produits aux anecdotes de l'industrie, et la conduite autonome, en tant que branche de discussion brûlante dans l'industrie, est naturellement devenue l'un des axes de notre discussion.
Si l’on regarde le développement de la conduite autonome au fil des années, on constate en réalité de nombreux changements, notamment des itérations de capteurs, des améliorations de la puissance de calcul côté véhicule et la transition de cartes de haute précision vers des réseaux occupés, etc. Mais parmi ces changements, la avancée la plus marquante est l’ajout de grands modèles.
Les grands modèles rendent l’application de la technologie de conduite autonome à portée de main.
Le 23 octobre, la solution de conduite intelligente à double système de nouvelle génération de Li Auto « de bout en bout + VLM » a officiellement commencé à être lancée en grand volume. La conduite intelligente de Li Auto est depuis entrée dans l'ère des grands modèles d'IA.
Pensez comme un humain et conduisez comme un humain. Les voitures idéales d’aujourd’hui réalisent cette vision.
Après avoir enfin compris de bout en bout, qu’est-ce que VLM ?
Qu’est-ce que c’est exactement de bout en bout ? De quelle « fin » à quelle « fin » ? Sans parler des consommateurs ordinaires, même de nombreux professionnels des médias ne l'ont pas compris.
De nombreux constructeurs l'ont expliqué, et l'explication la plus compréhensible est Li Auto :
À une extrémité se trouvent des capteurs : caméras, lidar et autres capteurs. Ils sont comme des yeux humains, chargés de saisir les informations environnementales. De plus, il existe des informations d'entrée spécialement conçues, telles que la position, la posture et les informations de navigation du véhicule.
L'autre extrémité est la trajectoire de conduite : après avoir reçu les informations du capteur, le système affichera « obstacles dynamiques », « structure routière », « réseau d'occupation Occ » et « trajectoire planifiée ». Les trois premières tâches de perception sont principalement présentées à l'utilisateur via l'écran, et la quatrième « trajectoire de conduite » est ce que nous devons finalement cartographier à partir du capteur.
▲Schéma d'architecture de bout en bout idéal pour la conduite intelligente
Il n'est pas difficile de constater que le processus depuis le capteur recevant des informations jusqu'au système produisant la trajectoire de conduite est très similaire à la conduite nous-mêmes – nos yeux sont responsables de la réception des informations, et nos mains piloteront naturellement le volant pour amener le véhicule. à la bonne trajectoire.
Oui, en s'appuyant sur le modèle de bout en bout, le système de conduite intelligent de nouvelle génération idéal peut conduire comme un humain.
Depuis toujours, les équipementiers et les entreprises de conduite autonome n'ont cessé de promouvoir le caractère humain et « conducteurs expérimentés » de leurs systèmes de conduite intelligente. Cependant, certaines scènes auxquelles les « conducteurs vétérans » sont habitués ont longtemps été difficiles à résoudre dans l'industrie.
La scène la plus typique est celle du rond-point. Parce que la scène est complexe et que la perception est limitée, avant juillet de cette année, peu de constructeurs automobiles étaient capables d'entrer et de sortir du rond-point comme un « vieux conducteur ».
Jia Peng, responsable de la recherche et du développement de la technologie de conduite intelligente idéale, a déclaré un jour à Ai Faner et Dong Chehui que pour la solution de conduite intelligente segmentée qui sépare la perception et le contrôle, dans le scénario du rond-point, le modèle de perception doit faire « diverses choses » pour le modèle de contrôle. Toutes sortes d’hypothèses.
Pour faire demi-tour, vous devez adapter la ligne de demi-tour. Les demi-tours aux différentes intersections ne sont pas les mêmes et les courbures sont différentes, il est donc difficile de faire tous les demi-tours aux ronds-points avec un seul jeu de demi-tours. code. Il y a trop de types.
La solution intégrée de bout en bout est différente : elle a une plus grande capacité à comprendre les structures routières complexes. Elle peut utiliser les données des conducteurs humains pour former différents types de ronds-points et trajectoires d'entrée et de sortie pour différentes entrées et sorties, et sélectionner indépendamment les itinéraires de déplacement appropriés. .
De cette manière, la topologie routière d'origine et les règles définies manuellement ne sont plus nécessaires.
Concernant la question du tour de l'île, Jia Peng a également partagé une « histoire amusante ».
Quand notre (données du modèle contenait) environ 800 000 clips (clips vidéo), il ne pouvait pas traverser le rond-point. Puis un jour, nous avons soudainement découvert que nous avions (alimenté) 1 million de clips (après), il pouvait traverser le rond-point tout seul, je pense. il était 100 Wan (clip vidéo) et il se trouve qu'il contient des données de détour.
"Le modèle est en effet très puissant", a ajouté Jia Peng, "il peut apprendre toutes les données que vous lui fournissez. C'est le charme du modèle."
La version complète lancée aujourd'hui par Ideal est basée sur le modèle V4.8.6, qui est la 16ème version itérée sur la base de 4 millions de clips. Par rapport au passé, la capacité du nouveau modèle à comprendre les scénarios de dépassement et les informations de navigation a été améliorée. Dans le même temps, la détection des obstacles est plus précise et la plage de détour est plus raisonnable.
Par conséquent, non seulement les ronds-points, mais aussi les scènes complexes traditionnelles telles que les demi-tours, l'exploration et les jeux dans les embouteillages et les intersections, le système de conduite intelligent « de bout en bout + VLM » d'aujourd'hui peut le gérer de manière autonome et prend même en charge P Activation du fichier——
Lors d'un stationnement en bord de route, l'utilisateur double-clique sur le levier pour activer le système de conduite intelligente. Il n'est plus nécessaire de l'activer dans la voie comme auparavant.
Après avoir présenté les fonctionnalités du modèle de bout en bout, l’étape suivante est le modèle VLM.
Le modèle VLM est un modèle de langage visuel. Ideal est le premier constructeur à déployer avec succès un modèle de langage visuel dans des puces côté voiture, donnant à la conduite autonome la capacité de penser logiquement dans des scénarios inconnus.
Autrement dit, il peut penser comme un humain.
Par exemple, un modèle de bout en bout capable de générer des trajectoires de conduite est tout à fait capable de passer par les postes de péage. Cependant, lorsqu'il fait face au poste de péage, il ne sait pas quelle voie il doit emprunter, et au final il ne peut que le faire. choisissez-en un au hasard.
Le modèle VLM peut comprendre l'environnement de trafic complexe et la sémantique chinoise du monde physique comme les humains, peut clairement distinguer les voies ETC et les voies artificielles, et aider le modèle de bout en bout à prendre les bonnes décisions.
Il existe en fait de nombreux scénarios similaires, tels que l'identification des voies de bus et des voies de marée, l'identification des panneaux routiers tels que les sections scolaires, l'entrée et la sortie des routes principales et auxiliaires, etc. De plus, lorsqu'il rencontre des scènes de construction, des nids-de-poule et même des dos d'âne, le modèle VLM peut également bien le comprendre, donner des rappels et ralentir.
Jusqu'à présent, le modèle de langage visuel VLM de Li Auto comporte 2,2 milliards de paramètres et offre une compréhension plus humaine de l'environnement de trafic complexe dans le monde physique.
De plus, dans la version OTA 6.4, la fonction NOA à grande vitesse a également été optimisée dans les scénarios à grande vitesse et sur autoroutes urbaines, le système peut identifier plus tôt les véhicules lents qui précèdent, rendant les actions de dépassement plus efficaces et plus sûres.
Dans l'ensemble, avec l'aide du double système de bout en bout + VLM, l'OTA 6.4 orienté utilisateur a atteint un nouveau niveau d'anthropomorphisme.
Idéal "rapide" et "lent"
Du point de vue de l'architecture technique, Li Auto a subi trois ajustements majeurs au cours des deux dernières années.
Des réseaux NPN qui nécessitent des informations a priori, aux NOA sans graphique basés sur les réseaux BEV et d'occupation, en passant par la route technologique intégrée de bout en bout d'aujourd'hui.
L'architecture NPN de première génération était relativement complexe, comprenant la perception, le positionnement, la planification, la navigation, le NPN et d'autres modules, qui, ensemble, soutenaient la poussée NOA urbaine de Li Auto dans 100 villes à cette époque.
Dans la deuxième génération de NOA sans mappage, Li Auto introduit un grand modèle de bout en bout, et le nombre de modules est considérablement réduit. Il ne reste que la perception et la planification, et il n'est pas nécessaire d'attendre la mise à jour des informations a priori. .
Cette étape idéale permettra aux constructeurs automobiles de ne plus limiter leurs « volumes » au nombre ennuyeux de villes ouvertes, et de véritablement permettre la conduite avec navigation.
En mai de cette année, Li Auto a recruté 1 000 utilisateurs et a officiellement lancé la version bêta publique de NOA, également connue sous le nom d'AD Max 3.0. Les commentaires des utilisateurs à l'époque dépassaient de loin les attentes de Li Auto. Deux mois plus tard, Li Auto a lancé cette mise à niveau auprès de plus de 240 000 utilisateurs de Li Auto AD Max.
Cependant, à l'heure actuelle, le bout en bout est encore un bout en bout segmenté. La solution de conduite intelligente de troisième génération est véritablement une solution intégrée de bout en bout – de l'entrée à la sortie, tout est mis en œuvre par un seul modèle. , sans aucune règle impliquée.
Dans le passé, qu'il s'agisse d'une solution basée sur des cartes ou d'une solution sans carte, on comptait sur les ingénieurs pour rédiger des règles basées sur divers scénarios routiers, en essayant de couvrir de manière exhaustive toutes les conditions routières et les solutions correspondantes, de sorte que la portée de la conduite intelligente pourrait être le plus large possible.
De manière générale, les fabricants divisent grossièrement les scènes en trois types : les scènes à grande vitesse, les scènes urbaines et les scènes de stationnement. Ces scénarios majeurs peuvent être subdivisés et les ingénieurs réglementaires doivent écrire du code pour ces scénarios.
Mais face à la complexité du monde réel, cette approche n’est évidemment pas assez réaliste. Le système de bout en bout intégré peut apprendre le processus de conduite humaine et générer directement la trajectoire de conduite après avoir reçu les informations du capteur.
Avez-vous remarqué qu'à l'heure actuelle, le facteur le plus important dans l'amélioration des capacités de conduite intelligente est passé des ingénieurs aux données. Et idéalement, la chose la plus indispensable, ce sont les données.
Le 14 octobre, Li Auto a inauguré la sortie du millionième véhicule de la chaîne de production de sa base de Changzhou, dans la province du Jiangsu, marquant ainsi la naissance du premier constructeur automobile chinois doté d'un million d'unités. Selon les données publiées par Li Auto, la proportion d'utilisateurs d'AD Max parmi les modèles Li Auto d'un prix supérieur à 300 000 yuans atteint 70 %——
Chaque mois, ces véhicules peuvent fournir à Ideal plus d'un milliard de kilomètres de données d'entraînement.
De plus, Ideal est conscient de l'importance des données depuis longtemps et a construit des fonctionnalités de base telles que des chaînes d'outils pour les données. Par exemple, la base de données backend d'Ideal a mis en œuvre une recherche de paragraphe pour trouver la phrase « Piétons passant avec des parapluies à proximité ». la ligne d'arrêt au feu rouge un jour de pluie. ", vous pouvez trouver les données correspondantes.
C'est précisément en s'appuyant sur les énormes données de formation et la chaîne de contrôle parfaite qu'Ideal Smart Driving a réussi à « rattraper son retard » dans l'industrie, en utilisant de bout en bout et VLM pour former son propre « rapide » et « lent ».
Idéalement, cette solution de conduite intelligente à double système est similaire à la théorie des systèmes rapides et lents du prix Nobel Daniel Kahneman dans « Thinking, Fast and Slow » :
Le système humain rapide s'appuie sur l'intuition et l'instinct pour maintenir une efficacité élevée dans 95 % des scénarios ; le système humain lent s'appuie sur une analyse et une réflexion conscientes, introduisant une limite supérieure élevée de 5 % des scénarios.
Parmi eux, de bout en bout est le « système rapide », et VLM est naturellement le « système lent ».
Lang Xianpeng estime que le fait qu'un système de conduite autonome soit L3 ou L4 ne dépend pas de bout en bout. Le modèle VLM est la clé pour véritablement faire face à des scénarios inconnus et augmenter la limite supérieure des capacités.
"Camarade de classe idéal, je veux aller ici."
En plus des améliorations en matière de conduite intelligente, OTA 6.4 apporte également des innovations en matière d'interaction avec l'utilisateur.
Il est également divisé en deux parties : « rapide » et « lente ».
En tant que « système rapide », le modèle de bout en bout correspond généralement à une fenêtre contextuelle de texte, qui fournit au conducteur une logique d'exécution en temps réel et des actions telles que la navigation, les règles de circulation, l'efficacité et les jeux.
Pour le modèle de langage visuel VLM « système lent », Ideal a préparé une nouvelle fenêtre graphique. Dans des scénarios spéciaux, l'image perçue devant est projetée sur la page, et le processus de réflexion et les résultats du modèle sont expliqués en conjonction avec la rédaction.
Grâce à la coopération de fenêtres contextuelles de texte et de fenêtres graphiques, le conducteur peut savoir à l'avance quelles que soient les actions de contrôle du véhicule effectuées par le système. Pour les consommateurs qui découvrent la conduite intelligente pour la première fois, cet affichage d’informations intuitif contribue également à établir rapidement leur confiance dans le système de conduite intelligente.
Je dois admettre que la compréhension par Li Auto des besoins des utilisateurs est en effet très précise.
Dans notre imagination du futur, conduite intelligente et cabines intelligentes sont toujours liées. Dans la version OTA 6.4, Ideal a également apporté de nombreuses améliorations à son espace intelligent.
Tout d'abord, le nouveau Task Master 2.0 intègre pleinement les capacités d'Ideal Classmates et de Mind GPT. Avec la prise en charge de grands modèles, les performances de Task Master sont plus intelligentes.
Les camarades de classe idéaux pris en charge par Mind GPT peuvent non seulement jouer un rôle dans les deux scénarios d'excursions en famille le week-end et répondre aux petites questions quotidiennes. En combinaison avec la carte de navigation de la version Amap AutoSDK 750 récemment mise à niveau, les camarades de classe idéaux peuvent utiliser la méthode « tactile + voix ». , permettant aux conducteurs de rechercher rapidement des destinations.
Par exemple, pointez un certain emplacement sur la carte et laissez-le vous aider à rechercher des bornes de recharge de n'importe quelle marque sur la station de recharge, et vous pouvez même spécifier la puissance.
En bref, le nouvel Ideal Classmate vous évite complètement de devoir décrocher votre téléphone. Vous pouvez facilement définir le chemin de navigation de la manière la plus naturelle et la plus intuitive.
S'occupant de la conduite de bout en bout, VLM réfléchit à votre place et vous indiquez simplement la voie.
# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo