Ideal MindVLA veut redéfinir la conduite autonome et équiper chaque voiture d’un « conducteur dédié »

Nous espérons que MindVLA pourra donner aux véhicules autonomes des capacités cognitives et adaptatives semblables à celles des humains, les transformant en agents intelligents capables de penser. Tout comme l’iPhone a redéfini les téléphones mobiles, MindVLA redéfinira également la conduite autonome.

Il y a eu une quantité écrasante de nouvelles voitures et de nouvelles technologies en mars, les différents constructeurs automobiles se poursuivant, donnant le vertige et donnant même l'illusion que les nouveaux produits étaient à la traîne dès leur sortie.

Non, tout récemment, Ideal a partagé les dernières avancées de sa technologie MindVLA lors du NVDIA GTC 2025, affirmant qu'elle "redéfinira la conduite autonome, tout comme l'iPhone 4 a redéfini les téléphones mobiles".

Mis à part les principes techniques complexes et les méthodes de mise en œuvre, la plus grande valeur de la technologie Ideal MindVLA est qu'elle élève l'expérience utilisateur du véhicule à un tout autre niveau.

Lors de la réunion de partage, Ideal a résumé les capacités du nouveau système de conduite intelligente en une phrase : ce nouveau système de conduite intelligente deviendra le conducteur à plein temps de chacun.

Que peut faire ce pilote dédié ? J'ai pensé aux scénarios suivants : venir me chercher au garage le matin à ma porte, m'évitant de descendre au sous-sol pour récupérer la voiture ; me déposer à la porte de l'entreprise, puis trouver automatiquement une place de parking et la garer, sans que j'aie à chercher une place de parking lorsque je veux me rendre dans un centre commercial ou un café, trouver automatiquement une destination appropriée sans avoir à sélectionner manuellement la navigation ; Le plus important est qu’il puisse localiser ma position et venir me chercher automatiquement.

Ideal résume ces scènes en trois mots : « compréhensible », « visible » et « trouvable ».

« Compréhensible » signifie que les utilisateurs peuvent modifier l'itinéraire et le comportement du véhicule grâce à des commandes vocales. Cela étend non seulement l'interaction vocale de la voiture et de la machine depuis les fonctions de l'habitacle telles que la climatisation et les sièges jusqu'à des opérations de conduite spécifiques, mais permet également à l'utilisateur de devenir copilote et peut « apprendre » à la voiture et à la machine à tourner à gauche, à droite ou à accélérer.

« Visible » signifie que MindVLA possède d'excellentes connaissances générales et peut reconnaître les enseignes des magasins environnants et les emplacements emblématiques. Un exemple idéal : lorsqu'un utilisateur ne parvient pas à trouver un véhicule dans un endroit inconnu, il lui suffit de prendre une photo de l'environnement environnant et de l'envoyer au véhicule. Le véhicule équipé de MindVLA peut identifier l'emplacement sur la photo et retrouver automatiquement l'utilisateur.

"Find" est principalement utilisé dans les scénarios de stationnement et d'itinérance dans les parcs. L'exemple le plus typique est celui de la recherche d'une place de stationnement en sous-sol. Il suffit à l'utilisateur de dire au véhicule : « Trouvez une place de stationnement et garez-la. » Le véhicule recherchera automatiquement les places de stationnement disponibles, et l'ensemble du processus n'a pas besoin de s'appuyer sur des cartes ou des informations de navigation.

Le « conducteur à temps plein » semble bien fonctionner sur les campus et dans les sous-sols, alors comment Ideal s'assure-t-il qu'il est également performant sur la voie publique ?

Comme nous le savons tous, la situation routière nationale est très complexe. Outre les véhicules électriques qui courent partout et le jeu à haute intensité entre les personnes et les véhicules, elle présente également les caractéristiques suivantes.

L’une d’entre elles est l’utilisation généralisée des couloirs de bus. Ces voies sont balisées et utilisées de diverses manières, notamment par des panneaux textuels au sol, des panneaux aériens et des panneaux routiers. Différentes zones utilisent différentes formes de texte pour expliquer les délais, et il y a souvent de nouvelles voies de bus ou des panneaux flous en raison de travaux de construction.

Le deuxième concerne les voies à ajustement dynamique et les voies de marée qui sont apparues dans les grandes villes ces dernières années, ainsi que les zones d'attente et les zones d'attente aménagées pour utiliser pleinement l'espace des intersections. Le calendrier d'utilisation de ces zones est contrôlé par divers feux de signalisation ou panneaux de texte LED, et l'équipement peut faire face à de nouveaux ajouts, pannes ou maintenance chaque jour.

Par conséquent, en Chine, les systèmes de conduite autonome doivent non seulement gérer des interactions complexes entre l’homme et le véhicule, mais doivent également disposer de capacités de compréhension de texte, de bon sens et de solides capacités de raisonnement logique.

Le FSD récemment lancé par Tesla a été critiqué pour ses mauvaises performances dans ces scénarios.

Pour relever ces défis, Ideal a adopté un cadre à double système comme solution.

En termes simples, le modèle idéal est divisé en deux systèmes : la pensée rapide (système 1) et la pensée lente (système 2). L'extrémité du véhicule met en œuvre un système rapide via le modèle de bout en bout. Il s'agit d'un modèle unique qui convertit directement les entrées des capteurs en sorties de trajectoire de conduite, similaires aux réactions intuitives humaines. Le système répond à divers scénarios en imitant le comportement de conduite humain et est entièrement basé sur les données. Il ne nécessite pas de règles définies par l'homme et ne s'appuie sur aucune carte ou information préalable de haute précision. Il a une efficacité de formation et d’exécution extrêmement élevée.

Le système lent s'appuie sur un grand modèle de langage visuel (VLM) à l'échelle de paramètres 2,2B. Dans les scénarios qui nécessitent une compréhension du texte, un jugement de bon sens et un raisonnement logique, VLM effectue une analyse approfondie via la chaîne de pensée (COT), prend des décisions déterminantes et guide l'exécution rapide du système. Le modèle de bout en bout (Système 1) et le modèle VLM (Système 2) fonctionnent chacun sur une puce OrinX.

Bref, grâce à une telle architecture technique, la voiture idéale équipée de la fonction MindVLA n'est plus seulement un outil de conduite, mais un agent intelligent capable de communiquer avec l'utilisateur et de comprendre ses intentions.

Les solutions de conduite intelligente générative intelligentes ou personnalisées sont devenues le consensus de divers constructeurs et fournisseurs automobiles sur la future voie technologique. Hier, Jikrypton et Zhuoyu ont également mentionné un contenu pertinent lors de leurs conférences technologiques respectives.

Puisqu’il n’existe actuellement sur le marché aucun véhicule équipé de ce type de système, nous ne sommes pas en mesure d’évaluer son efficacité réelle. Toutefois, selon le calendrier de chaque entreprise, ces systèmes devraient être produits en série au cours de cette année. À ce moment-là, Dongche procédera dès que possible à une expérience de test réelle pour tout le monde.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo