Qu’est-ce que la vision par ordinateur et pourquoi est-ce important ?
Lorsqu'un humain regarde une scène ou une image, il la comprend : quels objets s'y trouvent et ce qui se passe si une action a lieu. Un ordinateur, en revanche, ne traite que des données numériques qui décrivent la valeur de couleur de chaque pixel. Pour un humain, reconnaître une pizza sur une table encombrée est sans effort. Mais jusqu'à récemment, les ordinateurs étaient incapables d'effectuer la même tâche.
La vision par ordinateur, ou CV, permet à un ordinateur de sélectionner des informations importantes à partir d'entrées visuelles et de faire des prédictions et des recommandations précises sur la base de ces informations.
Comment fonctionne la vision par ordinateur ?
Avant la vision par ordinateur, pour créer un programme qui reconnaissait une image particulière, une personne devait faire des heures de travail manuel sur les jambes. Premièrement, une base de données d'images similaires devrait être rassemblée.
Ensuite, ces images devraient être analysées, mesurées et annotées manuellement avec des données pertinentes qui, selon le chercheur, pourraient identifier l'objet en question (comme la couleur, les mesures et la forme). Ce n'est qu'alors qu'un logiciel pourrait être utilisé pour faire des prédictions.
D'autre part, la vision par ordinateur automatise l'ensemble de ce processus en utilisant une approche d'apprentissage automatique connue sous le nom d'apprentissage en profondeur. L'apprentissage en profondeur utilise un réseau de neurones multicouches avec des centaines de couches potentielles. Dans le cas des images, il s'agit généralement d'un réseau de neurones convolutifs (CNN).
Expliquer en détail le fonctionnement de l'apprentissage en profondeur et des réseaux de neurones dépasse de loin le cadre de cet article. Fondamentalement, de grandes quantités de données sont introduites dans le réseau de neurones. Le réseau de neurones analyse les données de manière répétitive jusqu'à ce qu'il puisse former des prédictions précises à leur sujet.
Dans le cas d'un CNN utilisé pour une tâche de vision par ordinateur, le réseau de neurones fait passer les données en plusieurs étapes. Tout d'abord, il réduit l'image en plusieurs morceaux (pixels individuels ou groupes de pixels préalablement balisés).
Ensuite, il fait des prédictions sur ce qui se trouve dans différentes parties de l'image (comme des bords durs ou des objets spécifiques). Il vérifie l'exactitude de ces prédictions à plusieurs reprises et modifie légèrement des parties de l'algorithme à chaque fois jusqu'à ce qu'il devienne très précis.
Les ordinateurs sont maintenant si puissants qu'ils peuvent analyser une image beaucoup plus rapidement que le cerveau humain, surtout une fois qu'ils ont appris à reconnaître certains modèles. De cette façon, il est facile de voir comment un algorithme d'apprentissage en profondeur pourrait dépasser les capacités humaines.
Quels sont les types de vision par ordinateur?
La vision par ordinateur implique l'analyse et la compréhension des images et la sortie de prédictions ou de décisions pertinentes concernant les images. La vision par ordinateur utilisera diverses tâches pour atteindre ces objectifs. Certains d'entre eux incluent :
- Classification de l'image : Le type d'image est reconnu. Par exemple, qu'il s'agisse du visage d'une personne, d'un paysage ou d'un objet. Ce type de tâche peut être utilisé pour identifier et classer rapidement des images. Une utilisation pour cela est de reconnaître et de bloquer automatiquement le contenu inapproprié sur les réseaux sociaux.
- Reconnaissance d'objets : Semblable à la classification d'images, la reconnaissance d'objets peut identifier un objet particulier dans une scène, comme une pizza sur une table encombrée.
- Détection des contours : une utilisation courante de la vision par ordinateur, et généralement la première étape de la détection d'objets, consiste à identifier les contours nets d'une image.
- Identification d'objet : il s'agit de la reconnaissance d'exemples individuels d'un objet ou d'une image, comme l'identification d'une personne en particulier, d'empreintes digitales ou d'un véhicule.
- Détection d'objets : la détection est l'identification d'un trait particulier dans une image, comme un os fracturé dans une radiographie.
- Segmentation de l'objet : Il s'agit de l'identification des pixels de l'image appartenant à l'objet en question.
- Suivi d'objet : Dans une séquence vidéo, une fois qu'un objet a été reconnu, il peut facilement être suivi tout au long de la vidéo.
- Restauration d'image : le flou, le bruit et d'autres artefacts d'image peuvent être supprimés en identifiant avec précision l'emplacement de l'objet par rapport à l'arrière-plan de l'image.
Exemples de vision par ordinateur
L'intelligence artificielle est déjà utilisée dans plusieurs industries avec un effet stupéfiant, ce qui est vrai pour la vision par ordinateur. Voici quelques exemples de CV déjà utilisés aujourd'hui.
La reconnaissance faciale
La reconnaissance faciale est l'une des principales façons dont la vision par ordinateur est utilisée aujourd'hui. Comparés aux bases de données de visages connus, les algorithmes de vision par ordinateur peuvent identifier très précisément des personnes individuelles.
- Les médias sociaux analysent les images et marquent automatiquement les utilisateurs pour lesquels ils disposent d'une bonne sélection d'images.
- Les ordinateurs portables, les téléphones et les dispositifs de sécurité peuvent identifier les personnes pour autoriser l'accès.
- Les forces de l'ordre utilisent la reconnaissance faciale dans les systèmes de vidéosurveillance pour identifier les suspects.
Médicament
La vision par ordinateur est actuellement utilisée dans les soins de santé pour fournir des diagnostics plus rapides et plus précis que les experts ne peuvent le faire. De nombreuses applications impliquent l'analyse d'images radiographiques, tomodensitométriques ou IRM pour des conditions particulières, notamment des maladies neurologiques, des tumeurs et des os cassés ou fracturés.
Voitures autonomes
Les véhicules autonomes doivent comprendre leur environnement pour conduire en toute sécurité. Cela signifie reconnaître les routes, les voies, les feux de circulation, les autres véhicules, les piétons, etc. Toutes ces tâches utilisent des systèmes de vision par ordinateur en temps réel pour éviter les collisions et conduire en toute sécurité.
La vision par ordinateur est un défi
Les applications actuelles de la vision par ordinateur commencent déjà à modifier notre façon de travailler dans diverses industries. De la détection des équipements défectueux ou cassés au diagnostic précis du cancer, la vision par ordinateur a la capacité d'améliorer les systèmes et de sauver des vies.
Mais, ce n'est pas sans défis. La vision par ordinateur est encore loin de ce qu'est la vision humaine. Nous avons des milliers d'années d'évolution qui nous permettent de reconnaître et de comprendre presque tout ce qui se passe autour de nous en temps réel. Mais, nous n'avons aucune idée de la façon dont le cerveau humain effectue ces tâches.
L'apprentissage en profondeur est un grand pas dans la bonne direction, mais il faut encore une quantité de travail incroyable pour créer un système capable d'effectuer une tâche que les humains peuvent effectuer très facilement, comme identifier une voiture sur la route. En effet, les ordinateurs effectuent très efficacement des tâches contraintes. Développer un ordinateur capable de comprendre toute la complexité du monde visuel est un jeu de balle complètement différent.
Alors que de plus en plus de recherches portent à la fois sur les applications de l'IA et la biologie humaine, nous assisterons probablement à une explosion des utilisations possibles de la vision par ordinateur dans un proche avenir.