Sélectionner une page

Qu’est ce que sont les technologies de reconnaissance visuelle ?

Si vous avez l’impression qu’un nouveau terme technologique mystérieux surgit tous les jours juste pour vous embrouiller et vous embrouiller, vous êtes en bonne compagnie. Nous sommes entrés dans une ère où la technologie et la culture sont si imbriquées et changent si rapidement qu’il semble impossible de les suivre. Et l’une des catégories les plus rapides, les plus influentes et les plus intrigantes est la reconnaissance d’images.

La reconnaissance des images devrait atteindre 29 milliards de dollars américains d’ici 2020.
Sous-ensemble de l’intelligence artificielle (IA), la reconnaissance d’images est déjà largement utilisée dans un large éventail d’environnements, de la haute technologie à la vie quotidienne. Mais il continuera à devenir un acteur encore plus important dans les années à venir – le marché mondial de la reconnaissance d’images devrait atteindre 29 milliards de dollars d’ici 2020 – à mesure que notre monde deviendra de plus en plus intelligent et connecté. Voici un aperçu de ce qui entre dans la reconnaissance d’images, comment nous l’utilisons et à quoi nous devons nous attendre dans un avenir proche.

QUE SIGNIFIE LA RECONNAISSANCE D’IMAGES ?
Que signifie la reconnaissance d’images ?
Il existe un certain nombre de types différents d’intelligence artificielle, et l’une des principales technologie de l’IA s’appelle la vision par ordinateur. Elle fait référence à la capacité des ordinateurs d’acquérir, de traiter et d’analyser des données provenant principalement de sources visuelles – la capacité de suivre ou de prédire les mouvements, par exemple – mais peut également inclure des données provenant de capteurs de chaleur et d’autres sources similaires.

Vous pourriez appeler la reconnaissance d’images un sous-ensemble de la vision par ordinateur, en ce sens qu’elle fait référence à la capacité d’un ordinateur à « voir », à déchiffrer et à comprendre les informations qui lui sont fournies à partir d’une image, que ce soit une image fixe, vidéo, graphique, ou même en direct. Ce n’est pas une mince affaire. Si vous vous êtes déjà gratté la tête devant une correction orthographique ou grammaticale bizarre suggérée par Google, Word our Cortana, vous avez alors une idée de la difficulté qu’ont les ordinateurs à comprendre les règles du langage écrit, même si elles sont prévisibles et cohérentes. Cela devient encore plus compliqué lorsque les ordinateurs s’attaquent au visuel.

Considérez qu’une photo, une image ou une vidéo est infiniment plus complexe et ouverte que les mots qui composent une phrase. Pensez à un nouveau-né ébloui par la lumière et la couleur, et vous commencez à toucher l’expérience d’un ordinateur qui n’a pas de façon prédéfinie de comprendre ce que sont toutes les différentes données dans une image. En fait, pour un ordinateur, une photo n’est rien d’autre qu’un ensemble de minuscules points colorés disposés en motifs (ce que nous appelons pixels, pour être plus précis). Pour comprendre ce que ces points signifient, l’ordinateur doit d’abord comprendre que les motifs forment ce qu’on appelle des objets, et que les objets existent dans l’espace et ont des dimensions, et sur un dessus. C’est une courbe d’apprentissage assez raide. (En fait, en tant qu’humains, nous utilisons environ la moitié de notre cerveau pour traiter l’information visuelle !

COMMENT ENSEIGNE-T-ON À VOIR À L’ORDINATEUR ?
Pour apprendre aux ordinateurs à traiter les données visuelles, vous devez leur apprendre à reconnaître les modèles. Dans les premiers temps de l’informatique, les chercheurs ont créé un certain nombre de moyens pour détecter les chiffres et les lettres, la reconnaissance optique des caractères, c’est-à-dire la technologie qui permet de numériser les livres et les papiers et de convertir les caractères en texte utilisable dans un ordinateur, mais aussi pour que le smartphone d’aujourd’hui fasse la même chose avec une photo.

D’autres types de programmation complexes apparus au cours des cinquante dernières années ont permis aux ordinateurs d’apprendre que certains motifs de pixels définissaient en fait les bords d’un objet, qu’il existait des dimensions (en fait, quelques-unes !) et que des taches de couleur pouvaient en fait appartenir au même objet. Ce processus de raffinement a été suralimenté au cours de la dernière décennie grâce à des ordinateurs extrêmement rapides mais bon marché, des processeurs graphiques puissants et Internet, entre autres technologies. Par exemple, grâce à diverses techniques appelées « apprentissage machine », les ordinateurs, ou plutôt des grappes géantes d’ordinateurs reliés entre eux, peuvent maintenant être alimentés avec des milliers et des milliers d’images, voire des millions, et en quelques minutes ou quelques heures, ils peuvent traiter les images, trouver des motifs, comparer les différents motifs entre eux et en faire une analyse significative – cela devient vite complexe, mais un exemple idiot pourrait être de trouver toutes les images où des gens tiennent un chat sur un bateau.

 

Share This