Ce que mijote Tesla pour égaler les yeux d’un automobiliste (et se passer des autres sens)
Adieu les radars, Tesla compte s’appuyer sur la seule vision par ordinateur pour faire évoluer ses futures voitures entièrement autonomes. Pour y parvenir, le fabricant a développé un gigantesque jeu de données d'entraînement, un énorme réseau neuronal et un superordinateur, comptant parmi les plus puissants du monde
Tesla poursuit sa quête de la voiture autonome et d’un système capable de remplacer avantageusement des conducteurs ayant un temps de réponse médiocre, obligés de tourner la tête et de regarder dans le rétroviseur, et sans cesse distraits par leur smartphone, dixit Andrej Karpathy, Directeur IA chez Tesla. «Je pense que nous sommes tous d’accord, il doit être possible de remplacer un ordinateur charnel par un ordinateur de silicium», ajoutait le responsable il y a quelques jours lors d’une conférence sur la vision par ordinateur.
Pour y parvenir, Tesla est en train de changer profondément ce qui se passe sous le capot de ses véhicules déjà dotés de multiples assistances. Au lieu de s’appuyer sur des cartes détaillées et la détection radar, le fabricant veut que ses modèles exploitent uniquement la vision pour évoluer sur les routes. L’objectif étant que les images des 8 caméras équipant l’automobile suffisent à tout savoir de la situation (routes, directions, feux, panneaux, piétons, autres véhicules, etc.) lorsqu’il déboule dans un carrefour. Le constructeur a d’ailleurs déjà passé à l’acte et commencé à produire il y a quelques semaines ses premières voitures sans radar, explique Andrej Karpathy.
Les avantages sont économiques - pas besoin de bâtir et de tenir à jour une cartographie détaillée de toute la planète - et techniques - pas besoin d’arbitrer en cas de conflit d’informations entre ce que dit le radar et ce que dit la caméra, souligne Elon Musk dans un tweet. A cela s’ajoute qu’en misant uniquement sur l’exploitation des données visuelles, Tesla peut mieux concentrer les efforts de ses ingénieurs. Et des cerveaux il en faut, car il n’est pas anodin de déduire les informations fournies par le radar (distance, vitesse des objets) à partir des seules images-vidéo fournies par les huit caméras équipant une Tesla.
Superlatifs: de la collecte de données aux microprocesseurs
Les équipes de Tesla développent ainsi une puissante machine à interpréter les images en temps réel l’aide de l’IA. Pour ce faire, les spécialistes ont d’abord constitué un jeu de données visuelles d’entraînement, à la fois vaste, de grande qualité et varié. Les images vidéo enregistrées par des milliers de véhicules ont ainsi été traitées offline avec de multiples techniques d’étiquetage automatique, mais aussi comparées avec les informations de profondeur et de vitesse fournies par les radars. Il en résulte un ensemble d’un million de séquences d’environ 10 secondes (8 caméras, 36 images/sec) avec 6 milliards d’objets détectés.
Pour traiter ces données et les transformer en informations de conduite, la firme a développé un gigantesque réseau neuronal, s’appuyant là aussi sur de très nombreuses techniques d’intelligence artificielle. Le responsable de l’IA chez Tesla explique que l’architecture du réseau se distingue par la possibilité de découpler les analyses. La vingtaine de data scientists qui travaillent sur la structure peuvent ainsi travailler en parallèle - l’un cherchant par exemple à améliorer la détection de la vitesse, un autre la profondeur - puis de réunir régulièrement leurs développements dans le réseau principal.
Troisième étage, l’infrastructure. Entraîner un réseau neuronal si complexe avec une telle quantité de données, demande en effet une énorme capacité de calcul. Là aussi, Tesla a développé son propre superordinateur équipé de microprocesseurs conçus par ses ingénieurs et taillé sur mesure pour les besoins de son intelligence artificielle. Avec 1,8 Exaflops et un stockage de 1,6TB/sec, il se hisserait dans le top 10 des superordinateurs de la planète, selon Andrej Karpathy.
Résultats prometteurs
Au fur et à mesure des améliorations du réseau neuronal, les spécialistes en ont déployé sept versions opérant en mode passif «shadow» dans des véhicules en circulation. Les équipes IA de Tesla ont ainsi pu faire tourner le système basé sur la vision en conditions réelles et comparer ses analyses avec celles s’appuyant du radar.
Selon Andrej Karpathy, les résultats sont prometteurs, pour l'heure dans des zones de faible desnité. L’IA visuelle supérerait dans de nombreux cas le radar, par exemple lors d’un freinage d’urgence ou pour distinguer un objets immobile d’un véhicule en déplacement. «Le signal [obtenu à l’aide de la vision] est si bon que l’on ne voit pas pourquoi travailler sur autre chose», commente le responsable.
> La présentation de Andrej Karpathy est disponible en ligne