Mobilier en kit et dossier .zip

close
When we live alone When we live alone When we live alone

Cette histoire débute en 2006, année où l’entreprise de mobilier IKEA a pour la première fois présenté un rendu numérique d’un produit dans son catalogue imprimé diffusé mondialement : une image de l’omniprésente chaise Bertil en bouleau. Jusqu’alors, tous les produits et les scènes figurant dans les pages du catalogue étaient minutieusement mis en place et photographiés. Comme les couleurs des produits, le choix des appareils et la disposition des objets varient selon le pays de publication, certains aménagements d’une pièce devaient être photographiés à de multiples reprises pour les différentes versions. Mettre en scène le catalogue de façon virtuelle en simplifiait la déclinaison mondiale pour l’équipe interne de communication d’IKEA : remplacer une douche par une baignoire était dorénavant une simple affaire de clic plutôt qu’un décor entier à reconstruire. Cette transition vers des images restituées constituait certes une étape logique vers l’efficacité, mais elle dépendait aussi de la capacité de l’imagerie informatisée à passer inaperçue. La publication numérique de la Bertils’est avérée un succès : personne n’a remarqué le subterfuge. Les consommateurs feuilletant le catalogue IKEA ne pouvaient voir que celui-ci et non le processus derrière sa création.

L’imagerie générée par ordinateur (CGI, de son acronyme anglais) a fait beaucoup de chemin depuis ses débuts quelque peu chaotiques. Si l’infographie à ses débuts était surtout constituée de structures visiblement polygonales, les possibilités offertes par la technologie actuelle permettent de réaliser des images qui se confondent avec la photographie. Les rendus photoréalistes, ou images construites qui simulent la réalité à en faire illusion, sont utilisés en visualisation architecturale tout comme dans les effets spéciaux d’Hollywood. Depuis la modélisation de la chaise Bertil en 2006, IKEA a constitué une bibliothèque numérique d’environ trente-sept mille produits, dix mille matériaux et douze mille textures. En 2016, certaines des brochures d’IKEA comprenaient 95 % d’illustrations en 3D, nombres d’entre elles entièrement numériques, alors que d’autres étaient un composite de photographie et d’infographie 3D1. Qu’il s’agisse de photographie ou de rendu, IKEA prend grand soin de donner aux scènes présentées dans son catalogue des apparences de véracité, comme s’il documentait la vie de quelqu’un plutôt que de simplement présenter un produit. Pour ce faire, sa bibliothèque numérique contient des « éléments vivants », par exemple des bananes, des chats et des plantes qui font une apparition dans les compositions numériques de produits. Le défi d’IKEA dans sa transition entre communication visuelle et imagerie numérique a été de faire en sorte que celle-ci demeure invisible pour la clientèle. Idéalement, il s’agissait de produire une CGI anodine : des images de tous les jours ne soulevant aucune question particulière. La documentation plutôt que l’installation; quelqu’un vit ici, c’est évident.

Outre les besoins mondiaux en marketing d’IKEA, d’importants jeux de données destinés à la modélisation 3D sont également essentiels dans le domaine de la vision par ordinateur. Pour entraîner une caméra à voir, des ensembles de données comportant des exemples de ce que la vision par ordinateur est censée pouvoir reconnaître sont réunis. Pour ce qui est des robots domestiques – pas tant des personnages des Jetson que des aspirateurs, assistants de lavage ou tondeuses à gazon autonomes –, ces jeux de données prennent la forme de scènes d’intérieur, rendues à partir d’un vaste répertoire de produits et espaces en 3D, à la manière de la bibliothèque d’IKEA. Les actions de ces robots ne sont pas magiques, mais codifiées. Leur structure n’est pas ensorcelée, mais actionnée par un interrupteur marche/arrêt. Quand le Spot de Boston Dynamic, un robot à quatre pattes présenté comme un assistant pour la maison et le bureau, a été adopté par la police de New York et rebaptisé Digidog, des modes d’emploi sur la façon de retirer le bloc-batterie du robot ont circulé sur Internet comme forme de résistance. Ces machines automatisées ne sont pas intelligentes, mais plutôt entraînées pour accomplir des tâches précises. L’énorme quantité de données nécessaires pour élaborer un système fonctionnel peut s’avérer insurmontable à traiter pour un cerveau humain et quelque peu déconcertante pour simuler ne serait-ce qu’une partie de la complexité multiforme de la vie. Ces données doivent être enregistrées ou créées et sont ainsi limitées pas forcément en nombre, mais en diversité.

Le défi dans l’élaboration de ces ensembles de données d’entraînement est l’accès à de vastes quantités de données spécifiques. Dans le cas des robots domestiques, ces dernières visent à représenter les espaces intérieurs des consommateurs futurs. Un aspirateur sera équipé d’une vision par ordinateur pour reconnaître dans quel espace il se trouve et évaluer le type de sol et de poussière qu’il doit nettoyer. Pourtant, le populaire aspirateur Roomba d’iRobot, muni à l’origine d’un laser pour mesurer la distance le séparant des objets, a eu toutes les difficultés du monde à reconnaître les déjections canines. Les médias sociaux regorgent d’anecdotes sur le fait qu’un Roomba, plutôt que d’éviter celles-ci, roulait carrément dessus, tartinant toute la maison de ces matières. Le résultat est de toute évidence l’inverse d’un nettoyage. Malgré l’emploi de plus en plus important de la technologie « intelligente » au domicile, celui-ci demeure un espace intime et privé. Le dessin animé Rick et Morty laisse entrevoir un avenir inquiétant de transparence quand Morty cherche Rick, entendant seulement sa voix : « Tout n’est-il que caméra, maintenant? » La scène se termine avec Rick transformé en cornichon plutôt que doté d’une vision omniprésente.

Le Dyson Robotics Lab de l’Imperial College London a publié deux jeux de données de scènes d’intérieur destinés précisément à l’entraînement de la vision domestique par ordinateur. Bien que cette institution ne soit qu’un des laboratoires de recherche universitaire parmi d’autres s’intéressant à la vision par ordinateur, il est intéressant de comparer tout simplement ses deux ensembles de données de 2016 et 2018. Avec le soutien de l’entreprise d’électroménagers Dyson, le laboratoire a pour objectif de développer la vision par ordinateur pour qu’elle puisse être intégrée aux futurs produits de la marque. Mike Aldred, responsable de la robotique pour la société, a exprimé ainsi son souhait d’un avenir automatisé : « J’aimerais que les gens soient incapables de me dire à quoi ressemble leur robot. Ils rentreraient chez eux et les planchers seraient propres, mais ils n’auraient pas d’idée de l’aspect du robot, tout s’étant déroulé en leur absence2. » Ce concept rappelle les articles ménagers enchantés du conte d’animation La Belle et la Bête de Disney : largement invisibles aux habitants humains, la tasse à thé, la marmite et le bougeoir affairés organisent les tâches quotidiennes de sorte que le personnage principal puisse se consacrer à ses relations. Mais comment ces objets acquièrent-ils une vie éveillée?

Le premier de ces ensembles de données du Dyson Robotics Lab, SceneNet RGB-D, contient des rendus de scènes d’intérieur, couplées à des milliers de modèles 3D trouvés en ligne, la plupart issus du populaire entrepôt SketchUp. Ce répertoire en ligne abrite des modèles, créés par des particuliers comme par des entreprises, destinés à être utilisés dans le logiciel de CAO SketchUp. Le jeu de données divise ces modèles en catégories de bonheur ménager – chaises, lits, etc. –, mais, après analyse plus approfondie des données, le défi que constitue l’élaboration d’un ensemble de données domestiques apparaît très clairement. Dans la catégorie « chaises », on trouve des modèles on ne peut plus répandus à quatre pieds et dossier, mais aussi une chaise électrique, un fauteuil roulant et une chaise de gynécologue. Plus encore que les données classées au mauvais endroit, on note l’abondance de types de chaises manquantes. La multitude des cultures et des modes de vie non représentés dans la compréhension de la station assise selon le jeu de données est stupéfiante.

Le second de ces ensembles de données, InteriorNet, est une actualisation en termes d’envergure, de diversité et de résolution de fichier. Il se présente comme un « vaste ensemble de données multicapteurs photoréalistes de scènes d’intérieur 3» et comprend approximativement un million de modèles CAO d’ameublement et vingt-deux millions d’agencements intérieurs. Pour parvenir à ce volume de matériel, les chercheurs universitaires se sont associés à Kujiale, entreprise chinoise de visualisation de produits et de design d’intérieur. Le partenariat du laboratoire avec une société possédant une bibliothèque de ressources comme partie intégrante de son modèle d’affaires représentait un éloignement des méthodes employées jusque-là par les chercheurs (qui consistaient à créer eux-mêmes les fichiers 3D en fouillant dans les répertoires en ligne ou en achetant des bibliothèques vendues par les moteurs de jeux). Grâce à cette entente, les chercheurs du Dyson Robotics Lab ont pu mettre à profit les ressources 3D de Kujiale pour élaborer le jeu de données InteriorNet. La bibliothèque 3D de Kujiale fait partie intégrante du produit de l’entreprise : une interface en ligne pour concevoir sa propre maison. Les fondateurs de la société ont su voir dans l’essor de la construction parmi la classe moyenne en Chine un besoin pour une planification 3D abordable et ont créé l’entreprise en 20114. Son catalogue de plans d’étage, de produits et de matériaux est accessible sous forme d’outils de modélisation rapides pour architectes, designers d’intérieur et propriétaires de maison. Une fois un concept abouti par l’entremise de l’interface glisser-déposer, on peut voir le résultat sous forme de visite virtuelle ou de rendu image par image. Pour promouvoir cette fonctionnalité, Kujiale a dû créer une vaste bibliothèque de ressources 3D, un peu comme IKEA. C’est cette bibliothèque que les chercheurs d’InteriorNet souhaitaient pouvoir mettre à profit pour leur ensemble de données d’entraînement. Dans les documents de recherche annexes à InteriorNet, on précise que toutes les modélisations obtenues dans le cadre du partenariat avec Kujiale ont servi dans la production physique; peut-être une tentative de garantir le réalisme des maquettes 3D, en assurant en quelque sorte que ces produits existent vraiment quelque part. La carte est le territoire.

Le bruit du quotidien

IKEA et Kujiale ne sont pas les seules à avoir créé d’importantes bibliothèques de ressources 3D. D’autres détaillants en ligne, comme Otto en Allemagne et l’entreprise de commerce électronique Wayfair5, sont passés à l’imagerie CGI pour alimenter leurs interfaces de vente en ligne. L’impossibilité d’organiser des séances photo à cause de la pandémie de la COVID-19 n’a fait qu’accélérer le processus. Même Ben et Jerry’s, fabricant de crème glacée, a pris le virage de la « photographie virtuelle », avec 100 % d’images restituées6.

Ces sociétés ont en commun un besoin de surmonter les limitations physiques dans la vente de leurs produits. Dans le cas de Ben et Jerry’s, c’est la volonté de livrer les glaces à domicile dans un contexte de fermeture des commerces; pour IKEA, c’est la volonté d’éviter d’avoir à produire des scènes de catalogue coûteuses en temps et en argent; Kujiale, quant à elle, vise à favoriser la vente de maisons avant qu’elles ne soient construites. Les bibliothèques de ressources 3D ainsi développées constituent un sous-produit marketing, en fonction de la demande. Pour autant, cette nouvelle mission qui pousse ces sociétés à créer de grandes bibliothèques 3D de leurs produits, à une vitesse et une qualité hors de portée si l’on ne dispose pas des budgets commerciaux et des ressources informatiques en conséquence, s’inscrit dans le mouvement d’une vision par ordinateur toujours plus avide de données synthétiques en haute définition.

Expliquant son don à l’Imperial College London, sir James Dyson exposait ainsi la quête de données propre à la vision par ordinateur concernant l’habitation : « Ma génération croyait que le monde serait envahi par les robots dès l’année 2014. Nous possédons les capacités mécaniques et logicielles, mais il nous manque encore la compréhension – de machines qui voient et réfléchissent comme nous le faisons. Maîtriser cette dimension facilitera nos vies et amènera à des technologies jusqu’alors inimaginables . » Agréger suffisamment de données d’entraînement s’avère crucial pour créer cette « compréhension ». Sir Dyson évoque des machines qui « nous » imitent et qui « faciliteront nos vies ». De quoi parle-t-il? Il n’existe pas de définition universelle de la sphère domestique, de la maison. Quelles vies seront facilitées, lesquelles seront imitées et lesquelles seront exclues?

Les jeux de données d’entraînement jouent un rôle essentiel dans la définition de la manière dont un système de vision par ordinateur « perçoit » le monde. La reconnaissance qu’il en a est fondée sur des informations préalablement digérées. Dans un scénario où les bibliothèques de ressources 3D commerciales deviennent les jeux de données d’entraînement pour la vision par ordinateur, un logement n’en est-il véritablement un que s’il correspond au catalogue IKEA, à la gamme Wayfair? Est-ce que l’espace domestique, selon la vision par ordinateur, ne naît vraiment qu’autour de 2006 avec la création de la chaise Bertil synthétique? Plusieurs d’entre nous avons ces produits à la maison, mais cette dernière ne se définit pas à travers eux. Prenons par exemple les nombreuses instructions de bricolage grâce auxquelles le consommateur peut « reconfigurer » un article IKEA pour en faire une création originale – ce qui arrive aux produits quand ils entrent chez quelqu’un relève du mystère privé. Si le jeu de données SceneNet RGB-D comptait incidemment des créations de bricoleurs, d’agences de design indépendantes, ainsi que de membres de la famille et d’amis qui s’achètent des choses les uns les autres en écumant l’entrepôt SketchUp, InteriorNet s’est épuré de toutes les créations magnifiques et bizarroïdes faites par des gens les uns pour les autres. Les images réalisées pour vanter un produit ne sont pas synonymes du choix de vie des gens. Quelles sont les conséquences sur le milieu de vie des personnes si les espaces les plus intimes n’existent que par les articles qu’ils accueillent plutôt que par leur culture, les êtres qu’ils abritent, les rythmes qu’ils permettent?

Dans les documents concernant InteriorNet, les chercheurs ont indiqué que le « bruit du quotidien 8» avait été ajouté aux scènes d’intérieur pour plus de réalisme. Ce bruit, dans le langage des auteurs, est ce soupçon de magie dont la vie se nourrit. Un mot sur la porte, un yogourt moisi dans le réfrigérateur, un réveil sur sourdine, une sieste dans un lieu autre que la chambre. Il y a tellement de types de maisons qui sont définies par leurs habitants et leurs identités complexes et en mouvement. La vie domestique ne se codifie pas et ne s’indexe pas facilement, peu importe les exigences de la vision par ordinateur. Dans la maison, la vision par ordinateur est principalement développée à des fins d’hygiène : le rêve de robots qui, en toute autonomie et, le plus important, en toute invisibilité, passent l’aspirateur, remplissent le lave-vaisselle, désherbent le jardin, arrosent les plantes. Idéalement, ces robots prendront soin de la maison et l’entretiendront au bénéfice de ses habitants. Il est tentant de faire un parallèle entre la discrimination inhérente à la vision par ordinateur et le manque de diversité dans le jeu de données d’entraînement. Vient alors à l’esprit une citation du professeur de méditation de la musicienne et poète Laurie Anderson : « Si vous pensez que la technologie va régler vos problèmes, vous ne comprenez pas la technologie – et vous ne comprenez pas vos problèmes9. » À quel problème la vision par ordinateur est-elle une solution dans le cadre domestique? Est-ce celui d’une charge de travail devenue à ce point lourde qu’elle empêche de s’occuper de la maison? Un changement dans la manière dont la société organise et valorise le temps? Ou est-ce une perpétuation systémique plus profonde de la sous-traitance des tâches ménagères pour un salaire dérisoire afin qu’elles n’encombrent pas le portrait? Dit autrement : l’ensemble de données d’entraînement n’est peut-être pas le problème, mais il est un reflet du monde qui lui donne sa raison d’être.

Artcile Précédent Artcile suivant