IA appliquée : TTS ou comment créer vos formes 3D par le texte

L’IA appliquée au domaine artistique continue de progresser. Les solutions pour générer automatiquement des vidéos ou des dessins poursuivent inexorablement leur ascension fulgurante dans notre quotidien.

Aujourd’hui, nous tenions à partager les travaux de chercheurs qui proposent une solution dite « Text to Shape » (TTS) permettant de générer des formes 3D par le texte.

Habituellement les solutions issues du Machine Learning se basent essentiellement sur la labélisation des formes (Label), leurs apprentissages (Train) et leurs exécutions (Play).
Pour avoir un taux de réussite satisfaisant, il est donc indispensable de fournir en « entrée » énormément de types de formes avec la plupart de ses variations (imaginez une forme en 3D avec l’ensemble de ses facettes !). Plus le modèle a des références significatives, plus il sera pertinent dans sa catégorisation d’objets.

Cela implique donc que nous devons lui indiquer de manière explicite que telle forme est une lampe ou une voiture quelque soit l’angle de visualisation 3D de ladite forme. Nous sommes alors dans un environnement dit « supervisé ».

Cet environnement est coûteux en temps et nécessite une intervention humaine pour être performant, enfin il se base sur la paire (Texte + Forme) qui n’est pas toujours fiable (comment quelquefois catégoriser un objet 3D ?)

La solution TextCraft permet de s’affranchir de cette catégorisation fine en partant sur des modèles d’images « génériques » qui sont transformés et stockés à partir d’un seul Dataset.

Textscratch

Créer son objet 3D par le texte

Le système va utiliser par exemple une image d’une voiture provenant d’un Dataset de type Shapenet (référentiel d’images en 3D), va l’analyser, la « déconstruire » en matrice de points évolués dans une première phase.

La deuxième phase consiste à partir de cette matrice, de générer les représentations de l’image de la voiture dans toutes les positions possibles (représentation 3D en « prédisant » les différentes variations sur tous les angles) puis d’en stocker le référentiel associé.

Lorsque l’on saisit « voiture », le système va utiliser son référentiel et construire littéralement l’image 3D en se basant sur la matrice de points qu’il aura généré lors de la phase d’apprentissage et qui est associé au seul terme « voiture ».

L’objet est alors pleinement opérationnel et peut être consulté sous différents angles.

On imagine sans peine les débouchés d’une telle technologie dans le monde de l’éducation, l’architecture ou dans l’édition de jeux vidéos.

Mais le plus important à notre sens, c’est que les scientifiques cherchent depuis quelques temps, à réduire les phases d’apprentissage du Machine Learning et de se « libérer » des contraintes du mode « supervisé » afin d’offrir des modèles encore plus performants et plus intelligents !