LAM (Large Action Models) : Mettre de l’automatisation dans les LLMs

Automatisation dans les modèles de langage IA

généré par DALL-E

Introduction

Il y a quelques temps, de nombreuses publications sur le net nous expliquaient qu’une nouvelle génération de modèles liée à l’IA a allait révolutionner notre vie quotidienne.

Intitulée : Large Action Model, cette intelligence permettait d’accroitre la portée des LLMs en les dotant de fonctionnalités d’automatisation voire d’anticipation.

Fonctionnalités des LAM

Les LLMs sont utilisés de manière souvent « statique », c’est-à-dire, qu’ils génèrent une réponse suivant un prompt qui a été fourni par l’utilisateur. A partir de ses réseaux neuronaux, de leur apprentissage réalisé au préalable , ils vont fournir une réponse adaptée à la question mais cela s’arrête là à l’heure actuelle.

Le LAM (Large Action Model) souhaite aller plus loin en dotant le moteur d’inférence de la faculté d’effectuer des « actions » spécifiques par rapport à sa compréhension de la demande et de la connaissance des interactions effectuées au préalable.

Ainsi au lieu de se contenter de vous expliquer comment remplir votre feuille d’impôts par exemple, il effectuera de lui-même le remplissage de certaines zones par rapport aux informations qu’il aura récolté et les différentes feuilles que vous avez saisi les années précédentes. Dans le domaine RH, il permettra d’analyser l’ensemble des CVs reçus par une entreprise par exemple, effectuera les premiers filtres et  pourra demander via un chat conversationnel des éléments supplémentaires aux candidats (« qu’avez-vous fait entre le Juin 2024 et Juillet 2024, car ce n’est pas assez clair ? »).

Cas d’utilisation: Rabbit 1

Le concept de LMA a été popularisé via l’introduction du Rabbit R1 (même si des premiers articles sur le sujet ont été rédigés bien avant), ce petit assistant autonome, qui promettait d’ajuster son comportement par rapport à sa connaissance des usages de son utilisateur et d’offrir ainsi des services contextualisées. Basé sur  les principes d’un modèle Neuro-Symbolique (travaux  menés sur le principe de l’observation), il analyse les gestuels réalisées sur les interfaces de l’appareil, votre parcours au sein des applications, pour anticiper les actions appropriées et proposer ainsi une interaction automatisée.

On s’éloigne des premières approches qui avaient été envisagées il y a quelques années, avec notamment l’intégration du RPA (Robotic Process Automation) qui décrivait et mettait en place l’automatisation de tâches suivant des règles spécifiques (Rules Based), ou même du concept de SPA (Smart Process Automation) qui utilisait déjà  des mécanisme du Machine Learning pour s’adapter aux contraintes métiers.

Outils et Simulations

Il est cependant possible à l’heure actuelle de simuler ce type d’évènements en utilisant des Frameworks spécifiques comme Langchain qui, à partir d’un LLM « classique », permet d’actionner des évènements ou actions suivant des résultats provenant du moteur. Ainsi, si l’usager rédige le prompt suivant :  « Quelles sont les autres étapes pour m’inscrire à l’Université après avoir rempli les informations souhaitées ?»,  une réponse issue d’un LLM proposera « Vous devez par la suite envoyer le formulaire par email…. Je vais le faire pour vous » , le workflow comprendra qu’il y a une action à déclencher (« l’envoi d’email ») et traitera l’ensemble des tâches pour arriver à cette fin.

Les modèles LMA vont donc plus loin car ils s’appuient à la fois sur l’interprétation du langage, la reconnaissance des mots (NLP)  mais également sur une analyse proactive des actions que l’usager pourrait réaliser.

Les caractéristiques du Rabbit R1 sont encore très loin de ce qui avait été promis, surtout dans son usage du LAM. Il devait ainsi analyser la façon dont vous utilisiez les différentes Smart Applications pour pouvoir vous présenter les fonctionnalités que vous utilisiez le plus souvent. Malheureusement on est encore loin des promesses et les déceptions sont nombreuses mais l’approche reste cependant intéressante.

Il est encore trop tôt pour mesurer efficacement l’impact que le LAM aura sur notre quotidien mais elle préfigure déjà ce que pourra être l’IAG (l’Intelligence Artificielle Générale).

Nul doute que les prochains mois vont apporter quelques réponses.

Rémy Poulachon – Directeur de l’Innovation