Un retour du meetup Ollama à Station-F

Meetup Ollama

Nous vous en parlions, nous les avons rencontrés ! Ollama en partenariat avec Koyeb organisait jeudi 21 mars 2024 un meetup à Station-F. Au programme, une dizaine de speakers venu présenter leurs produits et leurs intégrations d’Ollama. Ce meetup mettait l’accent sur l’effervescence du monde open-source dans l’univers des intelligences artificielles génératives en levant le voile sur les évolutions à venir. 

Google et Gemma 

Gemma 

La première intervenante, Paige Bailey, venait tout droit des équipes de Google DeepMind pour présenter leur modèle Gemma. Lors de sa démonstration elle a présenté son intégration en local en utilisant Ollama. La force de ce modèle est sa capacité à être enrichi avec un prompt allant jusqu’à 10 millions de tokens, en quelques chiffres cela représente une vie de SMS, 20 000 articles de journal, 500 000 lignes de code ou encore la transcription de 2000 podcasts. Ce modèle se décline en version 7B et 2B. Ce dernier nécessite moins de ressources et pourrait tourner sur des appareils mobiles par exemple. Pour l’instant limité à l’anglais, il n’est pas encore possible de l’utiliser en français. 

Ollama : comment importer n’importe quel modèle ? 

 

Nous poursuivons ce meetup avec Patrick Devine, contributeur de Ollama, qui nous présente la capacité d’Ollama à convertir les modèles disponibles au format GGUF, via leurs APIs de quantization. La démo consiste à prendre n’importe quel modèle disponible sur Hugging Face et de passer par les 5 étapes décrites dans la documentation d’importation : https://github.com/ollama/ollama/blob/main/docs/import.md. L’intervenant a démontré les capacités d’optimisation en passant d’une quantization de 16 à 4 bits sur un modèle Mixtral de 93GB il obtient un modèle de 26GB après conversion. 

 Dagger l’IA au service de la CI 

Solomon Hykes, créateur de Docker, a fait la promotion de son nouveau projet Daggerverse en lien avec Dagger.io. Il en profité pour officialiser le support de Ollama dans les pipelines Dagger. 

Docker et les Testcontainers 

 

Coté docker l’intervenant a rappelé la capacité fondamentale de docker à créer un environnement temporaire où rien ne persiste. Il nous a présenté Testcontainers et l’intégration du module Ollama. La démo consistait à lancer un unit-test depuis un modèle d’IA et de lire le résultat en testant la présence de certains mots clefs attendus en fonction de la question posée. Il lui était très facile de changer de modèle d’IA et de voir si elle aussi passait le test. 

 LlamaIndex : enrichir le modèle  

Pierre-Loic Doulcet a fait la démonstration du RAG avec LlamaIndex. En s’appuyant sur un modèle existant il enrichit le contexte à l’aide de documents externes pour obtenir une réponse plus pertinente du modèle. 

Koyeb le déploiement à échelle mondiale des services IA  

 

Koyeb

Yann Leger co-fondateur de Koyeb et entreprise hôte du meetup Ollama a présenté leur produit permettant le déploiement et la configuration de machines cloud partout à travers le monde. La démonstration consistait à déployer en moins de 5 minutes 4 serveurs hébergeant Ollama puis interroger le serveur le plus proche de l’utilisateur final.   

dltHub le copilote sur mesure 

 À l’instar de produits tels que GitHub Copilot, dltHub se lie avec Ollama et nous permet de générer du code en local. Par exemple, à partir d’un code source privé l’IA peut l’ingérer et s’appuyer dessus lors de son inférence. 

Helix, l’exclusivité du Meetup 

 Helix est venu nous présenter son nouvel outil en exclusivité, une plateforme cloud, dans laquelle il est possible de faire aussi bien de la génération de texte que de la génération d’images. Il est possible de connecter l’outil en local aux données privées d’entreprise et de faire des requêtes poussées. 

Dans la démo, l’intervenant présentait un cas d’utilisation d’une IA dans un processus de recrutement. Via une première question, l’IA était capable de déterminer les raisons de la candidature en s’appuyant sur une API qui lui fournissait le CV du candidat. Dans un second temps, l’IA s’appuyait sur une deuxième API lui fournissant un état du parc informatique et ressortait la machine la plus adaptée pour le profil du futur collaborateur. 

En s’appuyant sur 2 APIs privées d’entreprises et en ingérant le schéma OpenAPI de celles-ci l’IA est capable de fournir des réponses lors de la qualification des candidats. 

On pourra questionner l’usage de l’IA pour qualifier des profils sur le plan éthique et moral mais ces questions animeront surement l’avenir de ces technologies et leur adoption en entreprise. Il ne s’agit là que d’un cas d’utilisation pour illustrer les capacités techniques de leur produit. 

Pour plus d’informations vous pouvez consulter la documentation de Helix : https://docs.helix.ml/. 

Neo4j, visualisation neuronale  

La dernière démonstration de ce meetup a été proposée par neo4j. À partir d’une vidéo YouTube et d’une page Wikipédia ayant pour sujet Nvidia, l’outil GenIA est capable de générer une visualisation du graphe neural de l’IA entrainée. La représentation ressemble à une mindmap géante avec des bulles plus ou moins grosses en fonction du poids (de l’importance) de l’information. Il est possible de réajuster le graphe en supprimant les bulles qui peuvent sembler inadaptées ou en ajouter manuellement. L’outil semble très simple à utiliser et la représentation graphique permet de visualiser facilement les informations introduites dans le modèle. 

Une fois le modèle ajusté, une interface est disponible pour échanger sous forme de chat avec le modèle et tester les réponses apportées. 

Le mot de la fin 

StationF

Ce meetup a été l’occasion de découvrir de nombreux outils gravitant autour de Ollama. Comme nous avons pu le voir ils sont nombreux et l’écosystème est en pleine construction et s’industrialise de plus en plus. Nous garderons un œil sur ces produits prometteurs afin de proposer à nos clients des intégrations personnalisées pour répondre à leurs besoins de LLM. 

 Jonathan & Antoine