Comme nous l’avons vu dans nos derniers billets, la force d’un système basé sur du Machine Learning repose à la fois sur les modèles statistiques qu’il utilise (kNN, régression linéaire, etc..) mais également sur la qualité du Dataset qu’il ingère en « entrée ». Précisons qu’en plus de la qualité des données, c’est également le volume de ces informations qui fait varier considérablement le taux de réussite final.
Beaucoup de sites mettent à la disposition du grand public, un ensemble de Datasets classifiés, catégorisés avec comme seule ambition de vous permettre de les tester dans votre modèle ML.
On citera par exemple les sites ImageNet ou CIFAR qui regroupent plus de 80 millions d’images (nature, animaux, voitures, objets etc..) et qui sont communément utilisés pour la catégorisation/classification d’objets.
Cependant cette masse d’information possède aussi certains inconvénients : En effet, il est nécessaire de la traiter, la stocker pour être analysée ensuite par votre moteur ML.
Outre le fait que les temps de chargement peuvent être extrêmement longs, dans un environnement Cloud où toute transaction est « facturée », cela peut s’avérer également très coûteux !.
Afin d’éviter cela, des chercheurs ont essayé de réduire considérablement la taille des Datasets sans en altérer la qualité et donc leur pertinence dans l’analyse réalisée par un moteur ML.
Intitulée « dilution », cette technique permet donc à partir d’un Dataset très large, de réduire considérablement sa taille tout en conservant ses principales caractéristiques.
Par exemple, à partir d’un Dataset de 50 000 images, la technique de dilution permet d’obtenir un Dataset final de 10 images !
Les chercheurs on ensuite utilisé ce Dataset « simplifié » dans un modèle pour valider que les résultats restaient satisfaisants.
Sur 50 images par classe (chat, chiens..) le Dataset « réduit » perd 10-12% de pertinence dans les résultats d’un modèle, ce qui peut être être encore considéré comme acceptable. Les chercheurs souhaitent encore améliorer ce score et travaillent actuellement sur différents algorithmes.
Comme vous le voyez dans les images ci-dessous cette technique isole les caractéristiques principales de chaque image d’un Dataset pour les regrouper au sein d’une même représentation. (pas évident à première vue de reconnaitre les sujets)
Attendons de voir dans les prochains mois si cette technique fera office de « standard » pour la gestion des Dataset en IA