Salta al contenuto principale
Choisir une IA
A l'heure du choix, la difficile comparaison des IA

Avec l'essor des IA et la prolifĂ©ration des modèles se pose pour les entreprises, Ă  l’heure de faire un choix, la dĂ©licate question de la comparaison et de la pertinence des outils utilisĂ©s. En effet, nous sommes passĂ©s en quelques mois de 2, 3 IA que tout le monde pouvait citer Ă  une dĂ©ferlante de modèles et de dĂ©clinaisons, si bien qu'il est difficile de s'y retrouver. Le paysage de l'IA semble se muer en une jungle de plus en plus dense. 

Par exemple, prenons par ordre alphabĂ©tique qu'Amazon, nous trouvons comme IA, Amazon Nova Canvas, Amazon Nova Lite, Amazon Nova Micro, Amazon Nova Premier, Amazon Nova Pro. Nous retrouvons les mĂŞmes dĂ©clinaisons chez les Google, Open AI, DeepSeek, Meta, Mistra, Microsoft, xAi, etc. 

Comment s'y retrouver, qui fait quoi et quels sont points à considérer ?

Bien sĂ»r il faut d'abord savoir ce que l'on recherche comme IA et pour quoi faire (texte, image, vidĂ©o, musique, analyses, recherche) avant d'examiner les principaux critères. Commençons d'abord par identifier les critères simples qui permettent de les distinguer avant de parler des benchmarks. 

La taille de l'IA dĂ©terminerait "le degrĂ© d'intelligence". Attention cependant, la taille n'est pas Ă  rapprocher de la qualitĂ©. Les IA les plus connues se sont lancĂ©es dans une compĂ©tition de "taille" en absorbant de plus en plus de donnĂ©es et de paramètres. La contrepartie c'est que les IA consomment beaucoup d'Ă©nergie et l'on s'est rendu compte qu'il n'y a pas que la taille qui compte. 

Depuis quelques mois, un revirement s’opère et avoir la plus grosse n’est plus de mise. Microsoft et Apple ont d'ailleurs annoncĂ© en 2024 se focaliser sur des modèles plus petits (Small Language Model). Pour les entreprises, une IA spĂ©cialisĂ©e n'a pas besoin d'avoir des milliards de paramètres. Le mouvement va dans le sens d'une rĂ©duction de la taille des IA allant de pair avec l'optimisation des modèles et une spĂ©cialisation en fonction des contextes d'utilisation. Cette inclinaison n'est pas due au hasard. Elle souligne le coĂ»t Ă©levĂ© des LLM (coĂ»t Ă©galement Ă©cologique) et le besoin de trouver des dĂ©bouchĂ©s y compris pour les PME. La taille n'est donc pas un gage de qualitĂ© et de pertinence. 

L'Ă©thique ensuite, car c’est rĂ©el enjeu qui doit ĂŞtre pris en compte dès la conception du modèle. Pourquoi ? Parce que les IA automatisent des prises de dĂ©cision, poursuivant ainsi une tendance profonde des sociĂ©tĂ©s modernes, Ă  savoir la dĂ©personnalisation des dĂ©cisions par des processus bureaucratiques. Mais alors que les processus bureaucratiques sont censĂ©s ĂŞtre dĂ©finis par des règles transparentes et exĂ©cutĂ©s par des humains, plusieurs IA se distinguent par leur opacitĂ©. Les IA peuvent causer des dommages, gĂ©nĂ©rer du contenu/prendre des dĂ©cisions contraires aux valeurs humaines et ĂŞtre dĂ©tournĂ©es pour une utilisation malveillante. 

Il est donc important de vĂ©rifier leur degrĂ© d'Ă©thique. Cela est possible, tout comme un entrainement spĂ©cifique, la vĂ©rification de sources ou la maĂ®trise de biais qui peuvent par exemple amplifier des prĂ©jugĂ©s existants, ou fournir des rĂ©ponses injustes. Des sociĂ©tĂ©s proposent ce service et il est recommandĂ©, tant pour les interactions internes qu’externes. 

Le coĂ»t  est un paramètre non nĂ©gligeable lorsque l'entreprise veut s'Ă©quiper d'une IA. Il dĂ©pend du nombre de paramètres et de la taille du modèle. GĂ©nĂ©ralement, plus ils sont Ă©levĂ©s plus le coĂ»t d'utilisation de l'IA le sera aussi. Le dĂ©ploiement d'une IA est un projet qui peut contenir de nombreux coĂ»ts cachĂ©s. Il est important de bien se faire accompagner pour identifier tous les Ă©lĂ©ments du coĂ»t de dĂ©ploiement d'une IA. 

  • D'abord, le type d'IA souhaitĂ©e (automatisation simple ou IA avancĂ©e) et pourquoi faire (textes, image, vidĂ©o, analyses...). 
     
  • Est-ce que mon entreprise peut se contenter d'une IA clĂ© en main (en mode SaaS) ou d'une IA sur mesure que je vais entrainer partiellement ou intĂ©gralement avec des donnĂ©es de l'entreprise. 
     
  • Ensuite, quel type d'infrastructure est la plus adaptĂ©e Ă  mon besoin ? HĂ©bergement dans le cloud (public, hybride, privĂ©), en interne sur les serveurs ? 
     
  • A ces coĂ»ts, il ne faut oublier d'ajouter les frais liĂ©s au maintien en condition de l'IA (maintenance, mises Ă  jour) Ă  la formation des utilisateurs et pour certains modèles aux prix des licences et autres abonnements. Le budget pour la mise en place d'une IA et son exploitation est un projet Ă  ne pas nĂ©gliger pour Ă©viter les dĂ©convenues. 

 

Les benchmarks, vers une standardisation ?  

D'abord un peu d'histoire. Bien qu'Ă  l'origine le benchmark soit un outil marketing (crĂ©Ă© par Xerox) son application au domaine informatique Ă©tait toute naturelle pour se positionner par rapport Ă  un groupe de rĂ©fĂ©rence, plus prosaĂŻquement pour comparer une solution Ă  une autre, un matĂ©riel, un système Ă  un autre. 

Logiquement, le benchmarking de solutions techniques s'applique dĂ©sormais Ă  l'IA, du moins commence Ă  s'y appliquer et suit son essor. 

NĂ©anmoins, dans des domaines plus mĂ»rs, les outils de benchmark sont clairement identifiĂ©s et utilisĂ©s. Certains benchmarks sont spĂ©cialisĂ©s et dĂ©diĂ©s Ă  un type d’activitĂ© ou encore un domaine d’utilisation. Par exemple, le jeu vidĂ©o qui requiert des ressources combinĂ©es de plusieurs composants matĂ©riels Ă  ses outils de benchmark, la rĂ©fĂ©rence Ă©tant l'outil 3DMark qui ne va pas analyser seulement la performance du processeur ou de la carte graphique mais globalement celle des 2 en mĂŞme temps pendant l’activitĂ©. 

Concernant l'IA, pendant longtemps, le seul benchmark c'était l'homme et le plus connu a été Garry Kasparov, le maître des échecs…

Il n'existe a pas aujourd'hui de benchmark qui permet d'Ă©valuer l'ensemble des performances de manière exhaustive et globale (j’y inclus l’éthique). Pour Ă©valuer les performances d'une IA de manière objective, il faut s'appuyer sur plusieurs outils. Le souci avec les benchmarks dans l'IA c’est qu'aujourd'hui pour connaitre la performance rĂ©elle d'un modèle, on peut s'appuyer surtout sur les benchmarks de chaque Ă©diteur... autant dire que c'est relatif. 

Cependant, il en existe quelques-uns. Ci-après 3 exemples de benchmarks utilisés pour mesurer les IA :

  • Le benchmark MMLU (Massive Multitask Language Understanding) couvre 57 domaines distincts comme la mĂ©decine, l'histoire, le droit. Ce benchmark permet de mesurer la profondeur et la largeur des connaissances du modèle. RĂ©fĂ©rentiel crĂ©Ă© en 2020 et issu de la recherche universitaire. MMLU contient environ 16 000 questions Ă  choix multiples portant sur 57 matières acadĂ©miques
     
  • Le benchmark MATH comme son nom l'indique va Ă©valuer l'IA sur des problèmes mathĂ©matiques complexes. Pas forcĂ©ment utile si vous prĂ©voyez de dĂ©ployer une IA sur le droit.
     
  • Enfin, le benchmark MMMU (2023) pour Massive MultiModal Understanding est un rĂ©fĂ©renciel 11 500 questions niveau universitaire dans diffĂ©rentes disciplines et qui a pour objectif d'Ă©valuer la "perception" et le raisonnement du modèle (on parle de compĂ©tences multimodales). Ce benchmark repose sur des supports tels que des graphiques, schĂ©mas et images. 


Même si comme vu ci-dessus, des benchmarks existent, ils sont certes récents et souvent le fruit de recherches universitaires. C'est un bon début mais il reste du chemin pour convaincre les industriels de, primo, standardiser ces benchmarks, deuxio partager un ou plusieurs bancs d'essais communs pour évaluer leurs IA à l'instar de ce qui se fait dans l'informatique classique et tertio de les adopter sur le long terme pour les faire évoluer de pair avec les IA.