
Avec l'essor des IA et la prolifération des modèles se pose pour les entreprises, à l’heure de faire un choix, la délicate question de la comparaison et de la pertinence des outils utilisés. En effet, nous sommes passés en quelques mois de 2, 3 IA que tout le monde pouvait citer à une déferlante de modèles et de déclinaisons, si bien qu'il est difficile de s'y retrouver. Le paysage de l'IA semble se muer en une jungle de plus en plus dense.
Par exemple, prenons par ordre alphabétique qu'Amazon, nous trouvons comme IA, Amazon Nova Canvas, Amazon Nova Lite, Amazon Nova Micro, Amazon Nova Premier, Amazon Nova Pro. Nous retrouvons les mêmes déclinaisons chez les Google, Open AI, DeepSeek, Meta, Mistra, Microsoft, xAi, etc.
Comment s'y retrouver, qui fait quoi et quels sont points à considérer ?
Bien sûr il faut d'abord savoir ce que l'on recherche comme IA et pour quoi faire (texte, image, vidéo, musique, analyses, recherche) avant d'examiner les principaux critères. Commençons d'abord par identifier les critères simples qui permettent de les distinguer avant de parler des benchmarks.
La taille de l'IA déterminerait "le degré d'intelligence". Attention cependant, la taille n'est pas à rapprocher de la qualité. Les IA les plus connues se sont lancées dans une compétition de "taille" en absorbant de plus en plus de données et de paramètres. La contrepartie c'est que les IA consomment beaucoup d'énergie et l'on s'est rendu compte qu'il n'y a pas que la taille qui compte.
Depuis quelques mois, un revirement s’opère et avoir la plus grosse n’est plus de mise. Microsoft et Apple ont d'ailleurs annoncé en 2024 se focaliser sur des modèles plus petits (Small Language Model). Pour les entreprises, une IA spécialisée n'a pas besoin d'avoir des milliards de paramètres. Le mouvement va dans le sens d'une réduction de la taille des IA allant de pair avec l'optimisation des modèles et une spécialisation en fonction des contextes d'utilisation. Cette inclinaison n'est pas due au hasard. Elle souligne le coût élevé des LLM (coût également écologique) et le besoin de trouver des débouchés y compris pour les PME. La taille n'est donc pas un gage de qualité et de pertinence.
L'éthique ensuite, car c’est réel enjeu qui doit être pris en compte dès la conception du modèle. Pourquoi ? Parce que les IA automatisent des prises de décision, poursuivant ainsi une tendance profonde des sociétés modernes, à savoir la dépersonnalisation des décisions par des processus bureaucratiques. Mais alors que les processus bureaucratiques sont censés être définis par des règles transparentes et exécutés par des humains, plusieurs IA se distinguent par leur opacité. Les IA peuvent causer des dommages, générer du contenu/prendre des décisions contraires aux valeurs humaines et être détournées pour une utilisation malveillante.
Il est donc important de vérifier leur degré d'éthique. Cela est possible, tout comme un entrainement spécifique, la vérification de sources ou la maîtrise de biais qui peuvent par exemple amplifier des préjugés existants, ou fournir des réponses injustes. Des sociétés proposent ce service et il est recommandé, tant pour les interactions internes qu’externes.
Le coût est un paramètre non négligeable lorsque l'entreprise veut s'équiper d'une IA. Il dépend du nombre de paramètres et de la taille du modèle. Généralement, plus ils sont élevés plus le coût d'utilisation de l'IA le sera aussi. Le déploiement d'une IA est un projet qui peut contenir de nombreux coûts cachés. Il est important de bien se faire accompagner pour identifier tous les éléments du coût de déploiement d'une IA.
- D'abord, le type d'IA souhaitée (automatisation simple ou IA avancée) et pourquoi faire (textes, image, vidéo, analyses...).
- Est-ce que mon entreprise peut se contenter d'une IA clé en main (en mode SaaS) ou d'une IA sur mesure que je vais entrainer partiellement ou intégralement avec des données de l'entreprise.
- Ensuite, quel type d'infrastructure est la plus adaptée à mon besoin ? Hébergement dans le cloud (public, hybride, privé), en interne sur les serveurs ?
- A ces coûts, il ne faut oublier d'ajouter les frais liés au maintien en condition de l'IA (maintenance, mises à jour) à la formation des utilisateurs et pour certains modèles aux prix des licences et autres abonnements. Le budget pour la mise en place d'une IA et son exploitation est un projet à ne pas négliger pour éviter les déconvenues.
Les benchmarks, vers une standardisation ?
D'abord un peu d'histoire. Bien qu'à l'origine le benchmark soit un outil marketing (créé par Xerox) son application au domaine informatique était toute naturelle pour se positionner par rapport à un groupe de référence, plus prosaïquement pour comparer une solution à une autre, un matériel, un système à un autre.
Logiquement, le benchmarking de solutions techniques s'applique désormais à l'IA, du moins commence à s'y appliquer et suit son essor.
Néanmoins, dans des domaines plus mûrs, les outils de benchmark sont clairement identifiés et utilisés. Certains benchmarks sont spécialisés et dédiés à un type d’activité ou encore un domaine d’utilisation. Par exemple, le jeu vidéo qui requiert des ressources combinées de plusieurs composants matériels à ses outils de benchmark, la référence étant l'outil 3DMark qui ne va pas analyser seulement la performance du processeur ou de la carte graphique mais globalement celle des 2 en même temps pendant l’activité.
Concernant l'IA, pendant longtemps, le seul benchmark c'était l'homme et le plus connu a été Garry Kasparov, le maître des échecs…
Il n'existe a pas aujourd'hui de benchmark qui permet d'évaluer l'ensemble des performances de manière exhaustive et globale (j’y inclus l’éthique). Pour évaluer les performances d'une IA de manière objective, il faut s'appuyer sur plusieurs outils. Le souci avec les benchmarks dans l'IA c’est qu'aujourd'hui pour connaitre la performance réelle d'un modèle, on peut s'appuyer surtout sur les benchmarks de chaque éditeur... autant dire que c'est relatif.
Cependant, il en existe quelques-uns. Ci-après 3 exemples de benchmarks utilisés pour mesurer les IA :
- Le benchmark MMLU (Massive Multitask Language Understanding) couvre 57 domaines distincts comme la médecine, l'histoire, le droit. Ce benchmark permet de mesurer la profondeur et la largeur des connaissances du modèle. Référentiel créé en 2020 et issu de la recherche universitaire. MMLU contient environ 16 000 questions à choix multiples portant sur 57 matières académiques
- Le benchmark MATH comme son nom l'indique va évaluer l'IA sur des problèmes mathématiques complexes. Pas forcément utile si vous prévoyez de déployer une IA sur le droit.
- Enfin, le benchmark MMMU (2023) pour Massive MultiModal Understanding est un référenciel 11 500 questions niveau universitaire dans différentes disciplines et qui a pour objectif d'évaluer la "perception" et le raisonnement du modèle (on parle de compétences multimodales). Ce benchmark repose sur des supports tels que des graphiques, schémas et images.
Même si comme vu ci-dessus, des benchmarks existent, ils sont certes récents et souvent le fruit de recherches universitaires. C'est un bon début mais il reste du chemin pour convaincre les industriels de, primo, standardiser ces benchmarks, deuxio partager un ou plusieurs bancs d'essais communs pour évaluer leurs IA à l'instar de ce qui se fait dans l'informatique classique et tertio de les adopter sur le long terme pour les faire évoluer de pair avec les IA.
- Anmelden oder Registrieren, um Kommentare verfassen zu können