La Chatbot Arena, un classement élaboré par la Large Model Systems Organization (LMSYS), fournit une évaluation objective des performances des modèles d’intelligence artificielle, basée sur les retours des utilisateurs. Mis à jour en temps réel, ce classement offre un aperçu des tendances dans le domaine de l’IA générative, notamment pour la génération de texte.
Gemini Devance ChatGPT
En novembre 2024, la dynamique du classement a changé avec le retour en force de Google. Pour la première fois depuis le lancement de la Chatbot Arena, le modèle Gemini-Exp-1121 a surpassé ChatGPT-4o, prenant ainsi la première place. Ce modèle, lancé le 21 octobre 2024, se distingue par ses améliorations en matière de codage, de raisonnement et de vision. Google a également réussi à placer un autre modèle, Gemini-Exp-1114, sur le podium.
Classement des 10 Modèles de Langage les Plus Performants
Voici les modèles d’IA les plus performants selon la Chatbot Arena pour novembre 2024 :
Rang | Modèle | Score Elo |
---|---|---|
1 | Gemini-Exp-1121 | 1365 |
2 | ChatGPT-4o-latest | 1361 |
3 | Gemini-Exp-1114 | 1344 |
4 | o1-preview | 1334 |
5 | o1-mini | 1308 |
6 | Gemini-1.5-Pro-002 | 1301 |
7 | Grok-2-08-13 | 1289 |
8 | Yi-Lightning | 1287 |
9 | GPT-4o-2024-05-13 | 1285 |
10 | Claude 3.5 Sonnet | 1282 |
OpenAI demeure un acteur majeur avec plusieurs modèles dans le top 10, mais Claude, qui était auparavant un concurrent régulier, a chuté à la dixième place.
Critères de Classement
La méthode d’évaluation de la Chatbot Arena repose sur un système de duel où les utilisateurs choisissent entre deux modèles anonymisés en fonction de leur performance sur une requête donnée. Ce processus utilise un score Elo, similaire à celui utilisé dans les échecs et l’esport, qui évolue en fonction des résultats des duels. Lorsqu’un modèle bat un adversaire avec un score plus élevé, il gagne des points ; inversement, il en perd s’il est vaincu par un modèle supposément moins performant.
Cette approche innovante permet d’établir un classement objectif et dynamique des modèles d’IA, reflétant ainsi leurs capacités réelles dans divers contextes d’utilisation. Les récents succès de Gemini soulignent une intensification de la compétition entre Google et OpenAI dans le domaine des intelligences artificielles génératives.