Cet article compare les systèmes d’IA basés sur des agents et les économistes humains effectuant les mêmes tâches d’inférence causale. Les systèmes d’IA et les humains obtiennent généralement des estimations moyennes similaires de l’effet causal. Bien qu'il existe une variation considérable dans les estimations entre les instances du modèle, les distributions des estimations humaines ont des queues plus larges. En utilisant des modèles d'IA comme évaluateurs pour comparer et classer les « soumissions », quel que soit le modèle d'évaluateur, les résultats de classement suivants : (1) Codex GPT-5.4, (2) Codex GPT-5.3-Codex, (3) Claude Code Opus 4.6 et (4) Chercheurs humains. Ces résultats suggèrent que les systèmes d’IA basés sur des agents nous permettront d’étendre la recherche empirique en économie.
J'aime le nom de l'auteur, Serafin Grundl. Voici l'article d'Ethan Mollick. On pourrait interpréter ces résultats comme montrant que les IA ont moins d’hallucinations. Et juste pour réitérer un point important du journal :
La deuxième partie de ce travail est un tournoi de révision de l'IA dans lequel les « soumissions » (codes et attributions) des humains et des modèles d'IA sont comparées et évaluées. Les testeurs sont les modèles d'IA suivants : Gemini 3.1 Pro Preview, Opus 4.6 et GPT-5.4. Pour chaque examen, l'examinateur est invité à rédiger un rapport comparant quatre soumissions (humain, Opus 4.6, GPT-5.3 Codex, GPT-5.4). Chaque modèle d'auditeur rédige des rapports de comparaison pour les mêmes 300 groupes de comparaison. Les classements moyens sont étonnamment similaires dans tous les modèles d'évaluateurs : (1) Codex GPT-5.4, (2) Codex GPT-5.3-Codex, (3) Claude Code Opus 4.6 et 2(4) Chercheurs humains.
Qui arrive en dernier ? Bonjour les amis !
#Une #comparaison #entre #les #systèmes #d39IA #d39agents #les #économistes #humains