De nombreuses critiques d'IA ont essayé de trouver des problèmes difficiles. Cela a du sens car ils peuvent poursuivre les progrès au fil du temps, et bon nombre des problèmes les plus importants au monde sont des problèmes difficiles, tels que la construction de progrès dans les cadeaux du BIOS. Une approche commune est, par exemple, la poursuite de la performance des modèles d'IA actuels sur les problèmes avec les Jeux olympiques internationaux des mathématiques.
Je suis tout pour ces efforts et je ne veux pas les réduire.
Néanmoins, ils introduisent des préjugés dans nos estimations de progrès. Beaucoup de ces mesures montrent que l'AIS ne résout toujours pas les problèmes les plus fondamentaux et ne se rapproche pas.
En revanche, les utilisateurs humains réels embauchent généralement des IA pour les soutenir dans des problèmes relativement simples. Vous utilisez AIS pour des conseils juridiques (standard) pour aider à faire ses devoirs, pour dessiner des plans de voyage, pour changer une recette, en tant que thérapeute ou consultant, etc. On pourrait dire qu'il s'agit du panier de consommation réel pour l'utilisation de LLM, env. 2025.
Il serait intéressant de tirer le taux de progression du LLM, pondéré comment les humains utilisent réellement. La forme la plus simple de pondération serait “le temps à consacrer à la LLM”, bien que probablement une meilleure forme de pondération “volonté de payer pour chaque utilisation LLM”.
Je soupçonne fortement que nous trouverions ce qui suit:
1. Les progrès de ces dernières années ont été étonnamment élevés, beaucoup plus élevés que dans de nombreuses autres revues pour une utilisation pratique quotidienne. Les modèles actuels sont bien meilleurs et plus fiables et polyvalents qu'à la fin de 2022, quels que soient leurs défauts de problèmes d'Olympiades mathématiques.
2. Les progrès futurs seront beaucoup plus bas que prévu. De nombreuses réponses sont si bonnes qu'elles ne peuvent tout simplement pas s'améliorer, ou vous le ferez à un rythme lent. (Si vous ne pensez pas que cela est vrai maintenant, ce sera vrai très bientôt. Mais en fait, c'est maintenant vrai pour les meilleurs modèles.) Dès qu'une bonne réponse a été générée, les conseils juridiques ne peuvent pas beaucoup s'améliorer, peu importe la quantité de LLM.
Comme dans l'économie standard, les paniers de consommation changent au fil du temps, et cela peut être utilisé pour différentes dimensions de progrès (ou dans le contexte économique, différentes estimations du progrès dans le niveau de vie, selon que les poids ex-ante ou ex-post sont utilisés). Les chercheurs pourraient essayer d'apprécier l'effort plus spéculatif sur la façon dont les LLM sont utilisées dans la vie quotidienne dans cinq ans (qui diffère du statu quo), puis suivre les progrès sur cette métrique en utilisant ces poids de valeur. “À quelle vitesse améliorons-nous ces systèmes dans vos utilisations futures?”
Avec cette approche alternative aux corbes de consommation, vous obtenez une perspective complètement différente sur les progrès dans l'IA.
Notez également que la différence entre les «mesures d'Olympiad mathématique de la progression de l'IA» et les «mesures de panier grand public de la progression de l'IA» peuvent au fil du temps, surtout si le panier d'utilisation quotidienne ne change pas radicalement. L'utilisation quotidienne atteint des niveaux de performance presque maximaux, mais il y aura toujours une nouvelle série de problèmes très difficiles pour dépasser l'AIS. Il devient de plus en plus clair combien de progrès d'IA nous faisons vraiment.
L'approche d'un corbe de consommation pour mesurer les progrès de l'IA est apparu initialement dans la révolution de bord.
#Une #approche #consommation #consommation #pour #mesurer #les #progrès #l39IA