ZePot a écrit :
Imaginez que vous passez un QCM où on donne 1 point pour chaque bonne réponse, et simplement 0 en cas de réponse incorrecte. Si vous ne connaissez pas la réponse à une question, il vaut mieux répondre au pif que ne pas répondre du tout. Voilà pourquoi les modèles hallucinent.
Pourquoi alors, plus une IA est puissante, plus elle hallucine, indépendamment de son usage de données "synthétiques"? Je pense que tu as déjà remarqué que les modèles sont incapables de donner la fiabilité de leurs résultats (ou s'ils le font, l'indicateur de fiabilité n'est absolument pas fiable...). Ils peuvent pourtant faire des "cross validation" (c'est-à-dire en gros calculer avec une moitié des informations choisie aléatoirement, puis calculer avec l'autre moitié, le faire un milier de fois et calculer un risque d'erreur), mais cela n'améliorer que marginalement la prédiction. C'est lié à des causes plus profondes liées à l'architecture probabiliste des LLM. Pour le dire rapidement, mathématiquement, ces modèles sont basés sur une forme de moyennisation, mais la réalité est aussi souvent "modale". Entre habiter la campagne et avoir une voiture, et habiter la ville et rouler en trottinette, il n'y a pas un rapport linéaire. Habiter en banlieue ne signifie pas que sa voiture va avoir une forme de trottinette. Les modèles doivent tout le temps lutter contre cette dérive des objets créés, c'est ce qu'ils font massivement depuis le début. Mais dès qu'ils colmattent d'un côté, l'hallucination surgit de l'autre. Donc, plus le modèle est large, plus le mécanisme d'hallucination est puissant d'une part et plus il explore des combinaisons non validées d'autre part. Si cela avait été un problème aussi simple que tu le suggères, cela aurait été résolu de longue date.
Il y a une course à la donnée, qui bute contre l'épuisement des données nouvelles et au fait que tout le réel n'est pas numériquement codable (donc disponible comme information pour l'IA). Mais structurellement, il y a une autre limitation de l'IA qui est sa très faible capacité d'apprentissage intrinsèque, que l'on peut constater très simplement: un enfant n'a pas besoin de visualiser des milliers de trottinettes et de voitures différentes pour distinguer une voiture ou une trottinette: quelques unes suffit. A un moment, il faudra changer ce mot "intelligence" qui est trompeur, pour le bien de l'humanité (quoi que je ne suis pas optimiste).
Vous battez pas, je vous aime tous