
Un equipo de investigadores ha establecido un nuevo punto de referencia, llamado Hist-LLM, para evaluar tres de los principales modelos de lenguaje de gran tamaño (LLM): GPT-4 de OpenAI, Llama de Meta y Gemini de Google, en tareas históricas. Este punto de referencia se basa en el Banco de Datos de Historia Global Seshat, una extensa base de datos histórica que lleva el nombre de la diosa egipcia de la sabiduría.
Los resultados presentados en la conferencia de inteligencia artificial NeurIPS el mes pasado revelaron un desempeño decepcionante. El modelo con mejor rendimiento fue GPT-4 Turbo, pero su precisión alcanzó solo un 46%, lo que está apenas por encima del nivel de las respuestas aleatorias, según los investigadores del Complexity Science Hub (CSH) en Austria.