martes, 6 de mayo de 2025

ChatGPT Alucinando

 


 

 El problema de alucinaciones de ChatGPT está empeorando según las propias pruebas de OpenAI y nadie entiende por qué.


 

¿Recuerdan ...no..no creo que recuerden, pero me referí hace cierto tiempo; como las otras versiones de lo que llamamos Open Source, explicaban la reciente incorporación del Razonamiento o Deep Thinking? 

Pues bien, a ese misterio que rodea a los últimos grandes modelos de lenguaje (LLM), junto con innumerables otros, ahora se suma el empeoramiento de las alucinaciones. Y esto según las pruebas de OpenAI, la empresa líder en chatbots.

El New York Times informa que una investigación de OpenAI sobre sus últimos grandes LLM GPT o3 y GPT o4-mini reveló que son sustancialmente más propensos a alucinar o a inventar información falsa que el anterior modelo GPT o1.

La compañía descubrió que o3, su sistema más potente, alucinaba el 33 % del tiempo al ejecutar su prueba de referencia PersonQA, que consiste en responder preguntas sobre figuras públicas. 

Esto representa más del doble de la tasa de alucinaciones del sistema de razonamiento anterior de OpenAI, llamado o1. El nuevo o4-mini alucinaba a una tasa aún mayor: 48 % —según el Times—.

Al ejecutar otra prueba llamada SimpleQA, que plantea preguntas más generales, las tasas de alucinaciones para o3 y o4-mini fueron del 51 % y 79 % respectivamente. El sistema anterior, o1, alucinaba el 44 % del tiempo.

OpenAI ha afirmado que se necesita más investigación para comprender por qué los modelos más recientes son más propensos a las alucinaciones. Sin embargo, los llamados modelos de "razonamiento" son los principales candidatos, según algunos analistas del sector.

"Las tecnologías más nuevas y potentes —los llamados sistemas de razonamiento de empresas como OpenAI, Google y la startup china DeepSeek— están generando más errores, no menos", afirma el Times.

En pocas palabras, los modelos de razonamiento son un tipo de LLM diseñado para realizar tareas complejas. En lugar de simplemente generar texto basado en modelos estadísticos de probabilidad, los modelos de razonamiento descomponen las preguntas o tareas en pasos individuales, similares al proceso de pensamiento humano.

El primer modelo de razonamiento de OpenAI, o1, se lanzó el año pasado y se afirmaba que igualaba el rendimiento de los estudiantes de doctorado en física, química y biología, y los superaba en matemáticas y programación gracias al uso de técnicas de aprendizaje por refuerzo.

"De forma similar a cómo un humano puede pensar durante mucho tiempo antes de responder a una pregunta difícil, o1 utiliza una cadena de pensamiento al intentar resolver un problema", declaró OpenAI cuando se lanzó o1.

Sin embargo, OpenAI ha refutado la idea de que los modelos de razonamiento sufren un aumento en las tasas de alucinación. "Las alucinaciones no son inherentemente más frecuentes en los modelos de razonamiento, aunque estamos trabajando activamente para reducir las tasas más altas de alucinaciones que observamos en o3 y o4-mini", declaró Gaby Raila de OpenAI al Times.

Sea cual sea la verdad, una cosa es segura. Los modelos de IA deben eliminar en gran medida las tonterías y las mentiras para que sean tan útiles como sus defensores actualmente prevén. Actualmente, es difícil confiar en los resultados de cualquier LLM. 

Prácticamente todo debe verificarse cuidadosamente.

Eso está bien para algunas tareas. Pero cuando el principal beneficio es ahorrar tiempo o trabajo, la necesidad de comprobar y verificar meticulosamente los resultados de la IA frustra el objetivo de su uso. 

Queda por ver si OpenAI y el resto de la industria de LLM pueden controlar todos esos sueños robóticos no deseados.

 

 

No hay comentarios.:

Publicar un comentario