ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

Clima - Sydney 18°C

ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

ECONOMíA 06.06.2024

ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio / Foto: © AFP/Archivos

Los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, uno de los sistemas de inteligencia artificial más populares del mundo, siguen teniendo dificultades para razonar usando la lógica y se equivocan con frecuencia, según un estudio.

Tamaño del texto:

Estos robots conversacionales reflejan los sesgos de género, éticos y morales de los humanos presentes en los textos de los que se alimenta, recuerda el estudio aparecido el miércoles en la revista Open Science de la Royal Society británica.

¿Pero reflejan también los sesgos cognitivos de los humanos en las pruebas de razonamiento?, se preguntó Olivia Macmillan-Scott, estudiante de doctorado del departamento de ciencias de computación de la University College de Londres (UCL).

El resultado de la investigación es que los LLM muestran "un razonamiento a menudo irracional, pero de una manera diferente a la de los humanos", explica la investigadora a AFP.

Bajo la dirección de Mirco Musolesi, profesor y director del Machine Intelligence Lab de UCL, Macmillan-Scott sometió siete modelos de lenguaje -dos versiones de ChatGPT (3.5 y 4) de OpenAI, Bard de Google, Claude 2 de Anthropic y tres versiones de Llama de Meta- a una serie de pruebas psicológicas pensadas para humanos.

¿Cómo afrontan, por ejemplo, el sesgo que lleva a favorecer soluciones con el mayor número de elementos, en detrimento de las que tiene una proporción adecuada?

Un ejemplo. Si tenemos una urna con nueve canicas blancas y una roja y otra urna con 92 blancas y 8 rojas, ¿cual hay que elegir para tener más posibilidades de sacar una canica roja?

La respuesta correcta es la primera urna, porque hay un 10% de posibilidades frente a solo un 8% para la segunda opción.

Las respuestas de los modelos de lenguaje fueron muy inconstantes. Algunos respondieron correctamente seis de cada diez veces la misma prueba. Otros solo dos de diez aunque la prueba no cambió.

"Obtenemos una respuesta diferente cada vez", apuntala la investigadora.

Los LLM "pueden ser muy buenos para resolver una ecuación matemática complicada pero luego te dicen que 7 más 3 son 12", afirma.

En un caso el modelo denominado Llama 2 70b se negó de manera sorprendente a responder a una pregunta alegando que el enunciado contenía "estereotipos de género dañinos".

- "No estoy muy seguro" -

Estos modelos "no fallan en estas tareas de la misma manera que falla un humano", señala el estudio.

Es lo que el profesor Musolesi llama "errores de máquina".

"Hay una forma de razonamiento lógico que es potencialmente correcta si la tomamos por etapas, pero que está mal tomada en su conjunto", apunta.

La máquina funciona con "una especie de pensamiento lineal", dice el investigador, y cita al modelo Bard (ahora llamado Gemini), capaz de realizar correctamente las distintas fases de una tarea pero que obtiene un resultado final erróneo porque no tiene visión de conjunto.

Sobre esta cuestión el profesor de informática Maxime Amblard, de la Universidad francesa de Lorena, recuerda que "los LLM, como todas las inteligencias artificiales generativas, no funcionan como los humanos".

Los humanos son "máquinas capaces de crear sentido", lo que las máquinas no saben hacer, explica a AFP.

Hay diferencias entre los distintos modelos de lenguaje y en general GPT-4, sin ser infalible, obtuvo mejores resultados que los demás.

Macmillan-Scott afirma sospechar que los modelos llamados "cerrados", es decir cuyo código operativo permanece en secreto, "incorporan otros mecanismos en segundo plano" para responder a preguntas matemáticas.

En todo caso, por el momento, es impensable confiar una decisión importante a un LLM.

Según el profesor Mosulesi, habría que entrenarlos para que respondan "No estoy muy seguro" cuando sea necesario.

P.Sinclair--TNT

Destacadas

EEUU autoriza a Ucrania el uso de misiles de largo alcance contra Rusia

El presidente Joe Biden autorizó a Ucrania a usar misiles estadounidenses de largo alcance contra objetivos militares en Rusia, indicó a AFP un alto funcionario en Washington, horas después de un bombardeo masivo ruso contra la red eléctrica ucraniana.

The Retreat Palm Dubai MGallery by Sofitel: Un oasis de bienestar de cinco estrellas

Elevándose entre las centelleantes aguas del Golfo Arábigo, The Retreat Palm Dubai MGallery by Sofitel se erige como un faro de lujo y bienestar. Situado en la famosa Palm Jumeirah, concretamente en la East Crescent, este complejo de cinco estrellas ofrece una mezcla inigualable de servicio impecable, experiencias holísticas de bienestar y una impresionante ubicación frente al mar.Liderazgo visionario y excelente gestiónEl éxito y la reputación de The Retreat Palm Dubai están estrechamente vinculados al liderazgo visionario del Director General del Grupo, el Sr. Sumair Tariq, y del Director General del Hotel, el Sr. Samir Arora. Su visión de futuro y su compromiso con la excelencia han hecho del hotel una de las direcciones más solicitadas de Dubai. Han creado un santuario que no sólo ofrece lujo, sino también un lugar donde los huéspedes pueden encontrar rejuvenecimiento físico y mental.

Trump nombra al empresario del fracking Chirs Wright secretario de Energía

El presidente electo de Estados Unidos, Donald Trump, anunció el sábado que Chris Wright, magnate del fracking y escéptico del cambio climático, será su secretario de Energía, para "reducir la burocracia" y estimular las inversiones en combustibles fósiles.

Ucrania denuncia un ataque ruso "masivo" contra su red energética

La ya frágil red energética de Ucrania sufrió el domingo un ataque ruso "masivo", denunciaron las autoridades, que dejó al menos ocho muertos y una veintena de heridos en todo el país.

Tamaño del texto:

The National Times - ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio