Investigación
La URV encuentra el talón de Aquiles de la IA
Un estudio evidencia las deficiencias de estos sistemas en cuestiones gramaticales
La inteligencia artificial es uno de los temas más candentes últimamente. El auge de esta tecnología, que parece omnipotente y amenaza puestos de trabajo en muchos sectores, se convierte en una de las grandes transformaciones sociales actuales. Sin embargo, su funcionamiento óptimo todavía está por llegar.
Por ejemplo, en los últimos años se ha avanzado mucho al intentar enseñar el lenguaje a los ordenadores, y eso ha dado lugar a la aparición de los llamados grandes modelos de lenguaje, tecnologías entrenadas a partir de enormes cantidades de datos que son la base de algunas aplicaciones de inteligencia artificial (IA): motores de búsqueda, traductores automáticos o conversores de audio a texto.
¿Pero cómo son las capacidades lingüísticas de estos modelos? ¿Se pueden equiparar en las de un ser humano? Un equipo investigador liderado por la URV con participación de la Universidad Humboldt de Berlín, la Universidad Autónoma de Barcelona (UAB) y la Institución Catalana de Investigación y Estudios Avanzados (ICREA) puso a prueba estos sistemas para comprobar si realmente tienen capacidades lingüísticas equiparables a las de las personas. Para hacerlo compararon la habilidad humana con la de los tres mejores grandes modelos de lenguaje disponibles actualmente: dos basados en GPT3, así como ChatGPT, basado en GP3.5.
Se les asignó una tarea fácilmente ejecutable para las personas: a partir de muchos tipos diferentes de oraciones tenían que identificar al momento si esta estaba gramaticalmente bien formada en su lengua materna o no. Tanto a los humanos que participaron en este experimento como a los modelos del estudio se les hizo una pregunta muy simple: «¿Esta oración es gramaticalmente correcta?».
Los resultados demostraron que los humanos respondieron correctamente, mientras que los grandes modelos de lenguaje dieron muchas respuestas erróneas. De hecho, se detectó que adoptaron una estrategia predeterminada que consistía en responder «sí» la mayoría de veces, independientemente de si la respuesta era correcta o no.
«El resultado es sorprendente, ya que a estos sistemas se les instruye según lo que es gramaticalmente correcto o no en un idioma», explica Vittoria Dentella, investigadora del Departamento de Estudios Ingleses y Alemanes, que ha liderado el estudio. La investigación, pues, pone de manifiesto que hay un doble desajuste entre humanos e IA. Les personas no tienen acceso a «evidencia negativa», mientras que los grandes modelos de lenguaje tienen un amplio acceso a esta información a través de la retroalimentación humana, pero aun así no pueden reconocer errores gramaticales triviales, mientras que los humanos pueden hacerlo instantáneamente y sin esfuerzo. «Pensamos que hace falta una reflexión crítica sobre las afirmaciones que atribuyen a las IA capacidades lingüísticas similares a las de las personas», concluye Dentella.