Recerca
La URV troba el taló d’Aquil·les de la IA
Un estudi evidencia les deficiències d’aquests sistemes en qüestions gramaticals
La intel·ligència artificial és un dels temes més candents darrerament. L’auge d’aquesta tecnologia, que sembla omnipotent i amenaça llocs de treball en molts sectors, esdevé una de les grans transformacions socials actuals. Tot i això, el seu funcionament òptim encara està per arribar.
Per exemple, en els darrers anys s’ha avançat molt en intentar ensenyar el llenguatge als ordinadors, i això ha donat lloc a l’aparició dels anomenats grans models de llenguatge, tecnologies entrenades a partir d’enormes quantitats de dades que són la base d’algunes aplicacions d’intel·ligència artificial (IA): motors de cerca, traductors automàtics o conversors d’àudio a text.
Però com són les capacitats lingüístiques d’aquests models? Es poden equiparar a les d’un ésser humà? Un equip investigador liderat per la URV amb participació de la Universitat Humboldt de Berlín, la Universitat Autònoma de Barcelona (UAB) i la Institució Catalana de Recerca i Estudis Avançats (ICREA) va posar a prova aquests sistemes per comprovar si realment tenen capacitats lingüístiques equiparables a les de les persones. Per fer-ho van comparar l’habilitat humana amb la dels tres millors grans models de llenguatge disponibles actualment: dos basats en GPT3, així com ChatGPT, basat en GP3.5.
Se’ls va assignar una tasca fàcilment executable per a les persones: a partir de molts tipus diferents d’oracions havien d’identificar al moment si aquesta estava gramaticalment ben formada en la seva llengua materna o no. Tant als humans que van participar en aquest experiment com als models de l’estudi se’ls va fer una pregunta molt simple: «Aquesta oració és gramaticalment correcta?».
Els resultats van demostrar que els humans van respondre correctament, mentre que els grans models de llenguatge van donar moltes respostes errònies. De fet, es va detectar que van adoptar una estratègia predeterminada que consistia en respondre «sí» la majoria de vegades, independentment de si la resposta era correcta o no.
«El resultat és sorprenent, ja que a aquests sistemes se’ls instrueix segons el que és gramaticalment correcte o no en un idioma», explica Vittoria Dentella, investigadora del Departament d’Estudis Anglesos i Alemanys, que ha liderat l’estudi. La recerca, doncs, posa de manifest que hi ha un doble desajust entre humans i IA. Les persones no tenen accés a «evidència negativa», mentre que els grans models de llenguatge tenen un ampli accés a aquesta informació a través de la retroalimentació humana, però tot i així no poden reconèixer errades gramaticals trivials, mentre que els humans poden fer-ho instantàniament i sense esforç. «Pensem que cal una reflexió crítica sobre les afirmacions que atribueixen a les IA capacitats lingüístiques similars a les de les persones», conclou Dentella.