Santander, 9 de agosto de 2023-. ‘Procesamiento del lenguaje natural: enseñando nuestro idioma a las máquinas’ es el título que recibe una de las numerosas ponencias que se sucederán esta semana dentro del marco de la VII Aula de Verano ‘Blas Cabrera’, uno de los cursos del Programa de Verano de la Universidad Internacional Menéndez Pelayo (UIMP) en el que colabora el ministerio de Ciencia e Innovación.
La charla ha estado dirigida por Carlos Gómez Rodríguez, investigador de la Universidad de La Coruña (UDC) y premio Nacional de Investigación para jóvenes María Andressa Casamayor en el ámbito de las TIC, quien la iniciaba definiendo el procesamiento del lenguaje como el “subcampo de la Inteligencia Artificial que se dedica a enseñar a las máquinas a trabajar con lenguaje humano, comprenderlo y usarlo”. Pero, ¿entienden realmente estos modelos el lenguaje natural? Carlos Gómez ha abierto el debate explicando que “algunos expertos dicen que estos modelos no poseen intencionalidad a la hora de comunicarse a través del lenguaje natural y son poco fiables y fáciles de confundir. Pero otros defienden que sí muestran capacidad de modelado del mundo, son capaces de comunicarse con nosotros con una intención, algo que, hasta ahora, es inexplicable”, ha aclarado Gómez.
A pesar de estas opiniones, el investigador ha aportado su propia visión sobre este subcampo de la Inteligencia Artificial. “A pesar de los avances de estos sistemas, la creatividad humana va a seguir teniendo mucho valor. Vamos a tener que aprender a aprovechar los aspectos positivos y convivir con los negativos y paliarlos”, ha apuntado.
De los inicios al Chat GPT
“La llegada de los grandes sistemas del lenguaje (GMDL) ha llevado a nuevas formas de trabajo”, ha asegurado Gómez, quien ha añadido que “en lugar de representar las palabras como tales, se representan como vectores. Esto se combina con conjuntos de datos sacados de internet. De todas las posibles respuestas se le pide que seleccione la que más me gusta a mí. El resultado son sistemas como el Chat GPT que no solo generan textos plausibles sino también que gustan”.
Las primeras investigaciones dentro de este campo de la IA datan de los años cincuenta. “En esa época se procesaba mediante reglas que se escribían manualmente para codificar el conocimiento”, ha apuntado Gómez, que lo comparaba, para su mejor comprensión, con nuestra experiencia en la niñez, “de pequeños no paramos de recibir información del entorno y nuestro cerebro se encarga de realizar las conexiones necesarias”.
Sin embargo, este método deja de hacer falta cuando se incorpora el ‘aprendizaje supervisado’. “Se asignan categorías gramaticales a cada palabra, creando listas con cada una de ellas”, ha comentado el premio nacional. El problema viene cuando una misma palabra entra dentro de varias categorías, entonces “se basan en los determinantes que las acompañan”, ha aclarado Gómez.
Además, debemos tener en cuenta el orden de los vocablos. Para ello se actúa igual, “se mandan al sistema miles de ejemplos de frases analizadas sintácticamente para que aprenda las ‘flechas de dependencia’ y una vez tenemos el árbol sintáctico, lo combinamos con diccionarios que asocian a cada palabra un significado positivo o negativo”, ha declarado Gómez.