Quins impactes de la IA generativa en la docència i la recerca?
Resum del 4t Seminari “AGIR” (Accions de governança iniciades per la recerca) a l’Université Paris Dauphine – PSL. IA generativa en la docència i en la recerca.
Les intel·ligències artificials generatives han estat al capdavant de l’escena mediàtica des del llançament de ChatGPT el novembre de 2022. Com funcionen? Què esperar?
“El nostre paper com a gran actor acadèmic no és prohibir, sinó reflexionar sobre l’aparició d’aquestes tecnologies per actuar millor”.
E.M. Mouhoud, president de l’Université Paris Dauphine – PSL
Darrere de ChatGPT, la revolució dels “large language models”
Síntesi de la introducció d’Alexandre Allauzen, professor d’informàtica a ESPCI-PSL i investigador LAMSADE (Université Paris Dauphine – PSL).
El 30 de novembre de 2022, l’empresa OpenAI va llançar oficialment ChatGPT, un agent de conversa de nova generació (o xatbot). En una setmana, la plataforma per posar l’eina a disposició va tenir més d’un milió d’usuaris. En dos mesos, més de cent milions. Fenomen immediat i global. Un èxit en gran part per la versatilitat de l’eina i el realisme de les seves respostes. L’escriptura de Chatbot fa blufs tant a l’hora de presentar idees de noves empreses o start-ups als inversors com a l’hora d’elaborar un esquema de dissetació.
Model de llenguatge molt gran
L’eina basa el seu rendiment en un “large language model”, o en català: model de llenguatge molt gran. Un model de llenguatge és, en primer lloc, una representació estadística d’una llengua. Permet predir, a partir d’una seqüència de paraules, quina és la paraula següent més probable. És més probable que la frase “El temps vola si…” es completi amb la paraula “ràpidament” que amb la paraula “retroexcavadora”. A cada paraula, per tant, el model de llenguatge associa un pes estadístic segons les paraules anteriors, és a dir, segons el context. Així és com el model pot generar, paraula a paraula, frases que tinguin sentit per a un ésser humà.
Avui hi ha més d’un centenar de models de llenguatge. GPT-3, el que fa servir ChatGPT, és només un. Gegant de la indústria digital com Google, Amazon o Microsoft estan treballant en els seus propis models de llenguatge, així com actors acadèmics com les universitats de Berkeley, Stanford o Fundan. Si els models de llenguatge són tan nombrosos, és sobretot perquè no són nous, i que els actors acadèmics i industrials de la intel·ligència artificial s’hi posicionen des de fa més de 20 anys.
Representació dels models lingüístics existents al març de 2023
Els “large language models” en 3 passos
A principis dels anys 2000, el camp de processament automàtic del llenguatge va experimentar un punt d’inflexió important amb les “insercions de paraules”. Aquesta tècnica consisteix a representar una paraula segons el seu comportament. “jo”, “tu” i “nosaltres” tenen una funció similar. “Garraf”, “Olot” i “Barcelona” tenen un altre.
Gràcies a l’auge de les xarxes neuronals als anys 200, va ser possible que els models aprenguessin automàticament aquestes funcions de paraules, amb un enfocament estadístic i no humà. I per entrenar aquestes xarxes neuronals, el camp pot comptar amb una altra tecnologia que estava en auge en aquest moment: Internet, i el seu colossal nombre de textos ara disponibles en línia que alimentaran l’aprenentatge. Aquest és el primer pas cap a eines com ara ChatGPT.
Segona etapa: mitjans dels anys 2010, i el concepte clau d’atenció, extret de les eines de traducció automàtica. A la frase en francès “je livre une pizza en boîte”, com traduir la paraula “livre” en anglès? Llibres? Lliura? Entregar? Per fer-ho, cal analitzar l’atenció que es posa a la frase a traduir. A “livre” segueix el pronom “je”. El pronom esdevé important per al model de traducció perquè condiciona la presència d’un verb darrere, i permet seleccionar “entregar” en l’àmbit de les possibilitats.
I finalment el tercer pas: els transformadors, que capitalitzen els dos passos anteriors. Els models no només poden identificar correctament la funció d’una paraula, sinó que ara els transformadors poden determinar el seu significat mitjançant l’anàlisi de paraules anteriors i següents. En altres paraules: ara els models lingüístics tenen en compte el context de les paraules i les frases.
De la teoria a ChatGPT
GPT-3 es basa en aquests transformadors. L’acrònim GPT significa Generative Pre-trained Transformers, o transformadors generatius pre-entrenats. L’essència de GPT és fer cascada d’aquests maons tecnològics que són els transformadors per donar a cada paraula, cada frase, un significat comprensible pels humans. Aquest model de llenguatge s’anomena “molt gran” (large) perquè utilitza 175.000 milions de paràmetres per representar un context. Mida dels paràmetres que ha crescut de manera exponencial recentment: els models de llenguatge més grans de fa 2 anys només tenien uns quants centenars de milions de paràmetres. Aquest ràpid creixement és el que explica en gran mesura el rendiment sobtat d’eines recents com ara ChatGPT. I el creixement continua a un ritme sostingut.
Un cop el model de llenguatge GPT sigui prou eficient, només queda afegir-hi la funció de xat per convertir-lo en l’eina de conversa que és avui. Això requereix tres passos. Primer, mostreu manualment al model la resposta humana esperada a una pregunta per entrenar-lo de manera supervisada. A continuació, demaneu-li que formuli les respostes i les classifiqueu de millor a pitjor. Finalment, ensenyar al model a autoavaluar les seves respostes perquè pugui interactuar de manera autònoma.
Aplicacions i limitacions dels principals models lingüístics
Aquesta capacitat d’interactuar implica una nova relació amb la informació, ja no basada en la recerca, sinó en la generació. ChatGPT pot processar informació i ordenar-la per refinar-la. Pot generar codi, resums de temes complexos, transcriure una imatge… Tantes aplicacions que plantegen preguntes sobre l’impacte d’aquesta tecnologia en la nostra vida quotidiana. Per a l’experiment, els investigadors van fer exàmens ChatGPT. Dret, art, biologia: el programa supera aquestes proves basades en l’adquisició de coneixements.
De manera més pragmàtica, l’aplicació d’aprenentatge d’idiomes Duolingo ha planejat utilitzar ChatGPT al seu sistema per enriquir els comentaris dels estudiants. La startup Be My Eyes l’utilitza per descriure l’entorn de les persones amb discapacitat visual. I les aplicacions de treball col·laboratiu també l’integren per facilitar la presa de notes o les interaccions entre els participants.
Tanmateix, queden algunes limitacions. Els models i les dades no estan oberts a la comunitat, el cost de l’eina planteja problemes d’accessibilitat i ChatGPT encara no és adequat per a usos nínxols com ara aplicacions legals. Com totes les tecnologies digitals basades en conjunts de dades, la tecnologia també depèn de la qualitat de les dades utilitzades per a la formació: biaixos socials, ètnics o de gènere. Tanmateix, aquests límits són peribles. Els esmentats ahir en el nivell de rendiment ja no tenen cap raó per ser-ho, i els esmentats anteriorment poden deixar de ser rellevants d’aquí a uns mesos.
Consulta o repassa el seminari del dijous 30 de març
ACTE #4 | ChatGPT, Bard… quins impactes té la IA generativa en l’ensenyament i la investigació?
Sobre AGIR
Organitzats al voltant de diversos temes clau relacionats amb el programa de la presidència de la universitat per al període 2021-24, els Seminaris AGIR (Accions de Governació Iniciades per la Recerca) conviden els actors de la comunitat del Dauphiné a compartir les anàlisis i qüestions que permetin fonamentar millor la accions de govern de la universitat. Les conferències i debats són oberts al públic en general.