La recerca francesa, impulsora d’un nou model d’IA

Entrenat pel superordinador Jean Zay i amb la participació de molts investigadors del CNRS, s’acaba de lliurar el model de llenguatge de ciència oberta i multilingüe més gran mai creat. IA: nou model.

La intel·ligència artificial és aquí i està preparada, si encara no ho ha fet, per tocar tots els aspectes de les nostres vides, des de determinar l’estructura tridimensional de les proteïnes fins a recomanar pel·lícules. La producció de textos també es veu afectada, mentre que els models de llenguatge es beneficien de les últimes innovacions en intel·ligència artificial i de la millora del rendiment de les màquines que els fan servir.

El principal interès dels models lingüístics rau en la seva capacitat per predir correctament seqüències de paraules a partir de paraules anteriors“, explica Oliver Cappé, director científic adjunt de l’INS2I i director de recerca del CNRS a DI ENS. El model construeix representacions subtils de frases i paraules, que després li permeten captar les seves característiques lèxiques, encara que no entén la llengua en el sentit estricte del terme. Aquestes representacions lèxiques s’anomenen “incrustacions de paraules”. »

Trobem aquest principi, per exemple, quan un telèfon intel·ligent suggereix automàticament una resposta a un missatge o la paraula següent d’un missatge de text. L’aplicació principal, però, segueix sent la traducció automàtica, però també hi ha la detecció de sentiments, la moderació de continguts, l’escriptura de textos llegibles a partir de xifres en brut, els chatbots capaços de respondre preguntes senzilles, així com diverses simplificacions com els resums automàtics.

El superordinador convergent Jean Zay permet estendre els modes tradicionals d’ús de la informàtica d’alt rendiment (HPC) a nous usos per a la intel·ligència artificial (IA). Mitjançant dues ampliacions successives, la seva capacitat es va incrementar el 2022 fins als 36,8 petaflops. ©Cyril FRESILLON / IDRIS / CNRS Fototeca

No obstant això, els principals models lingüístics disponibles presenten serioses barreres“, subratlla François Yvon, director de recerca del CNRS a LISN. Són molt complicats de revisar i les empreses que els van crear no són completament transparents sobre el seu disseny i funcionament. Si preguntes a un d’aquests models quin és el color del cavall blanc d’Enric IV, respon “blanc”. No obstant això, no tenim manera de saber si el model ha memoritzat la resposta, per exemple perquè ja se l’ha preguntat, o si l’ha trobat pel seu compte.

De fet, aquests models lingüístics provenen principalment dels gegants de les noves tecnologies (Google, Microsoft, etc.), que prefereixen revelar el menys possible els seus secrets de fabricació. Un altre problema: l’anglès s’utilitza massivament en detriment d’altres llengües. Hugging Face, una start-up fundada per francesos a Nova York i que ofereix una de les principals plataformes d’aprenentatge automàtic del món, va llançar el projecte BigScience l’estiu del 2021. Pretén formar, sobre un model de ciència oberta i participativa, el model de llenguatge multilingüe i de codi obert més gran: Bloom.

Setanta-dos països, mil científics

Seduïts pel projecte, molts socis s’han sumat a l’aventura per arribar a un miler d’investigadors de setanta-dos països. Provenen tant del món acadèmic com d’empreses com Airbus, Meta AI, Orange Labs, Mozilla o Ubisoft. El suport del CNRS, GENCI2 i IDRIS3 va permetre fer un pas essencial: trobar una màquina capaç d’entrenar Bloom.

El CNRS ha proposat una dotació en forma de cinc milions d’hores d’informàtica al superordinador Jean Zay, un dels més potents d’Europa“, diu François Yvon. Això també permet provar el superordinador amb un volum de dades així, així com desenvolupar les habilitats dels equips. BigScience i el seu model Bloom no haurien estat possibles sense el poder de Jean Zay.

BigScience també ha rebut suport estatal, com a part de l’estratègia nacional d’IA. “En la carrera mundial per desenvolupar models lingüístics, el model Bloom és el primer a integrar àmpliament la llengua francesa en l’accés obert“, s’alegra Sylvie Retailleau, ministra d’Educació Superior i Recerca. Per tant, és el primer disponible per a la recerca, la innovació i la indústria francesa. Tot i que aquests models encara requereixen molta investigació científica i si el seu impacte energètic requereix una avaluació en profunditat abans de qualsevol desplegament a escala, estic orgullós que l’ecosistema d’IA francès acull un projecte tan internacional.

Aquest ecosistema inclou més del 20% de les start-ups especialitzades en processament automàtic del llenguatge“, recolza Jean-Noël Barrot, ministre delegat de Digital i Telecomunicacions. Aquest dinamisme emprenedor constitueix una base real d’oportunitats tecnològiques tant per a la llengua francesa com per a l’economia i la innovació. Estic content que BigScience hagi rebut el suport de la National AI Strategy.

Gràcies a aquests diferents suports, BigScience va poder dur a terme l’aprenentatge de Bloom. Agafa un text o una frase i guarda només la primera paraula, després intenta endevinar la segona, després la tercera, etc. Refina les seves probabilitats i estadístiques fins assolir el nivell esperat. Però per aconseguir-ho, Bloom ha de repetir l’exercici amb l’equivalent a diversos milions de lliures. Es necessiten tants intents que només els superordinadors poden fer-ho en un període de temps raonable. Jean Zay haurà entrenat així Bloom durant quatre mesos, dedicant-hi una quarta part de la seva potència total gràcies a quatre-cents processadors gràfics avançats que funcionen en paral·lel. Durant el seu aprenentatge, Bloom va adquirir la capacitat de gestionar 176 mil milions de paràmetres en textos.

Les xarxes neuronals profundes permeten aprendre a representar un text en forma de vectors digitals“, especifica François Yvon. Així transformat, el text pot rebre molts tractaments que faciliten la majoria de les tasques de processament automàtic del llenguatge.

Per a això, Bloom va treballar en quaranta-sis idiomes alhora, repartits per fonts tan variades com la literatura o les notícies esportives. Com més ampli i genèric sigui l’enfocament i les fonts, més capaç és el model de realitzar tasques diferents. Les dades tampoc s’han ordenat segons el seu idioma, perquè, paradoxalment, Bloom aprèn millor així. És encara més eficaç en idiomes que normalment estan poc representats, o fins i tot absents, dels models d’IA que si només s’hagués entrenat en ells.

Tanmateix, el treball preparatori d’enginyeria, realitzat en gran part per Hugging Face, era necessari aigües amunt per preparar els algorismes per operar a aquestes escales, així com per donar forma i verificar les dades. De fet, han estat absorbits automàticament d’Internet, en particular de la Viquipèdia, i poden presentar contingut esbiaixat o identificats malament pels algorismes de recuperació. També calia integrar certs corpus de textos ja disponibles, però amb accés de pagament.

Recerca, per investigar

Però de quina forma apareixerà Bloom? Teven Le Scao, estudiant de doctorat a la Universitat de Lorena i investigador de Hugging Face, on és el principal responsable de la formació de Big Science, distingeix tres nivells d’ús. En la majoria dels casos, el model final funcionarà a les màquines de Hugging Face. “L’objectiu és que la meva àvia pugui jugar en una demo, sense haver de codificar ”, riu Teven Le Scao. Aleshores, les persones que ho vulguin poden utilitzar i segrestar el model per crear diferents IA. Aquesta possibilitat gratuïta només requerirà un acord sobre la naturalesa de la llicència de l’eina final, que garantirà un ús responsable. Finalment, es podran recuperar artefactes d’entrenament per dur a terme experiments reproductibles i, per tant, seguir investigant sobre aquests models, que només és possible gràcies a l’accés lliure i lliure a aquestes etapes.

Bloom segueix sent una eina de recerca“, afegeix François Yvon. Com un gran telescopi, permet observar i entendre com funcionen aquests models. També es realitzaran projectes per mesurar la petjada de carboni d’aquests models, i entendre com funcionen quan són multilingües.

També estem desenvolupant tècniques per utilitzar Bloom en estacions informàtiques relativament petites, basades en arquitectures de vuit processadors gràfics o menys“, continua Teven Le Scao. Òbviament, l’execució serà més lenta, però encara ajudarà a difondre el model. A Hugging Face, volem que el treball d’IA sigui el més obert i accessible possible, i que els investigadors tinguin el màxim control i accés sobre els models. Això hauria de ser realment la norma.

Notes

  1. Laboratori interdisciplinari de ciències digitals (CNRS/Universitat Paris-Saclay).
  2. Gran equip nacional per a la supercomputació. Genci, societat civil creada l’any 2007, és participada en un 49% per l’Estat representat pel Ministeri d’Educació Superior i Investigació, un 20% pel CEA, un 20% pel CNRS, un 10% per les Universitats i un 1% per Inria.
  3. Institut de Desenvolupament i Recursos Informàtics Científics.

Font:

CNRS