Lliurament del model lingüístic multilingüe de ciència oberta més gran mai format

Tot i que regularment proporcionen resultats fascinants, els grans models d’intel·ligència artificial són generalment caixes negres: no sabem exactament com calculen les seves respostes i molts elements no es fan públics. El projecte BigScience – Bloom, que implica un miler d’investigadors en un enfocament de ciència participativa i oberta, canvia la situació amb “Bloom”. És el model lingüístic multilingüe més gran format d’una manera totalment oberta i transparent. Aquest tipus d’intel·ligència artificial aprèn simultàniament un model de generació de text i un model de representació de text realitzant repetitivament una tasca elemental: predir la següent paraula d’un text del qual es coneix l’inici, a la manera del que fan els teclats “intel·ligents”. A més de gestionar 46 idiomes, que van des de l’anglès fins al basc, el seu caràcter de ciència oberta ajudarà els científics de tots els àmbits a explorar com funcionen els models lingüístics per millorar-los. El projecte BigScience, iniciat per l’empresa Hugging Face, va comptar amb el suport del CNRS, GENCI1 i el Ministeri d’Educació Superior i Investigació, que va permetre entrenar Bloom a la màquina “Jean Zay”, un dels superordinadors més potents d’Europa. .

Els models lingüístics són intel·ligències artificials les primeres aplicacions de les quals es relacionen amb textos en llenguatge natural: respostes a preguntes, generació automàtica de frases, detecció de “sentiments”, resum i simplificació automàtica o fins i tot traducció automàtica. Dissenyats generalment per gegants de les noves tecnologies, la majoria dels models existents s’han entrenat només amb textos escrits en anglès i segons principis i mètodes difícils de reproduir en tots els seus detalls. Per exemple, no és possible saber, quan un model respon a una pregunta, si la resposta és el resultat d’un càlcul o si la resposta ja apareixia a les seves bases de dades d’aprenentatge.

El projecte BigScience va ser iniciat a la primavera del 2021 per la start-up franco-americana d’intel·ligència artificial Hugging Face, per solucionar aquests problemes formant un nou model: Bloom. S’aprèn a partir de grans corpus de textos, utilitzant un principi senzill, que consisteix a predir per completar frases, paraula per paraula. Cada predicció del model es compara amb la paraula correcta, cosa que permet ajustar els paràmetres interns del model. En el cas de Bloom, l’aprenentatge es realitza avaluant bilions de paraules, donant lloc a un model que conté 176 mil milions de paràmetres. Aquest aprenentatge va durar diversos mesos, i va requerir centenars de processadors gràfics (GPU) en paral·lel, l’equivalent a 5 milions d’hores de càlcul. Aquesta potència de càlcul només es pot obtenir en superordinadors com la màquina Jean Zay.

Bloom es diferencia d’altres models lingüístics en el fet que s’entrena simultàniament en 46 idiomes, repartits en fonts tan variades com literatura, articles científics o reportatges esportius i que inclou molts idiomes poques vegades es tenen en compte, en particular una vintena de llengües africanes. El corpus d’aprenentatge conté fins i tot codi informàtic! El conjunt val diversos milions de lliures. Tanmateix, com més divers sigui l’enfocament i les fonts, més el model és capaç de complir diferents tasques. Les dades tampoc es van ordenar segons el seu idioma perquè, paradoxalment, Bloom aprèn millor així. L’aglomeració de continguts en diversos idiomes permet aprendre models robusts i eficients per a tots els idiomes considerats, i sovint fins i tot condueix a millors resultats que els models monolingües. Una altra particularitat: l’arquitectura de Bloom, la llista de dades utilitzades i el seu registre d’aprenentatge estaran totalment disponibles en ciència oberta, per tal de facilitar la recerca sobre models lingüístics. Finalment, Bloom es distribueix gratuïtament amb una llicència responsable, que prohibeix explícitament l’ús maliciós del model.

La creació del model Bloom i l’èxit de la col·laboració de recerca BigScience demostren que una altra manera de crear, estudiar i compartir innovacions en IA és possible, reunint industrials, acadèmics i associacions al voltant d’un projecte internacional, multidisciplinari i innovador d’accés obert. Estic encantat que Hugging Face hagi pogut trobar el suport necessari a França per a aquest enfocament sense precedents a escala mundial“, diu Thomas Wolf, cofundador i director científic de la start-up Hugging Face.

BigScience inicia una novetat mundial i obre el camí per a altres avenços científics. Es va beneficiar dels recursos del superordinador convergent Jean Zay, un dels més potents d’Europa, encarregat l’any 2019 arran del pla AI for Humanity. Avui, més de 1000 projectes de recerca mobilitzen els seus recursos. Decisiva en aquest èxit, l’extensió de Jean Zay desplegada a principis d’any és fruit del treball conjunt entre el Ministeri d’Educació Superior i Recerca, el CNRS a través de l’Institut de Desenvolupament i Recursos en Informàtica Científica (Idris) i GENCI”, diu Philippe Lavocat, president i conseller delegat de GENCI.

Estem encantats amb aquesta original associació públic-privada, que mostra fins a quin punt la complementarietat d’habilitats i mitjans —com la potència del superordinador Jean Zay— és essencial per afrontar un repte tan important i actual com la investigació en intel·ligència artificial. Darrere del progrés científic, saludem la implicació del personal d’Idris que va fer possible aquesta formació sobre el superordinador, i acollim el paper essencial que ha jugat el CNRS a través de la mobilització de tota la comunitat de processament automàtic del llenguatge“, afegeix Antoine Petit, president. i director general del CNRS.

 “Estic content que aquest projecte internacional, situat en una de les fronteres tecnològiques actuals de la IA, hagi comptat amb el suport de l’Estratègia Nacional per a la IA, i que aviat el model Bloom serà accessible en un marc obert. Això permetrà a tots els actors innovadors desenvolupar nous casos d’ús i aplicacions”, subratlla Jean-Noël Barrot, ministre delegat de Digital i Telecomunicacions.

El consorci BigScience representa una col·laboració públic-privada de classe mundial amb més d’un miler de col·laboradors. Tot i que aquests models requereixen encara molta investigació científica i si el seu impacte energètic requereix una avaluació en profunditat abans de qualsevol desplegament d’escala, estic orgullosa que l’ecosistema francès en IA acull amb satisfacció aquest projecte d’abast internacional“, declara Sylvie Retailleau. Ministre d’Educació Superior i Investigació.

Idiomes utilitzats per a la formació de Bloom.
La “família índica” abasta una quinzena de llengües del subcontinent indi (hindi, tàmil, urdú, etc.) i la “família del Níger-Congo” una vintena de llengües de l’Àfrica subsahariana (swahili, ioruba, wolof, etc.). ).
El 10,8% de les dades consistien en codi informàtic, amb 13 idiomes diferents.
Font: Hugging Face

Més informació sobre Bloom: huggingface.co/bigscience/bloom

Per llegir a les webs del CNRS:

lejournal.cnrs.fr/articles/bigscience-voit-grand-pour-les-modeles-de-langue

www.cnrs.fr/fr/cnrsinfo/la-recherche-francaise-engine-dun-new-model-dia