Technology Innovation Institute maakt lancering van NOOR, het grootste Arabische NLP-model wereldwijd bekend

  • Het is het krachtigste model in de Arabische taal tot nu toe, met 10 miljard parameters.
  • Voorziet in toepassingen in geautomatiseerde samenvattingen, chatbots, gepersonaliseerde marketing

Noor, the world's largest Arabic NLP Model - AI Cross-Center Unit, Technology Innovation Institute (Photo: AETOSWire)

ABU DHABI, Verenigde Arabische Emiraten--()--Het Technology Innovation Institute (TII), een wereldwijd onderzoekscentrum en steunpilaar voor toegepast onderzoek van Abu Dhabi’s Advanced Technology Research Council, heeft vandaag de lancering bekendgemaakt van NOOR, het tot nu toe wereldwijd grootste Arabische 'natural language processing' (NLP)-model (model voor verwerking van natuurlijke taal).

Het team van TII van gevorderde onderzoekers en specialisten op het gebied van kunstmatige intelligentie (Artificial Intelligence, AI) hebben de krachten gebundeld met LightOn, een technologiebedrijf dat machine-intelligence op buitengewoon grote schaal ontsluit voor bedrijven om het Arabische NLP-model te transformeren. Het NOOR-model heeft het vermogen om taken uit te voeren die verdergaan dan het taaldomein – door het bieden van een end-to-end pijplijn met data van hoge kwaliteit, waaronder webcrawling, filteren en curatie op schaal. Het model faciliteert gedistribueerde training en serving op zeer grote schaal – om applicaties te leveren met efficiënte inferentie en modelspecialisatie.

Dr. Ray O. Johnson, CEO, TII en ASPIRE, vertelde: “Met deze ontwikkeling zitten we op het juiste spoor om onze onderzoeksmogelijkheden en -kwalificaties te verbeteren en bovendien de status van Abu Dhabi en de VAE als serieus onderzoeksecosysteem op een hoger plan te brengen. Onze teams van deskundigen hebben nogmaals laten zien dat deze regio een doorbraak kan bereiken wat betreft R&D-uitkomsten die impact hebben op de wereld.”

Dr. Ebtesam Almazrouei, Directeur, AI Cross-Center Unit, TII, vertelde: "Grote taalmodellen hebben de wereld van natuurlijke taalverwerking veroverd, en we zijn er trots op dit geavanceerde model met 10 miljard parameters te introduceren - 's werelds grootste Arabische NLP-model. De uniek grote Arabische dataset die is verzameld om het model te trainen is het resultaat van maanden hard werken, waaronder curatie, schrappen en filteren van verschillende bronnen. Een speciaal woord van dank aan het hele team dat aan dit project heeft gewerkt om van NOOR hét model voor de Arabische taal te maken voor academici en bedrijven overal ter wereld."

Prof. Mérouane Debbah, Chief Researcher, Digital Science Research Center en AI Cross-Center Unit, TII, zei over de lancering: “Met NOOR, heeft TII het bereik van het moderne standaard-Arabische model uitgebreid door de know-how in grote taalmodellen op een hoger plan te brengen, om multidisciplinaire, hypermoderne expertise op te bouwen in deze nieuwe generatie AI-research.”

Voor het samenstellen van de wereldwijd grootste domeinoverstijgende Arabische datasets van hoge kwaliteit, combineert NOOR’s unieke dataset van ruim 30 miljard woorden internetgegevens met boeken, poëzie, nieuwsartikelen en technische informatie om de toepasbaarheid van het model aanzienlijk te verbreden.

Dr. Ebtesam Almazrouei vertelde dat het NOOR-model is gebaseerd op de populaire transformerarchitectuur. Het is een puur decodermodel, vergelijkbaar met GPT-3, dat is geprogrammeerd om generatieve taken aan te pakken, met een architectuur die is aangepast aan de laatste ontwikkelingen op het gebied van machine learning, en biedt verbeteringen zoals betere positie-inbeddingen. Om de kwaliteit van de NOOR-dataset op schaal te waarborgen, heeft het TII-team een geautomatiseerde filterpijplijn ontworpen op basis van technieken voor machinaal leren. Deze hulpmiddelen identificeren tekst als kwaliteitsreferenties en beschermen het model tegen blootstelling aan spaminhoud.

Door gebruik te maken van state-of-the-art 3D parallellisme, werd NOOR getraind op een High-Performance computer met 128 A100 GPU's, waardoor de berekeningen konden worden verdeeld en de beschikbare hardwarebronnen efficiënt konden worden gebruikt.

De directeur van de AI Cross-Center Unit merkte op dat dit nog maar de eerste stap was in de inspanningen van de Unit om een bijdrage te leveren aan de bredere strategie voor kunstmatige intelligentie van de VAE.

Het model is genoemd naar het Arabische woord "licht", om het verband te leggen tussen het Arabische taalmodel en de verlichting van de geest.

Over het Technology Innovation Institute (TII)

Ga voor meer informatie naar www.tii.ae

*Bron: AETOSWire

Deze bekendmaking is officieel geldend in de originele brontaal. Vertalingen zijn slechts als leeshulp bedoeld en moeten worden vergeleken met de tekst in de brontaal, die als enige rechtsgeldig is.

Contacts

Technology Innovation Institute
Sneha Sivanand, sneha.sivanand@tii.ae

Contacts

Technology Innovation Institute
Sneha Sivanand, sneha.sivanand@tii.ae