-

科技創新研究所宣佈推出全球規模居首的阿拉伯語自然語言處理模型NOOR

  • 該模型是迄今為止功能極其強大的阿拉伯語模型,擁有100億個參數
  • 可用於自動摘要、聊天機器人、個人化行銷等應用程式

阿拉伯聯合大公國阿布達比--(BUSINESS WIRE)--(美國商業資訊)-- (美國商業資訊)--阿布達比先進科技研究委員會旗下的全球研究中心和應用研究支柱部門科技創新研究所(TII)今天宣佈推出NOOR語言處理模型,這是迄今為止全球規模居首的阿拉伯語自然語言處理(NLP)模型。

TII的高階研究人員和人工智慧專家團隊與LightOn聯手,對這個阿拉伯語NLP模型進行了改進。LightOn是專為企業提供超大規模機器智慧的科技公司。NOOR模型能夠執行超出語言領域的任務,可提供涵蓋整個端到端處理管線的優質資料,包括大規模資料爬取、過濾和管理。該模型可促進超大規模資料的分散式訓練和服務,帶來的應用程式具有高效推理能力,並可針對特定領域進行模型調整。

TII和ASPIRE執行長Ray O. Johnson博士表示:「這一進展將大幅提升我們的研究能力和資歷,並提升阿布達比和阿聯作為重要研究生態系統的地位。我們的專家團隊再次證明,阿布達比和阿聯地區可以取得具有世界影響力的突破性研發成果。」

TII人工智慧跨領域中心部門主任Ebtesam Almazrouei博士表示:「在自然語言處理領域,大型語言模型不斷湧現。能推出這個擁有100億個參數的先進模型,我們感到很自豪。這是全球規模居首的阿拉伯語NLP模型。為訓練該模型,我們採集了一套獨一無二的大型阿拉伯語資料集。相關工作歷經數月時間,包括對各種來源資料的整理、剔除和過濾。在此特別感謝參與該專案的整個團隊,他們使NOOR成為世界各地學者和企業首選的阿拉伯語研究模型。」

TII數位科學研究中心和人工智慧跨領域中心部門首席研究員Mérouane Debbah教授在發佈會上表示:「透過NOOR,TII利用在大型語言模型方面的專有技術,擴大了現代標準阿拉伯語模型的範圍,以在新一代人工智慧研究中建立跨領域的先進專長。」

NOOR擁有超過300億字的獨特資料集,涵蓋網路資料、書籍、詩歌、新聞文章和技術資訊等來源,從而打造出全球規模居首的優質跨領域阿拉伯語資料集,並大幅擴大了該模型的適用範圍。

Ebtesam Almazrouei博士表示,NOOR模型採用流行的Transformer架構,僅包含解碼器,結構與GPT-3相似,其設計旨在處理生成類任務,經過升級的架構反映機器學習領域的最新發展,包括更好的位置嵌入等改進。為確保NOOR大規模資料集的品質,TII團隊設計了植基於機器學習技術的自動過濾管線。相關工具可以識別優質參考文獻,並保障模型不受垃圾內容污染。

NOOR利用先進的3D平行技術,在配備128個A100 GPU的高效能運算資源上進行訓練,該過程採用分散式運算模式,能夠確保有效利用可用的硬體資源。

人工智慧跨領域中心部門主任指出,NOOR只是該部門努力為更廣泛的阿聯人工智慧策略做出貢獻的第一步。

該模型以阿拉伯語中的「光」命名,以體現模型旨在啟迪人類智慧的宗旨。

關於科技創新研究所(TII):

如欲瞭解更多資訊,請造訪www.tii.ae

*來源:AETOSWire

免責聲明:本公告之原文版本乃官方授權版本。譯文僅供方便瞭解之用,煩請參照原文,原文版本乃唯一具法律效力之版本。

Contacts

科技創新研究所
Sneha Sivanand, sneha.sivanand@tii.ae

Technology Innovation Institute



Contacts

科技創新研究所
Sneha Sivanand, sneha.sivanand@tii.ae

More News From Technology Innovation Institute

阿布達比科技創新研究院 (TII) 和NVIDIA共同成立中東第一座專門從事人工智慧與機器人研究的NVAITC聯合實驗室

阿拉伯聯合大公國,阿布達比--(BUSINESS WIRE)--(美國商業資訊)-- 隸屬阿布達比高級科技研究委員會 (ATRC) 的應用研究機構「科技創新研究院」 (The Technology Innovation Institute, TII) 與高速運算及人工智慧科技的世界先驅NVIDIA聯手合作,成立中東第一座專門從事人工智慧與機器人研究的聯合實驗室。這項破天荒的合作計畫將在該地成立第一座開發下一代人工智慧模型、機器人平台和人形機器人技術的研究中心,加速整個產業的創新。 成立科技創新研究院-NVAITC(NVIDIA人工智慧技術中心)人工智慧與機器人聯合實驗室的消息在於科技創新研究院阿布達比總部進行的簽約儀式上宣布,兩大機構的多位資深主管列席這場儀式。這份合約由科技創新研究院執行長Najwa Aaraj博士和NVIDIA的META地區企業區域總監Marc Domenech共同簽署,並有ATRC總幹事Shahab Abu Shahab殿下、ATRC支援服務執行董事Abdulaziz Al Dosari殿下、NVIDIA的HPC/超級運算銷售與業務開發全球副總裁John Jose...

科技創新研究院及AI71與Amazon Web Services合作,為阿拉伯聯合大公國及其他地區拓展人工智慧創新規模

阿拉伯聯合大公國,阿布達比--(BUSINESS WIRE)--(美國商業資訊)-- 阿布達比的科技創新研究院 (TII) 是全球名列前茅的Falcon系列人工智慧模型及安全和隱私解決方案之創造者。該院和阿布達比專擅客製企業級產品的一流人工智慧公司AI71決定與Amazon Web Services (AWS) 合作,擴大開放外界使用阿拉伯聯合大公國製造的人工智慧模型及解決方案。 AI71善於打造高階人工智慧代理,結合科技創新研究院在大型語言模型 (LLM) 方面的技術專長以及AWS獨步全球的雲端人工智慧及機器學習服務之後,全球專業人士將能夠輕鬆使用Falcon及客製人工智慧解決方案,變革群眾生活與工作的模式。 科技創新研究院已透過Amazon SageMaker提供多種Falcon大型語言模型,而最新的模型也將在Amazon Bedrock Marketplace上開放使用。Falcon系列內含多款全球排名長期位居前茅的模型,為各類人工智慧需求提供可擴展的解決方案。企業及開發者可將透過按需付費的API將Falcon整合到他們的應用程式中,降低對運算能力的大量需求。 AI71的產品專為...

中東領先的人工智慧巨擘TII推出兩款全新人工智慧模型:Falcon系列首款阿拉伯語模型Falcon Arabic,以及同類最佳高效能模型Falcon-H1

阿拉伯聯合大公國阿布達比--(BUSINESS WIRE)--(美國商業資訊)-- 阿布達比高級科技研究委員會 (ATRC) 下屬的技術創新研究所(TII)今天發布了兩項重大人工智慧進展:Falcon Arabic是Falcon系列首款阿拉伯語模型,現已成為該地區表現最佳的阿拉伯語人工智慧模型,而Falcon-H1則是一款透過全新架構設計重新定義了效能和可移植性的新模型。在中小型人工智慧模型(300億至700億個參數)中,Falcon-H1的效能超越了Meta的LlaMA和阿里巴巴的Qwen等競品,可在日常裝置和資源有限的環境中實現真實世界的人工智慧。阿聯總統顧問暨ATRC秘書長Faisal Al Bannai閣下在「Make it in the Emirates」活動上發表主題演講時宣布了這一消息。 Falcon Arabic建立在Falcon 3-7B(70億參數)之上,是迄今為止已開發的最先進的阿拉伯語人工智慧模型之一。該模型在涵蓋現代標準阿拉伯語和地區方言的高品質母語(非翻譯)阿拉伯語資料集上進行訓練,全面捕捉了阿拉伯世界的語言多樣性。根據開放式阿拉伯語LLM排行榜基準,Fal...
Back to Newsroom