-

Archer®證實:專用型AI在法規變更管理方面擊敗通用型大語言模型,驗證準確率達95%、速度快80倍、成本降低92%

在正面對決的基準測試中,某款領先的通用型大語言模型在法規日期判定上有35%的高信心答案錯誤,而Archer Evolv™則交出了零錯誤的成績單。

堪薩斯州歐弗蘭帕克--(BUSINESS WIRE)--(美國商業資訊)-- 對於在合規管理中部署AI的企業而言,一個錯誤的日期就意味著錯過截止期限。然而,更危險的是模型高度自信地給出錯誤答案,並使答案悄然流入合規管理行事曆,直到截止期限已過才被發現。Archer ® 今日公布的測試結果顯示,專用型AI在處理法規工作時擊敗了通用型大語言模型(LLM),且差距懸殊。這場正面對決的測試,將Archer專門打造的垂直領域專屬AI及專有資料集,與一款領先的通用型LLM進行對比,測試的核心合規任務為:判定六個司法管轄區內法規文件的發布日期、生效日期以及意見徵詢截止日期。

通用型模型無疑是一項重大突破,這項測試也並非對其品質作出評判。Archer想要解答的問題更為具體且務實:若要讓攸關重大的特定判定,能夠以可靠、快速且具成本效益的方式大規模執行,需要具備哪些條件?結果顯示,以垂直領域為核心、建立於專家驗證知識庫之上的流程,同時在上述三個方面勝出。

準確率:錯誤答案減少90%

針對相同的55份文件,通用型大語言模型有56%的判定結果錯誤。而且,模型的信心並未提升準確性,反而使情況更糟:在其標示為高信心的答案中,仍有35%是錯誤的。相較之下,使用Archer Evolv時,超過95%的判定結果都直接通過驗證,其餘則會在使用前交由專家審核。最終,沒有任何錯誤日期進入生產環境。所有結果都必須經過驗證後才會交付使用。

樣本文件測試結果

通用型LLM流程

Archer Evolv

正確率

44%

95%經過驗證,5%經過專家審核

結果錯誤,但回傳為有效結果

25%

0%

失敗或逾時

31%

0%

模型的信心值並不能作為一種控制機制。在通用型LLM標示為高信心的答案中,仍有35%是錯誤的。這樣的準確率差距,正是企業能否負責任地部署代理AI的前提,因為對於自主運作的作業端而言,其可信度完全取決於底層判定的準確性。唯有經過驗證、可追溯來源,並受專家監督的答案,才能讓企業安全地部署AI代理,這就是AI治理的核心,也是Archer致力提供的能力。

Archer產品與技術長Kayvan Alikhani表示:「在合規領域,一個快速、成本低廉但卻錯誤的答案毫無價值;而一個無法追溯來源的答案,則是一項隱患。Archer的專用型AI能即時驗證超過95%的判定結果。這正是企業大規模部署AI代理,同時維持對最終結果掌控能力的基礎。」

速度:即時提供經驗證的答案

在每次查詢中,通用型流程在5秒的逾時限制內,平均回應時間約為4秒。相較之下,Archer Evolv在執行重複查詢時,可在大約0.05秒內提供經過驗證的日期,速度快約80倍。對於必須依照法規時程運作的AI代理與分析人員而言,這正是「跟上進度」與「成為瓶頸」之間的關鍵差距。

成本:持久化、經驗證的知識庫,而非按需推理

通用型流程是在每一次查詢時都重新運算答案,不會保留先前的結果。Archer Evolv則是在資料匯入時完成一次運算,將結果驗證後納入可擴展、由專家治理的知識庫,並持續儲存,供後續所有查詢重複使用,因此能以更低的成本與延遲提供結果。當法規內容發生修訂時,Evolv會主動偵測變更、重新驗證,並對更新的答案進行版本控制,確保提供的資訊始終保持最新。以一個包含500份文件、每份文件每月查詢12次的資料集為例,總計需要完成6,000次判定,但實際上只需針對500份文件進行一次判定即可。Archer Evolv可減少約92%的推理呼叫,這種架構性的成本優勢,將隨著使用規模擴大而持續增加。

情境脈絡是實現這一切的關鍵

Archer Evolv的優勢來自於情境脈絡。在任何AI開始運作之前,它會先評估企業所涉及的司法管轄區、產品、業務單位、風險以及法規主題,確保每一項判定都建立在與該企業實際情境相關的資訊之上。這正是「一個答案」與「一個經得起驗證的答案」之間的差別。企業部署的AI代理越多,這樣的基礎就越具價值,因為每個代理都能繼承相同、經過驗證且可追溯來源的知識基礎,而不是每次都從零開始重新推導資訊。

Archer執行長Bill Diaz表示:「未來十年能夠勝出的SaaS公司,將是那些把領域專用AI與基礎模型無法複製的專有垂直領域情境結合在一起的企業。這就是競爭優勢所在,而且這項優勢會隨著時間持續累積。這次測試就是最好的證明。」

完整的測試方法、來源資料及案例研究已發布於Archer的思想領導網站:compliance.ai/evolv_assets/case-01-evolv-vs-raw-llm.html。如欲了解Archer Evolv的實際運作方式,請造訪www.archerirm.com

關於Archer

Archer致力於為全球領先企業提供風險、合規以及法規變更管理方面的治理能力。目前全球有超過1,300家組織採用Archer的服務,其中包括半數《財富》500強企業,以及全球50大銀行中的37家。全球平均每6分鐘就會出現一項新的法規變更,而代理AI的發展速度正逐漸超越多數團隊的治理能力。Archer的專用型AI以深厚的GRC法規資料與領域專業知識為基礎,確保每一項結果皆可追溯至其來源,每一項決策都具備充分依據。Archer提供涵蓋GRC各領域的解決方案,包括法規變更管理、AI風險管理、法規情報、第三方風險管理,以及IT與安全風險管理。如欲了解更多資訊,請造訪www.archerirm.com

免責聲明:本公告之原文版本乃官方授權版本。譯文僅供方便瞭解之用,煩請參照原文,原文版本乃唯一具法律效力之版本。

Contacts

Archer

Details
Headquarters: Overland Park, KS
CEO: Bill Diaz
Employees: 1000
Organization: PRI


Contacts

Back to Newsroom