首頁 > 科技要聞 > 科技> 正文

百川新模型超GPT-4o近20%,首創(chuàng)自約束訓練方案突破瓶頸,主打「領(lǐng)域增強」

量子位 整合編輯:太平洋科技 發(fā)布于:2024-12-24 17:39

大模型的競速賽,正站在通用底座的基礎上,掀起“領(lǐng)域增強”風暴。

剛剛就出現(xiàn)了個最直觀的例子:金融領(lǐng)域大模型王座,它易主了!

新王是誰?突然出現(xiàn)的全鏈路金融領(lǐng)域增強大模型Baichuan4-Finance,榜單成績非常亮眼,專業(yè)性和可用性行業(yè)第一。

背后的力氣和手段,就是領(lǐng)域增強方案。

劃個重點,它真的非常值得大家好好琢磨琢磨!因為Baichuan4-Finance是百川智能全鏈條領(lǐng)域增強方案在金融領(lǐng)域的成果,該方案也可以成功遷移運用在其它領(lǐng)域,比如醫(yī)療、教育、法律……一通百通。

而將方案率先在金融領(lǐng)域落地,這就是其背后大模型公司百川智能最直接的實踐。

量子位獲悉,Baichuan4-Finance之所以能取得這樣的成績,主要原因是其全鏈路領(lǐng)域增強方案中包括有高質(zhì)量數(shù)據(jù)、在模型訓練過程中首創(chuàng)了自約束訓練方案,在微調(diào)階段也做了大量增強工作。

本著客觀和理性的精神,我們還是老規(guī)矩,把模型和方案一點點掰開,一起來看——

開閉源Benchmark實測:超GPT-4o近20%

百川公布了一系列Baichuan4-Finance的榜單成績,整體來看,該模型在金融類開/閉源benchmark上均表現(xiàn)出色。

出色到什么地步呢?

這么說吧,它能當會計、能當交易員、能當精算師,純純的金融行業(yè)全能大通才。

先來看開源的金融benchmark,F(xiàn)inanceIQ。

簡單介紹下,F(xiàn)inanceIQ是金融領(lǐng)域的中文評估數(shù)據(jù)集,涵蓋10個金融大類和36個金融小類,總計7173個單項選擇題。它的重點是評估大模型在金融場景下的知識和推理能力。

Baichuan4-Finance位列榜首,整體準確率達79.23%,而GPT-4o是66.25%。

也就是說Baichuan4-Finance領(lǐng)先了GPT-4o約13%。

然后來看閉源的金融benchmark,F(xiàn)LAME。

FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是人大財政金融學院在本月17日發(fā)布的金融評測體系,兼顧專業(yè)性和實用性,由兩個方向的評測基準組成。

第一個是FLAME-Cer主要面向模型的金融專業(yè)能力評測,覆蓋了CPA、CFA、FRM等14類權(quán)威金融資格認證。

在FLAME-Cer上,Baichuan4-Finance整體準確率93.16%,一舉奪魁,超出GPT-4o近20%;在銀行、基金、證券等多個資格認證領(lǐng)域,該模型的準確率均突破了95%。

第二個是FLAME-Sce,它側(cè)重模型的場景應用能力,包含10個一級核心金融業(yè)務場景,21個二級細分金融業(yè)務場景,近百個三級金融應用任務。

FLAME-Sce評測中,Baichuan4-Finance的整體可用率也是行業(yè)最高。

其中,一級核心金融業(yè)務場景的模型整體可用率達84.15%,金融數(shù)據(jù)計算、金融知識理論等應用場景的可用率更是超過90%。

從榜單成績來看,Baichuan4-Finance的精確度和可靠性都在同類模型中脫穎而出,一定程度上表現(xiàn)了其在金融知識領(lǐng)域的深厚積累與專業(yè)素養(yǎng)。

但老話說得好,“盡信書不如無書”,咱們也不能拿榜單當唯一的評判標準。

還是得上手看效果(認真臉.jpg)。

量子位一連三測,咱們來看:

金融行話解釋

Prompt:以下是一個金融行業(yè)常用的術(shù)語(黑話),請對這個術(shù)語進行解釋:技術(shù)性違約。

Baichuan4-Finance的回答如下圖。

GPT-4o的回答如下圖。

最直觀的感受,Baichuan4-Finance的回答更長更豐富,GPT-4o的回答較為簡短。

仔細閱讀后不難發(fā)現(xiàn),Baichuan4-Finance不僅詳細闡述了名詞概念,還從違反合同條款、觸發(fā)條件、后果、解決方式等多個維度來解釋“技術(shù)性違約”,輔以功能意義和使用場景,帶舉例的那種。

邏輯也清晰,有助于讀者全面理解這一概念。

GPT-4o內(nèi)容較為簡單,雖然有案例簡單例舉,但提供的信息量確實比不上前者。

業(yè)務應對

Prompt:銀行在發(fā)現(xiàn)哪些情況時,應將單位銀行結(jié)算賬戶的網(wǎng)上銀行轉(zhuǎn)賬功能關(guān)閉,并要求存款人到銀行網(wǎng)點柜臺辦理轉(zhuǎn)賬業(yè)務?

Baichuan4-Finance的回答如下圖,結(jié)合了相關(guān)《通知》的規(guī)定。

更適合中國寶寶體質(zhì)~

GPT-4o的回答如下。

倒也列舉了一些情況,但是沒有結(jié)合實際條款,比較空泛,也不知是否符合相關(guān)規(guī)定。

基于財務報表的財務指標提取

Prompt(主要)你是一位專業(yè)的財務數(shù)據(jù)分析師,負責從提供的已知的財務報表中抽取特定信息。你的任務是針對用戶提出的問題,從財務報表中提取相關(guān)數(shù)據(jù)。最終問題是“截至2024年3月底,淘寶和天貓集團的調(diào)整后EBITA是多少?”

在prompt里,我們附加了輸出結(jié)果需要遵守的“原則遵循”:

準確性:嚴格基于“財務報表”進行信息抽取,確保所有數(shù)據(jù)的準確無誤。

完整性:如果“財務報表”中包含用戶問題所需的所有數(shù)據(jù),則提供完整的答案;如果缺少信息,則在相應的字段中留空。

輸出格式:以JSON形式輸出抽取的信息,確保易于閱讀和理解。

以及這里附上和prompt一起喂過去的財務報表OCR文本。

Baichuan4-Finance的回答如下。

GPT-4o的回答如下。

這一局GPT雖然也給出了準確答案,但帶了額外的文字總結(jié);Baichuan4-Finance更符合“以JSON形式輸出抽取的信息”這一約束條件。

綜合所有測試結(jié)果來看(包括沒有放進來的一些其它case),Baichuan4-Finance確實不容小覷,且穩(wěn)定性很強。

行業(yè)首創(chuàng)領(lǐng)域自約束訓練方案

接下來就是咱們的必問題環(huán)節(jié),訓出這么強的Baichuan4-Finance,百川是怎么做到的?

百川智能給出的答案是,拿訓練階段的三步走來說話。

哪三步?

訓練數(shù)據(jù)準備——模型post-pretrain——模型微調(diào)。

(先預告下,其中的第二階段含有一個非常妙的首創(chuàng)性策略)

階段1:訓練數(shù)據(jù)準備

第一階段訓練數(shù)據(jù)準備,又可細分成數(shù)據(jù)收集和數(shù)據(jù)處理兩個步驟。

Baichuan4-Finance涵蓋的數(shù)據(jù)集如表格所示,既包含核心專業(yè)金融知識數(shù)據(jù),也覆蓋了實踐應用類數(shù)據(jù),為提升模型金融能力提供了良好的底層支撐。

而且為了保證模型基礎能力,團隊特意在訓練過程引入了更高精的通用數(shù)據(jù)混合訓練,確保該模型既能理論扎實,又能實踐過硬,不會只紙上談兵。

值得一提的是,在數(shù)據(jù)收集階段,百川在金融專家團隊的專業(yè)指導下,構(gòu)建了一個全面、嚴謹、高質(zhì)量的金融領(lǐng)域訓練數(shù)據(jù)體系。

數(shù)據(jù)框架設計:由專家團隊規(guī)劃整體數(shù)據(jù)架構(gòu),確保知識體系的完整性和專業(yè)性;

高質(zhì)量數(shù)據(jù)圈定:依托專家團隊的學術(shù)洞見,精準定位優(yōu)質(zhì)數(shù)據(jù)源;

專業(yè)數(shù)據(jù)標注:在專家團隊指導下進行專業(yè)化標注,確保數(shù)據(jù)質(zhì)量;

知識體系審核:由專家團隊把控知識準確性,驗證數(shù)據(jù)價值。

一整個就是「學術(shù)權(quán)威背書+體系化知識結(jié)構(gòu)+嚴格的質(zhì)量保障」,齊活了。

數(shù)據(jù)處理這一步,百川采用了智能數(shù)據(jù)去噪技術(shù)、高效數(shù)據(jù)去重機制、嚴格數(shù)據(jù)脫敏等,還建立了一套完整的數(shù)據(jù)處理體系。

展開來說,首先基于樣本可讀性、知識密度等多個維度對單個樣本進行初步評分;其次,根據(jù)不同數(shù)據(jù)來源的特點,設定差異化的評估維度權(quán)重進行二次評分;最后,通過深度學習模型對多維度評分進行回歸分析,得出樣本的最終質(zhì)量分。

這個體系不僅確保了訓練數(shù)據(jù)的高質(zhì)量,更通過創(chuàng)新的評估體系和配比優(yōu)化系統(tǒng),很好地支持了模型性能的卓越度。

階段2:模型post-pretrain

第二階段,來到了模型post-pretrain。

先敲黑板,在訓練行業(yè)領(lǐng)域大模型時,業(yè)界目前的普遍做法是通用訓練語料與領(lǐng)域數(shù)據(jù)相結(jié)合的CPT的訓練方式。

這個訓練方法可用,但伴隨著2個關(guān)鍵挑戰(zhàn)。

一是如何確定最優(yōu)的數(shù)據(jù)混合比例,包括領(lǐng)域內(nèi)不同類型數(shù)據(jù)的配比以及領(lǐng)域數(shù)據(jù)與通用數(shù)據(jù)的融合比例;二是如何選擇合適的訓練策略,在課程學習、固定配比訓練以及結(jié)合退火實驗等方案中找到最佳方案。

在大量實驗后,百川發(fā)現(xiàn)傳統(tǒng)固定配比的直接訓練方式存在明顯缺陷:隨著訓練的深入,模型的金融領(lǐng)域能力雖然不斷提升,但通用能力卻顯著下降。

考慮到金融領(lǐng)域包含諸多不同場景,模型的泛化能力至關(guān)重要,因此百川為訓練過程首提了一種創(chuàng)新性的策略——

領(lǐng)域自約束的訓練方案+“l(fā)oss scaling law + metric scaling law”雙重預測推演過程。

以此保證模型通用能力不下降,領(lǐng)域能力提升。

領(lǐng)域自約束的訓練方案是啥?一種提升模型垂域泛化能力、又不降低通用能力的訓練策略。

這么說吧,在模型CPT過程中,領(lǐng)域知識的直接引入會破壞原有base model的訓練分布,因此直接基于領(lǐng)域數(shù)據(jù)或者混合通用領(lǐng)域這兩種方案進行訓練,必然會讓通用能力下降。

于是,不想破壞通用能力的百川團隊就提出了個新的訓練方案,稱之為“領(lǐng)域自約束”。

具體來說,是在基礎領(lǐng)域模型訓練過程中構(gòu)建一個和基礎模型同參且參數(shù)不更新的“reference model”,來指導模型訓練的過程不要跑偏,從而達到「通用能力不降,領(lǐng)域能力穩(wěn)定增長」的效果。


在小模型上進行領(lǐng)域自約束的推演實驗結(jié)果

Attention Please!

領(lǐng)域自約束的訓練方案,百川從很早之前就一直在研究和迭代。

Baichuan4-Finance只是百川把領(lǐng)域自約束的訓練方案運用在金融行業(yè)的一個落地案例,這個方案實際上也有泛化性,適配任何一個垂直領(lǐng)域和行業(yè),包括但不限于醫(yī)療、教育……

至于“l(fā)oss scaling law + metric scaling law”雙重預測推演過程,來源是醬嬸兒的:

百川團隊在小參數(shù)量模型上了進行多組參數(shù)、多組數(shù)據(jù)配比實驗,獲取了足夠的數(shù)據(jù)配比到domain loss的曲線樣本,從而構(gòu)建了配比到loss的回歸模型。

然后再根據(jù)domain loss到自建的通用指標體系和金融知識體系的對應關(guān)系,構(gòu)建了domain loss到模型最終優(yōu)化目標的回歸模型。

通過上述兩個模型,團隊實現(xiàn)了從參數(shù)配比到訓練目標以及結(jié)果的推演過程,從而達到了動態(tài)監(jiān)控和模擬模型訓練趨勢。

以下是采用訓練預測方案獲取的配比數(shù)據(jù)訓練出來的模型,整體效果在通用能力上領(lǐng)先通用base model效果的結(jié)果:

在模型post-pretrain過程中,百川團隊還完成了多維度測試集合,也就是在每個檢查點(checkpoint)進行全方位能力測試。

涵蓋了通用知識能力、通用應用能力、金融知識能力、金融應用能力等。

綜合起來,這套訓練和評估方案,確保了模型在金融專業(yè)領(lǐng)域的強勁實力,并且維持了其跨領(lǐng)域的通用性能穩(wěn)定不變。

階段3:模型微調(diào)

最后的模型微調(diào)階段,主要采用了進行有監(jiān)督微調(diào)(SFT)和強化學習策略(RLHF)。

進行SFT,是為了優(yōu)化模型在特定金融任務上的表現(xiàn);而RLHF主要是為了進一步提升模型性能。

這里不展開贅述,但嚴謹起見,還是取RLHF在數(shù)學能力上的表現(xiàn)為例。

從下圖可以看到:

數(shù)學增強-PPO版本(Baichuan4-Finance)> 數(shù)學增強-SFT版本(Baichuan4-Finance w/o PPO)> 非數(shù)學增強-SFT版本(Baichuan4-Finance-Base-SFT)。

回頭看沒做強化時(藍色曲線),模型Pass@1和pass@5結(jié)果的準確率產(chǎn)生了較大的差異化,這樣表明模型本身在各個數(shù)學能力項上依然有很大的潛力。

做完強化后(橙色曲線),模型在數(shù)學方面的能力有了很大的提升,且提升趨勢和潛力趨勢(藍色曲線)呈正相關(guān)。

因此這表明,強化學習的引入,能讓模型在數(shù)學這類答案聚焦的問題上性能表現(xiàn)的更好。

全方位提升金融行業(yè)價值

在攻克了「通用能力與泛化能力的平衡」這一模型在垂直領(lǐng)域應用的主要難題后,Baichuan4-Finance就能大展身手了,得以在多維度為金融行業(yè)實現(xiàn)全面價值的提升增強。

效率優(yōu)化層面:模型能夠智能處理文檔審核、客戶咨詢、產(chǎn)品營銷等大量日常工作,顯著提升運營效率,釋放人力資源。

風控合規(guī)方面:依托深厚的金融專業(yè)知識和法律法規(guī)理解能力,能為機構(gòu)提供精準的風險識別和合規(guī)保障。

客戶服務層面:依托模型強大的多輪對話理解和金融專業(yè)知識問答能力,通過7*24小時的智能響應和個性化服務,全面提升客戶體驗與滿意度。

決策支持方面:基于模型強大的數(shù)據(jù)分析能力,能夠為管理層提供專業(yè)的市場洞察和決策建議,助力機構(gòu)實現(xiàn)數(shù)字化轉(zhuǎn)型和業(yè)務創(chuàng)新。

某商業(yè)銀行信用卡中心,每日需處理數(shù)十萬通客戶咨詢,業(yè)務高峰期更是忙得不可開交。

基于Baichuan4-Finance搭建智能客服解決方案后,該中心充分利用了模型在金融專業(yè)知識和多輪對話方面的優(yōu)勢。

系統(tǒng)可準確理解客戶意圖,自動回答包括賬單分期、額度調(diào)整、優(yōu)惠活動、積分兌換等常見業(yè)務咨詢,并可結(jié)合客戶實際需求進行精準的產(chǎn)品推薦;而針對復雜問題,模型可進行多輪對話澄清,確保準確理解客戶需求。

同時,系統(tǒng)還可基于實時交互場景,結(jié)合用戶畫像,提供個性化的解決方案和產(chǎn)品建議,并在涉及敏感信息時進行智能脫敏處理。

結(jié)果就是,現(xiàn)在該中心有7*24小時準確的即時響應,客戶等待時間縮短80%,還減少了40%的人工成本,預期可提升30%的產(chǎn)品轉(zhuǎn)化率。

再比如,某保險公司運用Baichuan4-Finance打造智能營銷輔助系統(tǒng),將產(chǎn)品匹配準確率提升了50%;還預計可降低30%的獲客成本;通過個性化營銷策略,預期可將產(chǎn)品轉(zhuǎn)化率提升40%,實現(xiàn)養(yǎng)老理財產(chǎn)品精準營銷。

而且,在所有的實際應用中,由于能時刻在線,多輪對話能力強大,專業(yè)知識儲備雄厚,為用戶提供個性化服務,所有用上了Baichuan4-Finance的機構(gòu),以往使用傳統(tǒng)人工客服參與環(huán)節(jié)中可能出現(xiàn)的響應速度慢、服務質(zhì)量不穩(wěn)定、專業(yè)知識儲備不足等痛點,統(tǒng)統(tǒng)被解決。

前面我們提到過,Baichuan4-Finance是百川行業(yè)首創(chuàng)領(lǐng)域自約束訓練方案在金融這個領(lǐng)域的落地體現(xiàn)。從以上具體效果、數(shù)據(jù)和口碑反饋可以看出:

這方案有用、好用,首戰(zhàn)告捷。

而百川的下一步,必然是以自家基座大模型打底,瞄準各個領(lǐng)域、行業(yè),逐一進行“領(lǐng)域增強”。

與此同時,百川自己的大模型生態(tài)體系也在過去的近兩年時間內(nèi),逐步搭建起來——

已經(jīng)服務數(shù)千家客戶,包括北電數(shù)智、完美世界游戲、愛奇藝、360集團、生學教育、愛學堂等各行各業(yè)的領(lǐng)頭羊;合作多家行業(yè)生態(tài)伙伴,如信雅達、用友、軟通動力、新致軟件、達觀數(shù)據(jù)、華勝天成等;還攜手了中國移動、中國電信、中國聯(lián)通等運營商

回過頭看,Baichuan4-Finance的發(fā)布,不僅標志著百川智能技術(shù)策略的領(lǐng)先地位、首創(chuàng)方案的實用價值,見證了通用模型泛化到垂直領(lǐng)域的巨大價值。

更預示著,2025年起,大模型的能力,將在更多行業(yè)和領(lǐng)域內(nèi)產(chǎn)生更為深刻長遠的滲透和影響。

FLAME GitHub地址:

https://github.com/FLAME-ruc/FLAME/tree/main

本文來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部
国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av