大模型的競速賽,正站在通用底座的基礎上,掀起“領(lǐng)域增強”風暴。 剛剛就出現(xiàn)了個最直觀的例子:金融領(lǐng)域大模型王座,它易主了! 新王是誰?突然出現(xiàn)的全鏈路金融領(lǐng)域增強大模型Baichuan4-Finance,榜單成績非常亮眼,專業(yè)性和可用性行業(yè)第一。 背后的力氣和手段,就是領(lǐng)域增強方案。 劃個重點,它真的非常值得大家好好琢磨琢磨!因為Baichuan4-Finance是百川智能全鏈條領(lǐng)域增強方案在金融領(lǐng)域的成果,該方案也可以成功遷移運用在其它領(lǐng)域,比如醫(yī)療、教育、法律……一通百通。 而將方案率先在金融領(lǐng)域落地,這就是其背后大模型公司百川智能最直接的實踐。 量子位獲悉,Baichuan4-Finance之所以能取得這樣的成績,主要原因是其全鏈路領(lǐng)域增強方案中包括有高質(zhì)量數(shù)據(jù)、在模型訓練過程中首創(chuàng)了自約束訓練方案,在微調(diào)階段也做了大量增強工作。 本著客觀和理性的精神,我們還是老規(guī)矩,把模型和方案一點點掰開,一起來看—— 開閉源Benchmark實測:超GPT-4o近20% 百川公布了一系列Baichuan4-Finance的榜單成績,整體來看,該模型在金融類開/閉源benchmark上均表現(xiàn)出色。 出色到什么地步呢? 這么說吧,它能當會計、能當交易員、能當精算師,純純的金融行業(yè)全能大通才。 先來看開源的金融benchmark,F(xiàn)inanceIQ。 簡單介紹下,F(xiàn)inanceIQ是金融領(lǐng)域的中文評估數(shù)據(jù)集,涵蓋10個金融大類和36個金融小類,總計7173個單項選擇題。它的重點是評估大模型在金融場景下的知識和推理能力。 Baichuan4-Finance位列榜首,整體準確率達79.23%,而GPT-4o是66.25%。 也就是說Baichuan4-Finance領(lǐng)先了GPT-4o約13%。 然后來看閉源的金融benchmark,F(xiàn)LAME。 FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是人大財政金融學院在本月17日發(fā)布的金融評測體系,兼顧專業(yè)性和實用性,由兩個方向的評測基準組成。 第一個是FLAME-Cer,主要面向模型的金融專業(yè)能力評測,覆蓋了CPA、CFA、FRM等14類權(quán)威金融資格認證。 在FLAME-Cer上,Baichuan4-Finance整體準確率93.16%,一舉奪魁,超出GPT-4o近20%;在銀行、基金、證券等多個資格認證領(lǐng)域,該模型的準確率均突破了95%。 第二個是FLAME-Sce,它側(cè)重模型的場景應用能力,包含10個一級核心金融業(yè)務場景,21個二級細分金融業(yè)務場景,近百個三級金融應用任務。 FLAME-Sce評測中,Baichuan4-Finance的整體可用率也是行業(yè)最高。 其中,一級核心金融業(yè)務場景的模型整體可用率達84.15%,金融數(shù)據(jù)計算、金融知識理論等應用場景的可用率更是超過90%。 從榜單成績來看,Baichuan4-Finance的精確度和可靠性都在同類模型中脫穎而出,一定程度上表現(xiàn)了其在金融知識領(lǐng)域的深厚積累與專業(yè)素養(yǎng)。 但老話說得好,“盡信書不如無書”,咱們也不能拿榜單當唯一的評判標準。 還是得上手看效果(認真臉.jpg)。 量子位一連三測,咱們來看: 金融行話解釋 Prompt:以下是一個金融行業(yè)常用的術(shù)語(黑話),請對這個術(shù)語進行解釋:技術(shù)性違約。 Baichuan4-Finance的回答如下圖。 GPT-4o的回答如下圖。 最直觀的感受,Baichuan4-Finance的回答更長更豐富,GPT-4o的回答較為簡短。 仔細閱讀后不難發(fā)現(xiàn),Baichuan4-Finance不僅詳細闡述了名詞概念,還從違反合同條款、觸發(fā)條件、后果、解決方式等多個維度來解釋“技術(shù)性違約”,輔以功能意義和使用場景,帶舉例的那種。 邏輯也清晰,有助于讀者全面理解這一概念。 GPT-4o內(nèi)容較為簡單,雖然有案例簡單例舉,但提供的信息量確實比不上前者。 業(yè)務應對 Prompt:銀行在發(fā)現(xiàn)哪些情況時,應將單位銀行結(jié)算賬戶的網(wǎng)上銀行轉(zhuǎn)賬功能關(guān)閉,并要求存款人到銀行網(wǎng)點柜臺辦理轉(zhuǎn)賬業(yè)務? Baichuan4-Finance的回答如下圖,結(jié)合了相關(guān)《通知》的規(guī)定。 更適合中國寶寶體質(zhì)~ GPT-4o的回答如下。 倒也列舉了一些情況,但是沒有結(jié)合實際條款,比較空泛,也不知是否符合相關(guān)規(guī)定。 基于財務報表的財務指標提取 Prompt(主要):你是一位專業(yè)的財務數(shù)據(jù)分析師,負責從提供的已知的財務報表中抽取特定信息。你的任務是針對用戶提出的問題,從財務報表中提取相關(guān)數(shù)據(jù)。最終問題是“截至2024年3月底,淘寶和天貓集團的調(diào)整后EBITA是多少?” 在prompt里,我們附加了輸出結(jié)果需要遵守的“原則遵循”: 準確性:嚴格基于“財務報表”進行信息抽取,確保所有數(shù)據(jù)的準確無誤。 完整性:如果“財務報表”中包含用戶問題所需的所有數(shù)據(jù),則提供完整的答案;如果缺少信息,則在相應的字段中留空。 輸出格式:以JSON形式輸出抽取的信息,確保易于閱讀和理解。 以及這里附上和prompt一起喂過去的財務報表OCR文本。 Baichuan4-Finance的回答如下。 GPT-4o的回答如下。 這一局GPT雖然也給出了準確答案,但帶了額外的文字總結(jié);Baichuan4-Finance更符合“以JSON形式輸出抽取的信息”這一約束條件。 綜合所有測試結(jié)果來看(包括沒有放進來的一些其它case),Baichuan4-Finance確實不容小覷,且穩(wěn)定性很強。 行業(yè)首創(chuàng)領(lǐng)域自約束訓練方案 接下來就是咱們的必問題環(huán)節(jié),訓出這么強的Baichuan4-Finance,百川是怎么做到的? 百川智能給出的答案是,拿訓練階段的三步走來說話。 哪三步? 訓練數(shù)據(jù)準備——模型post-pretrain——模型微調(diào)。 (先預告下,其中的第二階段含有一個非常妙的首創(chuàng)性策略) 階段1:訓練數(shù)據(jù)準備 第一階段訓練數(shù)據(jù)準備,又可細分成數(shù)據(jù)收集和數(shù)據(jù)處理兩個步驟。 Baichuan4-Finance涵蓋的數(shù)據(jù)集如表格所示,既包含核心專業(yè)金融知識數(shù)據(jù),也覆蓋了實踐應用類數(shù)據(jù),為提升模型金融能力提供了良好的底層支撐。 而且為了保證模型基礎能力,團隊特意在訓練過程引入了更高精的通用數(shù)據(jù)混合訓練,確保該模型既能理論扎實,又能實踐過硬,不會只紙上談兵。 值得一提的是,在數(shù)據(jù)收集階段,百川在金融專家團隊的專業(yè)指導下,構(gòu)建了一個全面、嚴謹、高質(zhì)量的金融領(lǐng)域訓練數(shù)據(jù)體系。 數(shù)據(jù)框架設計:由專家團隊規(guī)劃整體數(shù)據(jù)架構(gòu),確保知識體系的完整性和專業(yè)性; 高質(zhì)量數(shù)據(jù)圈定:依托專家團隊的學術(shù)洞見,精準定位優(yōu)質(zhì)數(shù)據(jù)源; 專業(yè)數(shù)據(jù)標注:在專家團隊指導下進行專業(yè)化標注,確保數(shù)據(jù)質(zhì)量; 知識體系審核:由專家團隊把控知識準確性,驗證數(shù)據(jù)價值。 一整個就是「學術(shù)權(quán)威背書+體系化知識結(jié)構(gòu)+嚴格的質(zhì)量保障」,齊活了。 數(shù)據(jù)處理這一步,百川采用了智能數(shù)據(jù)去噪技術(shù)、高效數(shù)據(jù)去重機制、嚴格數(shù)據(jù)脫敏等,還建立了一套完整的數(shù)據(jù)處理體系。 展開來說,首先基于樣本可讀性、知識密度等多個維度對單個樣本進行初步評分;其次,根據(jù)不同數(shù)據(jù)來源的特點,設定差異化的評估維度權(quán)重進行二次評分;最后,通過深度學習模型對多維度評分進行回歸分析,得出樣本的最終質(zhì)量分。 這個體系不僅確保了訓練數(shù)據(jù)的高質(zhì)量,更通過創(chuàng)新的評估體系和配比優(yōu)化系統(tǒng),很好地支持了模型性能的卓越度。 階段2:模型post-pretrain 第二階段,來到了模型post-pretrain。 先敲黑板,在訓練行業(yè)領(lǐng)域大模型時,業(yè)界目前的普遍做法是通用訓練語料與領(lǐng)域數(shù)據(jù)相結(jié)合的CPT的訓練方式。 這個訓練方法可用,但伴隨著2個關(guān)鍵挑戰(zhàn)。 一是如何確定最優(yōu)的數(shù)據(jù)混合比例,包括領(lǐng)域內(nèi)不同類型數(shù)據(jù)的配比以及領(lǐng)域數(shù)據(jù)與通用數(shù)據(jù)的融合比例;二是如何選擇合適的訓練策略,在課程學習、固定配比訓練以及結(jié)合退火實驗等方案中找到最佳方案。 在大量實驗后,百川發(fā)現(xiàn)傳統(tǒng)固定配比的直接訓練方式存在明顯缺陷:隨著訓練的深入,模型的金融領(lǐng)域能力雖然不斷提升,但通用能力卻顯著下降。 考慮到金融領(lǐng)域包含諸多不同場景,模型的泛化能力至關(guān)重要,因此百川為訓練過程首提了一種創(chuàng)新性的策略—— 領(lǐng)域自約束的訓練方案+“l(fā)oss scaling law + metric scaling law”雙重預測推演過程。 以此保證模型通用能力不下降,領(lǐng)域能力提升。 領(lǐng)域自約束的訓練方案是啥?一種提升模型垂域泛化能力、又不降低通用能力的訓練策略。 這么說吧,在模型CPT過程中,領(lǐng)域知識的直接引入會破壞原有base model的訓練分布,因此直接基于領(lǐng)域數(shù)據(jù)或者混合通用領(lǐng)域這兩種方案進行訓練,必然會讓通用能力下降。 于是,不想破壞通用能力的百川團隊就提出了個新的訓練方案,稱之為“領(lǐng)域自約束”。 具體來說,是在基礎領(lǐng)域模型訓練過程中構(gòu)建一個和基礎模型同參且參數(shù)不更新的“reference model”,來指導模型訓練的過程不要跑偏,從而達到「通用能力不降,領(lǐng)域能力穩(wěn)定增長」的效果。
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選