首頁 > 科技要聞 > 科技> 正文

小米上新二代大模型!窗口長度翻至50倍,平均性能提升超45%

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-13 15:56

小米大模型第二代來了!

相比第一代,訓練數據規(guī)模更大、品質更高,訓練策略與微調機制上也進行了深入打磨。

不僅窗口長度增長到了原來的50倍,在10大能力維度上表現相比于第一代平均提升超過45%

而且家族成員豐富,有從0.3B到30B多個參數規(guī)模,分別適配云邊端各側設備。

此外,第二代大語言模型在端側部署上還支持3種推理加速方案,包括大小模型投機、BiTA、Medusa,相比于業(yè)界標準高通方案,量化損失降低78%。

大模型架構基礎研究

針對預訓練、后訓練、量化、推理加速等大模型具體研發(fā)方向,小米團隊做了大量研究,并將部分成果以論文的形式發(fā)布出來。

今年以來,小米大模型團隊發(fā)表了11篇論文(5篇ACL、3篇EMNLP、1篇NIPS、1篇ECAI、1篇COLING),申請了30+項發(fā)明專利,其中部分代表性的工作如下:

SUBLLM

項目主頁:https://github.com/XiaoMi/subllm

SUBLLM基于Transformer結構,創(chuàng)新性地提出了一種新的模型結構。

其中設計了Subsampling、Upsampling和Bypass等新模塊,使得模型能夠區(qū)分重要token和不重要token。

針對重要tokens花更多的算力學習,保持few shot能力不變的同時,訓練和推理速度分別提升34%和52%。

該研究對標Google Deepmind的mixture of depths工作,兼容現有attention based大模型生態(tài)。

TransAct

論文地址:https://arxiv.org/abs/2407.05690

TransAct是一種大模型結構化剪枝方法。

為了在大模型上同時實現高度壓縮和較小損失,小米大模型團隊設計了TransAct。

本方法以減小Transformer模塊內隱藏表征維度為目標,以各神經元的激活值大小為依據,剪除激活值較小的神經元,形成類低秩表示的模塊結構,同時保留 LayerNorm 等對擾動敏感的模塊間隱藏表征維度。

對比之前業(yè)界最佳的剪枝方法,TransAct方法剪枝模型的KV Cache下降了50%,推理速度提升了20%(小米14手機測試)。

INTRADoc

論文地址:https://arxiv.org/abs/2402.13991

INTRADoc是一種新的注意力機制。

它通過屏蔽無關文檔,讓每個token的概率僅取決于同一文檔中的上文信息,進而消除了來自之前無關文檔的潛在干擾信息。

結果,INTRADoc顯著地提高了模型上下文學習、知識記憶、上下文利用能力。

Mixture of Diverse Size Experts

論文地址:https://arxiv.org/abs/2409.12210

這是一種新的MoE結構,簡稱為MoDSE。

它在每一層中設計大小不同的專家結構,并同時引入了一種專家對分配策略,以在多個GPU之間均勻分配工作負載。

在多個基準測試中,MoDSE通過自適應地將參數預算分配給專家,在保持總參數量和專家個數相同的情況下,表現優(yōu)于傳統(tǒng)MoE結構。

性能平均提升45%

小米第二代模型MiLM2系列融合多項前沿技術模型效果全面超越了第一代。

小米大模型團隊采用自主構建的通用能力評測集Mi-LLMBM2.0,對最新一代的MiLM2模型進行了全方位評估。

該評測集涵蓋了廣泛的應用場景,包括生成、腦暴、對話、問答、改寫、摘要、分類、提取、代碼處理以及安全回復等10個大類,共計170個細分測試項。

以MiLM2-1.3B模型和MiLM2-6B模型為例,對比去年發(fā)布的一代模型,在十大能力上的效果均有大幅提升,平均提升幅度超過45%。

在生成、閑聊、翻譯等關鍵能力上,MiLM2-6B模型的評測成績十分優(yōu)異,對比業(yè)內同參數規(guī)模模型也有較優(yōu)的效果。

多個模型尺寸,覆蓋云邊端

大模型的更新,除了性能的提升,也是打磨模型矩陣的動態(tài)過程。

在堅持輕量化部署的大原則下,小米團隊將大模型的參數規(guī)模靈活擴展至0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B等多個量級,以適應不同場景下的需求。

0.3B~6B:終端(on-device)場景,應用時通常是一項非常具體的、低成本的任務,提供不同參數規(guī)模的模型以適配不同芯片及存儲空間的終端設備,微調后可以達到百億參數內開源模型效果。

6B、13B:在任務明確、且需要比6B以下參數模型提供更多的零樣本zero-shot/上下文學習時,6B和13B是一個可能有LLM涌現能力的起點,支持多任務微調,微調后可以達到幾百億開源模型的效果。

30B:云端場景,具備相當堅實的zero-shot/上下文學習或一些泛化能力,模型推理能力較好,能夠完成復雜的多任務,基本達到通用大模型水平。

小米自研大模型矩陣不僅包含多樣的參數量級,同時也納入了各種不同的模型結構。

在二代模型系列中,大模型團隊特別加入了兩個MoE(Mixture of Experts,即混合專家模型)結構的模型——MiLM2-0.7B×8和MiLM2-2B×8。

兩個模型的差異主要體現在訓練總參數量、詞表大小等方面。

MoE模型的工作原理是將多個承擔特定功能的“專家”模型進行并行處理,進而綜合各模型的輸出來提高整體預測的準確度和效率。

以MiLM2-2B×8為例,根據評測結果,該模型在整體性能上與MiLM2-6B不相上下、表現出色,而解碼速度實現了50%的提升,在保證模型性能不打折扣的同時,提升了其運行效率。

4B+30B,云端協(xié)同運行

特別地,對于端側,小米第二代大模型的部署技術也有了新的突破,新的4B模型將在端側發(fā)揮更重要的作用。

小米大模型團隊創(chuàng)新性地提出了“TransAct大模型結構化剪枝方法”,僅用8%的訓練計算量即從6B模型剪枝了4B模型,訓練效率大大提升;

同時小米大模型團隊自研了“基于權重轉移的端側量化方法”和“基于Outliers分離的端側量化方法”,大幅降低了端側量化的精度損失,對比業(yè)界標準高通方案,量化損失下降78%。

MiLM2-4B模型總共40層,實際總參數量為3.5B,目前已經實現在端側部署落地。

同時,在云端運行的MiLM2-30B模型是小米二代大模型系列中參數量級最大的模型。

在云端環(huán)境中,大模型面臨著多樣化和高難度的挑戰(zhàn),需要更高效地遵從并執(zhí)行用戶的復雜指令,深入分析多維度任務,并在長上下文中精準定位信息。

針對這些重點目標,大模型團隊選擇了一系列開源的評測集,對MiLM2-30B模型的專項能力進行評估。

結果表明,MiLM2-30B模型在指令遵循、常識推理和閱讀理解能力方面均有超越主流競品的出色表現,具體的評測集和評測結果如下:

指令遵循及常規(guī)能力測試結果

長文本能力測試結果

本文來源:量子位

網友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部
国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av