小米大模型第二代來了! 相比第一代,訓練數據規(guī)模更大、品質更高,訓練策略與微調機制上也進行了深入打磨。 不僅窗口長度增長到了原來的50倍,在10大能力維度上表現相比于第一代平均提升超過45%。 而且家族成員豐富,有從0.3B到30B多個參數規(guī)模,分別適配云邊端各側設備。 此外,第二代大語言模型在端側部署上還支持3種推理加速方案,包括大小模型投機、BiTA、Medusa,相比于業(yè)界標準高通方案,量化損失降低78%。 大模型架構基礎研究 針對預訓練、后訓練、量化、推理加速等大模型具體研發(fā)方向,小米團隊做了大量研究,并將部分成果以論文的形式發(fā)布出來。 今年以來,小米大模型團隊發(fā)表了11篇論文(5篇ACL、3篇EMNLP、1篇NIPS、1篇ECAI、1篇COLING),申請了30+項發(fā)明專利,其中部分代表性的工作如下: SUBLLM項目主頁:https://github.com/XiaoMi/subllm SUBLLM基于Transformer結構,創(chuàng)新性地提出了一種新的模型結構。 其中設計了Subsampling、Upsampling和Bypass等新模塊,使得模型能夠區(qū)分重要token和不重要token。 針對重要tokens花更多的算力學習,保持few shot能力不變的同時,訓練和推理速度分別提升34%和52%。 該研究對標Google Deepmind的mixture of depths工作,兼容現有attention based大模型生態(tài)。 TransAct論文地址:https://arxiv.org/abs/2407.05690 TransAct是一種大模型結構化剪枝方法。 為了在大模型上同時實現高度壓縮和較小損失,小米大模型團隊設計了TransAct。 本方法以減小Transformer模塊內隱藏表征維度為目標,以各神經元的激活值大小為依據,剪除激活值較小的神經元,形成類低秩表示的模塊結構,同時保留 LayerNorm 等對擾動敏感的模塊間隱藏表征維度。 對比之前業(yè)界最佳的剪枝方法,TransAct方法剪枝模型的KV Cache下降了50%,推理速度提升了20%(小米14手機測試)。 INTRADoc論文地址:https://arxiv.org/abs/2402.13991 INTRADoc是一種新的注意力機制。 它通過屏蔽無關文檔,讓每個token的概率僅取決于同一文檔中的上文信息,進而消除了來自之前無關文檔的潛在干擾信息。 結果,INTRADoc顯著地提高了模型上下文學習、知識記憶、上下文利用能力。 Mixture of Diverse Size Experts論文地址:https://arxiv.org/abs/2409.12210 這是一種新的MoE結構,簡稱為MoDSE。 它在每一層中設計大小不同的專家結構,并同時引入了一種專家對分配策略,以在多個GPU之間均勻分配工作負載。 在多個基準測試中,MoDSE通過自適應地將參數預算分配給專家,在保持總參數量和專家個數相同的情況下,表現優(yōu)于傳統(tǒng)MoE結構。 性能平均提升45% 小米第二代模型MiLM2系列融合多項前沿技術模型效果全面超越了第一代。 小米大模型團隊采用自主構建的通用能力評測集Mi-LLMBM2.0,對最新一代的MiLM2模型進行了全方位評估。 該評測集涵蓋了廣泛的應用場景,包括生成、腦暴、對話、問答、改寫、摘要、分類、提取、代碼處理以及安全回復等10個大類,共計170個細分測試項。 以MiLM2-1.3B模型和MiLM2-6B模型為例,對比去年發(fā)布的一代模型,在十大能力上的效果均有大幅提升,平均提升幅度超過45%。 在生成、閑聊、翻譯等關鍵能力上,MiLM2-6B模型的評測成績十分優(yōu)異,對比業(yè)內同參數規(guī)模模型也有較優(yōu)的效果。 多個模型尺寸,覆蓋云邊端 大模型的更新,除了性能的提升,也是打磨模型矩陣的動態(tài)過程。 在堅持輕量化部署的大原則下,小米團隊將大模型的參數規(guī)模靈活擴展至0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B等多個量級,以適應不同場景下的需求。 0.3B~6B:終端(on-device)場景,應用時通常是一項非常具體的、低成本的任務,提供不同參數規(guī)模的模型以適配不同芯片及存儲空間的終端設備,微調后可以達到百億參數內開源模型效果。 6B、13B:在任務明確、且需要比6B以下參數模型提供更多的零樣本zero-shot/上下文學習時,6B和13B是一個可能有LLM涌現能力的起點,支持多任務微調,微調后可以達到幾百億開源模型的效果。 30B:云端場景,具備相當堅實的zero-shot/上下文學習或一些泛化能力,模型推理能力較好,能夠完成復雜的多任務,基本達到通用大模型水平。 小米自研大模型矩陣不僅包含多樣的參數量級,同時也納入了各種不同的模型結構。 在二代模型系列中,大模型團隊特別加入了兩個MoE(Mixture of Experts,即混合專家模型)結構的模型——MiLM2-0.7B×8和MiLM2-2B×8。 兩個模型的差異主要體現在訓練總參數量、詞表大小等方面。 MoE模型的工作原理是將多個承擔特定功能的“專家”模型進行并行處理,進而綜合各模型的輸出來提高整體預測的準確度和效率。 以MiLM2-2B×8為例,根據評測結果,該模型在整體性能上與MiLM2-6B不相上下、表現出色,而解碼速度實現了50%的提升,在保證模型性能不打折扣的同時,提升了其運行效率。 4B+30B,云端協(xié)同運行 特別地,對于端側,小米第二代大模型的部署技術也有了新的突破,新的4B模型將在端側發(fā)揮更重要的作用。 小米大模型團隊創(chuàng)新性地提出了“TransAct大模型結構化剪枝方法”,僅用8%的訓練計算量即從6B模型剪枝了4B模型,訓練效率大大提升; 同時小米大模型團隊自研了“基于權重轉移的端側量化方法”和“基于Outliers分離的端側量化方法”,大幅降低了端側量化的精度損失,對比業(yè)界標準高通方案,量化損失下降78%。 MiLM2-4B模型總共40層,實際總參數量為3.5B,目前已經實現在端側部署落地。 同時,在云端運行的MiLM2-30B模型是小米二代大模型系列中參數量級最大的模型。 在云端環(huán)境中,大模型面臨著多樣化和高難度的挑戰(zhàn),需要更高效地遵從并執(zhí)行用戶的復雜指令,深入分析多維度任務,并在長上下文中精準定位信息。 針對這些重點目標,大模型團隊選擇了一系列開源的評測集,對MiLM2-30B模型的專項能力進行評估。 結果表明,MiLM2-30B模型在指令遵循、常識推理和閱讀理解能力方面均有超越主流競品的出色表現,具體的評測集和評測結果如下: △指令遵循及常規(guī)能力測試結果△長文本能力測試結果本文來源:量子位 |
原創(chuàng)欄目
IT百科
網友評論
聚超值•精選