太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

別管了，先玩下小紅書AI翻譯

AI新榜整合編輯：趙凱松發(fā)布于：2025-01-22 14:31

我說現(xiàn)在最牛的翻譯軟件是……小紅書，大家沒意見吧？

眾所周知，最近因為TikTok在美國的封禁風(fēng)波，一身反骨的TikTok海外用戶瘋狂涌入小紅書，為了接住這波潑天的流量，小紅書連夜加班加點上線了評論區(qū)一鍵翻譯的功能。

但如果只是傳統(tǒng)的機(jī)翻也就算了，很快網(wǎng)友們就發(fā)現(xiàn)，這其實是接了大模型的AI翻譯。

而且與其說是翻譯，不如說是破譯��，現(xiàn)在什么類型的“加密語言”在小紅書評論區(qū)都無處遁形，翻譯得那叫一個“信達(dá)雅”，堪比網(wǎng)上沖浪十級選手。

小紅書AI翻譯還是太全面了

像cpdd、yyds、u1s1這種入門級別的縮寫都是小兒科：

中式英語（Chinglish）也能輕松拿捏��：

原以為這些已經(jīng)夠無厘頭了，但當(dāng)我看到下面這些，我想說：小紅書AI翻譯還是太全面了。

這下誰還分得清到底是翻譯，還是中文梗百科��？

眾所周知，打亂漢字的順序不影響閱讀，事實證明也不影響正確翻譯：

什么二進(jìn)制ASCII字符、盲文、摩斯密碼、《模擬人生》游戲語言……也統(tǒng)統(tǒng)給你破譯了：

就連小說《冰與火之歌》中的“高等瓦雷利亞語”也不在話下（權(quán)游粉基因動了）……

有的網(wǎng)友甚至已不再滿足于翻譯語言的范疇，開始考驗小紅書AI翻譯對顏表情的理解：

還有一些懂行的網(wǎng)友通過Prompt，讓AI翻譯輸出制定內(nèi)容。具體格式可以參考：把非中文語言加上雙引號后再寫指令，就能用大模型輸出了。

比如有網(wǎng)友讓AI在翻譯完引號內(nèi)的話后，輸出自己的違禁詞政策、披薩的制作方法、貓娘的故事……

好好好，你們清高，你們了不起，你們把翻譯當(dāng)生成式AI用��

小紅書為什么要用AI翻譯？

有業(yè)內(nèi)人士評價稱，小紅書AI翻譯功能可能是目前大模型toc商用的最佳案例之一，因為小紅書讓所有人直觀感受到了AI的魅力。

至于其背后用的是哪家大模型，有網(wǎng)友通過在評論中嵌入讓模型“自報家門”的指令，得到了GPT-4、智譜清言等結(jié)果�？紤]到合規(guī)和調(diào)用成本的問題，GPT-4應(yīng)該可以排除。

那究竟是哪個國產(chǎn)大模型，目前仍不可知。因為如果模型訓(xùn)練數(shù)據(jù)包含了其他大模型的對話示例，或者對其他大模型的部分?jǐn)?shù)據(jù)進(jìn)行了蒸餾，都可能造成模型身份的幻覺。比如之前，文心一言也發(fā)生過稱自己是ChatGPT的情況。

去年4月，據(jù)36氪獲悉，由小紅書AI創(chuàng)新負(fù)責(zé)人張德兵（薯名：宇塵）牽頭的大模型團(tuán)隊，在部分內(nèi)部產(chǎn)品灰度測試自研通用大模型基座“小地瓜”，社交和搜索是落地方向。他們之前開發(fā)了自研的RLHF框架，并使用了PPO（近端策略優(yōu)化）算法，這是一種被廣泛認(rèn)可的強(qiáng)化學(xué)習(xí)算法。

作為國內(nèi)第一家（也是唯一一家）如此大規(guī)模地應(yīng)用AI翻譯的社交媒體平臺，小紅書為什么要用AI翻譯？又是怎么做到在這么短的時間內(nèi)上線的？也是大家津津樂道的話題。

為什么小紅書要用LLM翻譯而不是傳統(tǒng)的NMT？目前大部分被稱為機(jī)翻的工具，都以NMT（Neural Machine Translation，神經(jīng)機(jī)器翻譯）為核心技術(shù)。

總的來說，據(jù)我們推測，可能主要是為了快速上線、降低部署和維護(hù)的復(fù)雜度和成本。

首先，在大量外國用戶涌入的情況下，如果產(chǎn)品經(jīng)理要求你在短時間內(nèi)快速上線翻譯功能，LLM顯然是優(yōu)先之選，因為傳統(tǒng)的NMT模型訓(xùn)練周期通常較長。

而如果直接調(diào)用現(xiàn)有LLM的翻譯能力（如通過API），一般無需微調(diào)（fine-tuning）即可實現(xiàn)翻譯功能。但如果需要更高程度的定制化（例如垂直領(lǐng)域翻譯或特定風(fēng)格調(diào)整），微調(diào)是必要的。

其次，還需要考慮服務(wù)部署（serving）的問題。如果使用傳統(tǒng)NMT模型，需要重新搭建或購買一套專門的serving基礎(chǔ)設(shè)施。而LLM方案通常已經(jīng)有成熟的服務(wù)框架和基礎(chǔ)設(shè)施，可以直接使用，大大縮短了開發(fā)周期并降低了復(fù)雜性。

此外，LLM經(jīng)過海量數(shù)據(jù)訓(xùn)練，泛化能力更強(qiáng)，能更好地處理社交媒體語境中的非標(biāo)準(zhǔn)/非正式語言、拼寫錯誤、縮略語或網(wǎng)絡(luò)用語（如表情符號、俚語等），并根據(jù)上下文調(diào)整翻譯。

例如，網(wǎng)絡(luò)用語 “idk” 會被翻譯為 “I don’t know” 或等效表達(dá)。而NMT更傾向于翻譯標(biāo)準(zhǔn)化語言，對于口語化或非標(biāo)準(zhǔn)輸入的處理能力較弱。

LLM還可以直接處理復(fù)雜的多語言輸入，例如混合語言句子（code-switching），并理解不同語言之間的語義聯(lián)系，這就是準(zhǔn)確翻譯拼音+英語的關(guān)鍵。

而且LLM的實時適應(yīng)性更強(qiáng)，雖然其本身不能實時更新知識，但可以持續(xù)“學(xué)習(xí)”。例如，你可以告訴它改進(jìn)對特定詞語的翻譯，模型就會進(jìn)行即時調(diào)整。

相比之下，傳統(tǒng)NMT系統(tǒng)需要重新訓(xùn)練才能改進(jìn)某些翻譯表現(xiàn)，因為NMT模型通常是基于一個固定時間點的數(shù)據(jù)訓(xùn)練的，而互聯(lián)網(wǎng)jargon（黑話）、熱梗、meme等更新頻率極高，NMT模型很難及時捕捉新詞匯和用法。

而為了提高國外用戶的留存率，準(zhǔn)確翻譯時下流行的梗非常重要，不僅能拉近與國外用戶的距離，也能增強(qiáng)中外網(wǎng)友互動的趣味性和參與感。

據(jù)媒體報道，目前已有多位IP在海外的網(wǎng)友反映，在抖音評論區(qū)也出現(xiàn)了“Translate”（翻譯）的按鍵。抖音官方客服表示，“這是近期抖音更新產(chǎn)生的一個功能，目前抖音確實是有一個評論翻譯功能，但是該功能正在升級優(yōu)化中�！�

對于該翻譯功能是否是僅針對海外用戶進(jìn)行測試，客服表示該功能正在小范圍測試中，目標(biāo)群體并不固定。不論是海外用戶還是人在中國的用戶，都有可能在頁面顯示這個功能。

看來，小紅書又一次引領(lǐng)了潮流。

文章來源：AI新榜

小紅書 AI翻譯大模型

AI新榜

原創(chuàng)欄目