首頁(yè) > 科技要聞 > 科技> 正文

Claude三巨頭回應(yīng)一切!Opus3.5仍可能發(fā)布,5小時(shí)超長(zhǎng)視頻10萬(wàn)人圍觀

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-13 16:09

Claude團(tuán)隊(duì)三巨頭同時(shí)接受采訪,回應(yīng)一切。

整整5個(gè)小時(shí),創(chuàng)始人Dario Amodei、Claude性格設(shè)計(jì)師Amanda Askell、機(jī)制可解釋性先驅(qū)Chris Olah無(wú)所不談,透露了關(guān)于模型、公司和行業(yè)的很多內(nèi)幕和細(xì)節(jié)。

比如Claude 3.5 Opus仍有可能發(fā)布,公司今年從300人擴(kuò)展到1000人,

采訪者是著名博客節(jié)目制作人Lex Fridman,完整視頻發(fā)布不到10個(gè)小時(shí)就已有10萬(wàn)播放。

5小時(shí)確實(shí)很長(zhǎng),不過(guò)別擔(dān)心,量子位在Claude的幫助下(狗頭)精選整理了他們的觀點(diǎn)。

創(chuàng)始人Amodei:

Anthropic在行業(yè)中的姿態(tài)是“向上的競(jìng)爭(zhēng)”,通過(guò)樹(shù)立榜樣,推動(dòng)友商做正確的事情

頂尖的AI研究團(tuán)隊(duì),人才密度比人才數(shù)量更重要

暗示Claude 3.5 Opus仍有可能發(fā)布

Claude和其他模型都沒(méi)有“變笨”

Scaling Law像化學(xué)反應(yīng),必須同時(shí)擴(kuò)展不同成分,不然反應(yīng)會(huì)停止

預(yù)計(jì)2026-2027年可能實(shí)現(xiàn)“強(qiáng)大的AI”

對(duì)于想進(jìn)入AI行業(yè)的年輕人,最重要的建議是動(dòng)手玩模型

Claude性格設(shè)計(jì)師Amanda Askell:

把Claude設(shè)計(jì)成更像“世界旅行者”而非“服務(wù)者”

Claude的角色塑造訓(xùn)練不涉及人類(lèi)反饋數(shù)據(jù)

提示工程是一個(gè)反復(fù)迭代的過(guò)程

機(jī)制可解釋性先驅(qū)Chris Olah:

將神經(jīng)網(wǎng)絡(luò)研究比作生物學(xué)研究,強(qiáng)調(diào)“自下而上”的研究方法

提出要研究神經(jīng)網(wǎng)絡(luò)的”器官系統(tǒng)”級(jí)別的抽象

梯度下降比我們(人類(lèi))聰明


……

不知道是否與,整個(gè)對(duì)話從Scaling Law這個(gè)話題開(kāi)始。

關(guān)于Scaling Law、AGI和未來(lái)

先鋪墊一個(gè)冷知識(shí),Anthropic CEO在百度研究院吳恩達(dá)團(tuán)隊(duì)工作過(guò),他對(duì)Scaling Law的第一印象也是那時(shí)研究語(yǔ)音模型產(chǎn)生的。

Amodei這次自述剛開(kāi)始研究語(yǔ)音神經(jīng)網(wǎng)絡(luò)時(shí)有一種“新手撞大運(yùn)”的感覺(jué),嘗試把模型和數(shù)據(jù)規(guī)模同時(shí)擴(kuò)大,發(fā)現(xiàn)模型性能隨著規(guī)模的增加而不斷提升。

最初,他以為這只是語(yǔ)音識(shí)別系統(tǒng)的特例,但到了2017年,看到GPT-1的結(jié)果后意識(shí)到這種現(xiàn)象在語(yǔ)言模型上同樣適用。

一開(kāi)始有不少專(zhuān)家持懷疑態(tài)度,例如認(rèn)為語(yǔ)言模型只能處理句法(syntax),而無(wú)法理解語(yǔ)義(semantics),或者會(huì)面臨數(shù)據(jù)質(zhì)量和數(shù)量的瓶頸。但每次質(zhì)疑后,業(yè)界總能找到突破口,或者通過(guò)繼續(xù)擴(kuò)展模型來(lái)克服這些問(wèn)題。

(接下來(lái)的內(nèi)容以對(duì)話形式呈現(xiàn)

Scaling的本質(zhì)是什么?您能否進(jìn)一步解釋?zhuān)?/strong>

Amodei:Scaling的核心在于擴(kuò)大網(wǎng)絡(luò)規(guī)模、訓(xùn)練時(shí)間和數(shù)據(jù)量。

這有點(diǎn)像化學(xué)反應(yīng)中的成分比例,如果只擴(kuò)大其中一個(gè),而忽略了其他因素,反應(yīng)就會(huì)停止。但如果按比例擴(kuò)大所有成分,模型的性能會(huì)持續(xù)提升。

最初,我們?cè)?020年的論文中展示了語(yǔ)言模型的Scaling Laws,隨后發(fā)現(xiàn)這種模式也適用于圖像、視頻、數(shù)學(xué)等不同領(lǐng)域。

為什么更大的模型和更多的數(shù)據(jù)會(huì)帶來(lái)更高的智能呢?

Amodei:我以前做過(guò)生物物理學(xué)研究,在物理學(xué)中有一種叫1/f噪聲的現(xiàn)象。如果你觀察許多自然過(guò)程的分布,會(huì)發(fā)現(xiàn)它們遵循某種長(zhǎng)尾分布。這意味著簡(jiǎn)單的模式很容易被捕捉,但越復(fù)雜的模式越難被捕捉。

而隨著網(wǎng)絡(luò)規(guī)模的增加,它能夠捕捉到更多這種長(zhǎng)尾分布中的復(fù)雜模式。語(yǔ)言也是一種進(jìn)化的過(guò)程,有常用詞和不常用詞,句子結(jié)構(gòu)和段落結(jié)構(gòu)都是由此演化而來(lái)的。大模型能夠捕捉到這些高層次的語(yǔ)言模式。

那這個(gè)方法的極限在哪里?是否存在一個(gè)“天花板”?

Amodei:我們目前還不清楚極限在哪里。我認(rèn)為,人類(lèi)能夠理解許多復(fù)雜的模式,這意味著如果我們繼續(xù)擴(kuò)展模型規(guī)模,至少可以達(dá)到人類(lèi)水平。至于是否能超越人類(lèi),那就要看具體領(lǐng)域了。例如,在生物學(xué)領(lǐng)域,人類(lèi)目前理解的只是冰山一角,而 AI 有可能在這些復(fù)雜領(lǐng)域超越人類(lèi)。然而在一些人類(lèi)社會(huì)和文化相關(guān)的問(wèn)題上,可能會(huì)有一些無(wú)法突破的瓶頸。

如果擴(kuò)展遇到瓶頸,你認(rèn)為會(huì)是什么原因?

Amodei:首先,可能是數(shù)據(jù)的限制。互聯(lián)網(wǎng)的數(shù)據(jù)畢竟是有限的,而且其中很多數(shù)據(jù)質(zhì)量不高,比如搜索引擎SEO內(nèi)容,甚至未來(lái)可能會(huì)有AI自己生成的重復(fù)內(nèi)容。為了解決這個(gè)問(wèn)題,我們和其他公司正在研究如何生成合成數(shù)據(jù),例如 AlphaGo Zero通過(guò)自我對(duì)弈達(dá)到了超越人類(lèi)的水平,而沒(méi)有使用人類(lèi)提供的數(shù)據(jù)。

其次,可能是計(jì)算資源的限制。隨著模型變得越來(lái)越大,所需的計(jì)算資源和成本也在急劇增加。當(dāng)前的大型模型訓(xùn)練成本可能在 10 億美元左右,而未來(lái)幾年這個(gè)數(shù)字可能會(huì)達(dá)到 100 億美元級(jí)別。如果我們依然不能取得突破,可能就需要尋找更高效的算法和架構(gòu)。

……

您更喜歡使用“強(qiáng)大的AI”這個(gè)術(shù)語(yǔ),而不是AGI(通用人工智能),為什么呢?

Amodei:是的,我傾向于使用“強(qiáng)大的 AI”,因?yàn)锳GI這個(gè)術(shù)語(yǔ)已經(jīng)帶有太多的包袱,幾乎失去了意義。

如果用AGI來(lái)指代AI技術(shù)持續(xù)進(jìn)步,最終超越人類(lèi)智能,那么我同意這種看法。但如果將AGI視為一個(gè)特定的、離散的技術(shù)突破點(diǎn),那么這個(gè)概念就變得模糊不清,甚至是一種流行詞匯,失去了實(shí)際意義。

我認(rèn)為AI的發(fā)展是一個(gè)漸進(jìn)的過(guò)程,沒(méi)有明確的“超級(jí)計(jì)算機(jī)時(shí)刻”,而是不斷變得更強(qiáng)大和智能的連續(xù)演進(jìn)。

我在最近的文章(Machines of Loving Grace)中,我描述了一種“強(qiáng)大的 AI”:它在大多數(shù)學(xué)科上比諾貝爾獎(jiǎng)得主更聰明,能夠運(yùn)用各種感知模態(tài),并且可以獨(dú)立完成任務(wù),只在需要時(shí)尋求幫助。它可以控制工具和實(shí)驗(yàn)室設(shè)備,甚至能夠復(fù)制自己,快速部署數(shù)百萬(wàn)個(gè)實(shí)例。這種AI可以比人類(lèi)快10到100倍地學(xué)習(xí)和行動(dòng)。

您在文章中談到了兩種極端的觀點(diǎn):一種是“奇點(diǎn)”論,另一種是認(rèn)為 AI 進(jìn)步會(huì)很緩慢。能否詳細(xì)闡述一下這兩種觀點(diǎn)?

Amodei:第一種極端觀點(diǎn)認(rèn)為,AI發(fā)展會(huì)迅速達(dá)到一個(gè)奇點(diǎn)。一旦AI超過(guò)人類(lèi)智能,它將迅速改進(jìn)自己,并推動(dòng)技術(shù)呈指數(shù)級(jí)增長(zhǎng)。

按照這種觀點(diǎn),AI會(huì)立即掌握所有可能的技術(shù),并改變整個(gè)世界。但我認(rèn)為這種觀點(diǎn)忽視了物理定律和現(xiàn)實(shí)世界的復(fù)雜性。即使AI非常聰明,硬件的生產(chǎn)、實(shí)驗(yàn)的驗(yàn)證等都需要時(shí)間。很多復(fù)雜系統(tǒng),如經(jīng)濟(jì)和生物系統(tǒng),都無(wú)法簡(jiǎn)單預(yù)測(cè),即便是最先進(jìn)的AI也無(wú)法完全掌控。

另一種極端觀點(diǎn)則認(rèn)為,AI帶來(lái)的生產(chǎn)力提升會(huì)非常緩慢。這種觀點(diǎn)通常引用Robert Solow(1987年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主)的名言:“你可以在任何地方看到計(jì)算機(jī)革命,除了生產(chǎn)力統(tǒng)計(jì)中。”歷史上,計(jì)算機(jī)和互聯(lián)網(wǎng)帶來(lái)的生產(chǎn)力提升往往不如預(yù)期。對(duì)于那些仍在使用落后技術(shù)的地區(qū)來(lái)說(shuō),AI 的普及速度可能更慢。

您對(duì)未來(lái)AI發(fā)展的時(shí)間線預(yù)期是什么?

Amodei:我認(rèn)為未來(lái)5到10年內(nèi),我們會(huì)看到AI的重大進(jìn)展,而不是50年。

AI技術(shù)的部署雖然在一開(kāi)始面臨阻力,但隨著早期成功案例的出現(xiàn),競(jìng)爭(zhēng)會(huì)推動(dòng)更多的公司和組織快速跟進(jìn)。我在與他們交流時(shí)看到了一種趨勢(shì):盡管機(jī)構(gòu)的變革速度很慢,但內(nèi)部總有一小部分人真正理解AI的潛力,并推動(dòng)變革。當(dāng)競(jìng)爭(zhēng)壓力加大時(shí),這些人的聲音會(huì)變得越來(lái)越有力。

最終,我認(rèn)為這種變革會(huì)在一段時(shí)間內(nèi)逐漸累積,然后突然爆發(fā),形成漸變到突變的模式。

這和我在AI領(lǐng)域內(nèi)部看到的變化類(lèi)似:最初只有少數(shù)人相信Scaling Law,但幾年后,這種觀點(diǎn)被普遍認(rèn)可。因此,我預(yù)期AI的廣泛應(yīng)用會(huì)比很多人預(yù)想的更快,但也不會(huì)像一些人預(yù)測(cè)的那樣迅速發(fā)生在幾小時(shí)或幾天內(nèi)。

關(guān)于Claude 3.5系列

Claude系列模型的進(jìn)化是如何實(shí)現(xiàn)的?

Amodei:每一代新模型的目標(biāo)都是推動(dòng)性能與成本之間的平衡。

例如,Sonnet 3.5的速度和成本與Sonnet 3.0類(lèi)似,但智能水平達(dá)到了之前Opus 3.0的水平,尤其是在編程任務(wù)上表現(xiàn)出色。同樣地,我們最新發(fā)布的Haiku 3.5也達(dá)到了之前Opus 3.0的性能水平。我們的策略是不斷“推高性能曲線”,逐步提升每一代模型的表現(xiàn)。

在之后某個(gè)時(shí)候,我們可能會(huì)繼續(xù)推出Opus 3.5。

每一代模型使用新的數(shù)據(jù),個(gè)性也會(huì)改變,我們嘗試控制但無(wú)法完全控制。我們無(wú)法做到只改變智力,一些事情在我們不知道或無(wú)法測(cè)量的情況下改變了。

是什么導(dǎo)致了性能提升?是預(yù)訓(xùn)練還是后訓(xùn)練的改進(jìn)?

Amodei:這取決于多個(gè)過(guò)程,包括前期訓(xùn)練和后期訓(xùn)練……從外部看,可能大家會(huì)以為我們?cè)陂_(kāi)發(fā)新模型時(shí)常有“靈光一現(xiàn)”的突破時(shí)刻,但實(shí)際上更多時(shí)候是需要扎實(shí)的工程細(xì)節(jié)處理。軟件工程和性能優(yōu)化是我們面臨的最大挑戰(zhàn)之一。我們投入大量精力在工具鏈開(kāi)發(fā)上,以確保我們能高效、無(wú)障礙地與基礎(chǔ)設(shè)施交互,提升整個(gè)研發(fā)過(guò)程的效率。

為什么新模型不叫Sonnet 3.6,而是用更新日期來(lái)命名?

Amodei:一年前,大部分模型還是從零開(kāi)始訓(xùn)練的,我們可以按照不同的大小和版本號(hào)來(lái)命名。但現(xiàn)在,隨著訓(xùn)練和優(yōu)化時(shí)間的不一致,很多時(shí)候我們會(huì)發(fā)現(xiàn)性能更好的模型不需要很長(zhǎng)時(shí)間訓(xùn)練,反而在版本命名上帶來(lái)了困擾。

為什么用戶(hù)會(huì)覺(jué)得AI變笨了?

Amodei的回答:

這種反饋不僅僅針對(duì) Claude,我看到幾乎所有大型模型都面臨類(lèi)似的抱怨。實(shí)際上,模型本身的權(quán)重是不會(huì)隨意更改的,因?yàn)檫@會(huì)影響推理性能,而且控制權(quán)重變化的影響也非常困難。偶爾我們會(huì)進(jìn)行 AB 測(cè)試,或者調(diào)整系統(tǒng)提示詞,這可能會(huì)導(dǎo)致短期內(nèi)用戶(hù)感受到模型行為的變化,但這通常不會(huì)顯著影響模型的核心性能。

這可能與用戶(hù)的心理預(yù)期有關(guān)。新模型發(fā)布時(shí),用戶(hù)通常會(huì)覺(jué)得它非常強(qiáng)大,但隨著時(shí)間推移,他們開(kāi)始注意到模型的局限性。此外,模型對(duì)用戶(hù)輸入的細(xì)微變化非常敏感,這種敏感性可能導(dǎo)致不同的交互結(jié)果。

這種現(xiàn)象實(shí)際上反映了模型行為控制上的一個(gè)現(xiàn)有問(wèn)題,也預(yù)示了未來(lái)可能出現(xiàn)的更大挑戰(zhàn)。如何在提升模型性能的同時(shí),確保模型不會(huì)在其他方面出現(xiàn)不期望的行為,這是我們當(dāng)前正在努力解決的問(wèn)題,也是未來(lái) AI 對(duì)齊研究的重要方向。

這里附上訪談后半部分Amanda Askell的回答:

模型實(shí)際上沒(méi)有任何變化——系統(tǒng)提示、模型結(jié)構(gòu)、數(shù)據(jù)都沒(méi)有改動(dòng)。但當(dāng)我們做出一些小調(diào)整時(shí),比如啟用了新的功能(像“Artifacts”模式變成默認(rèn)開(kāi)啟)可能會(huì)影響Claude的行為。我通常會(huì)建議用戶(hù),如果他們覺(jué)得Claude行為變了,可以嘗試關(guān)閉這個(gè)功能,看問(wèn)題是否有所改善。

有時(shí)用戶(hù)可能只是因?yàn)閹讉(gè)提示結(jié)果不理想,就覺(jué)得模型整體變笨了。我認(rèn)為這也是一種心理效應(yīng)。當(dāng)人們長(zhǎng)期使用 Claude,他們的預(yù)期會(huì)越來(lái)越高,特別是當(dāng)Claude給出了許多“聰明”的回應(yīng)時(shí),用戶(hù)會(huì)逐漸形成一種“智能”印象。如果之后Claude給出了一個(gè)“愚蠢”的回答,這種負(fù)面體驗(yàn)會(huì)被放大,用戶(hù)就會(huì)覺(jué)得模型退步了。但實(shí)際上,這可能只是一次運(yùn)氣不好的回答,并不代表模型整體變差了。

提示的細(xì)微差異會(huì)對(duì)結(jié)果產(chǎn)生很大影響,而隨機(jī)性也是一個(gè)重要因素。如果你多次嘗試相同的提示,有時(shí)可能會(huì)得到非常好的回答,有時(shí)卻不盡如人意。很多時(shí)候,用戶(hù)記得的只是那一次失敗的嘗試,卻忘記了模型之前成功的表現(xiàn)。

關(guān)于Anthropic公司

如何與OpenAI、Google、xAI、Meta等競(jìng)爭(zhēng)?

Amodei:Anthropic的使命是讓這一切順利發(fā)展。我們的理論稱(chēng)為“向上的競(jìng)爭(zhēng)”(Race to the Top)。

“向上的競(jìng)爭(zhēng)”是通過(guò)樹(shù)立榜樣,推動(dòng)其他參與者做正確的事情。這并不是為了成為“好人”,而是為了讓大家都能成為“好人”。我舉幾個(gè)例子:

在 Anthropic 的早期,我們的聯(lián)合創(chuàng)始人之一Chris Olah——我相信您很快也會(huì)采訪他——是機(jī)制可解釋性領(lǐng)域的共同創(chuàng)始人,試圖理解AI模型內(nèi)部的運(yùn)作機(jī)制。

我們讓他和一個(gè)早期團(tuán)隊(duì)專(zhuān)注于解釋性領(lǐng)域,我們認(rèn)為這有助于使模型更安全、更透明。三四年來(lái),這完全沒(méi)有商業(yè)應(yīng)用,直到今天仍然如此。我們正在進(jìn)行一些早期測(cè)試,可能最終會(huì)有應(yīng)用。但這是一個(gè)非常長(zhǎng)期的研究,我們?cè)诠_(kāi)的環(huán)境中建立并分享了我們的成果。

我們這樣做是因?yàn)槲覀冋J(rèn)為這是使模型更安全的一種方式。有趣的是,當(dāng)我們這樣做時(shí),其他公司也開(kāi)始這樣做。有些是因?yàn)槭艿絾l(fā),有些是因?yàn)閾?dān)心如果其他公司這樣做并顯得更負(fù)責(zé)任,他們也希望顯得更負(fù)責(zé)任。沒(méi)有人想被視為不負(fù)責(zé)任的參與者,所以他們也采納了這種做法。

從某種程度上說(shuō),這削弱了我們的競(jìng)爭(zhēng)優(yōu)勢(shì),因?yàn)槠渌艘苍谧鐾瑯拥氖虑。但這對(duì)整個(gè)系統(tǒng)是有益的。所以我們需要發(fā)明一些新東西,是我們?cè)谧龆渌诉沒(méi)有做的。希望通過(guò)這種方式提升做正確事情的重要性。

這并不是關(guān)于我們特定的公司,不是關(guān)于成為唯一的“好人”。其他公司也可以這樣做,如果他們也加入這種競(jìng)賽,那就是最好的消息。這是關(guān)于塑造激勵(lì),使其指向向上,而不是指向向下。

如何建立一支頂尖的AI研究團(tuán)隊(duì)?

Amodei: 一個(gè)我越發(fā)堅(jiān)信的觀點(diǎn):“人才密度”勝過(guò)“人才規(guī)模”,每個(gè)月我都覺(jué)得這個(gè)說(shuō)法更加正確。我們做個(gè)思維實(shí)驗(yàn):假設(shè)一支100人團(tuán)隊(duì),他們非常聰明、動(dòng)機(jī)明確且與公司使命高度契合。或者一支1000人團(tuán)隊(duì),其中只有200人符合上述標(biāo)準(zhǔn),而剩下800人是隨機(jī)選來(lái)的普通大公司員工。你會(huì)選哪一個(gè)?

從人數(shù)來(lái)看,1000人團(tuán)隊(duì)中的人才規(guī)模更大,因?yàn)槠渲袃?yōu)秀人才的絕對(duì)數(shù)量更多。然而問(wèn)題在于,當(dāng)頂尖人才環(huán)顧四周,看到的都是同樣才華橫溢、使命明確的人時(shí),這會(huì)塑造出一種積極的團(tuán)隊(duì)氛圍:大家信任彼此,工作效率會(huì)因此大大提升。

而如果你有一支幾千人的團(tuán)隊(duì),其中很多人并非精心挑選的,你就需要引入大量的流程和約束,因?yàn)槿狈π湃螘?huì)導(dǎo)致組織內(nèi)耗,政治斗爭(zhēng)也會(huì)增加,最終拖慢整個(gè)團(tuán)隊(duì)的效率。

(OpenAI員工中,也有人會(huì)用“人才密度持續(xù)增加”來(lái)歡迎新成員)

我們公司目前有接近1000名員工,我們一直在努力確保其中絕大部分都是頂尖人才。這也是為什么我們?cè)谶^(guò)去幾個(gè)月中放緩了招聘速度。今年前7到8個(gè)月,我們從300人增長(zhǎng)到800人,但最近幾個(gè)月增長(zhǎng)緩慢,大概從800人增加到900多人。我不確定具體的數(shù)字,但我認(rèn)為在團(tuán)隊(duì)規(guī)模達(dá)到 1000 人左右時(shí),必須更加謹(jǐn)慎地?cái)U(kuò)展。

我們也招募了許多理論物理學(xué)家,因?yàn)樗麄兊膶W(xué)習(xí)能力極強(qiáng)。我們?cè)谘芯亢蛙浖こ填I(lǐng)域都設(shè)立了很高的門(mén)檻,尤其是在吸引那些在同類(lèi)公司中有豐富經(jīng)驗(yàn)的高級(jí)人才方面?焖贁U(kuò)張很容易導(dǎo)致團(tuán)隊(duì)各自為戰(zhàn),缺乏共同的目標(biāo),這種情況下很難達(dá)成成就。但如果每個(gè)人都理解公司更大的使命,并且彼此信任,這種信任和專(zhuān)注本身就是一種超能力,能夠彌補(bǔ)幾乎所有的劣勢(shì)。

就像史蒂夫·喬布斯說(shuō)的:“A級(jí)人才想和A級(jí)人才共事。”這句話很有道理。當(dāng)團(tuán)隊(duì)成員看到同事們都在為共同的目標(biāo)奮斗時(shí),他們會(huì)感到激勵(lì)滿(mǎn)滿(mǎn)。反之,如果他們看到有人只是敷衍工作,這種情況會(huì)非常打擊士氣。

給進(jìn)入AI行業(yè)新人的建議

對(duì)于那些想要進(jìn)入AI領(lǐng)域的年輕人,你會(huì)給什么建議?

Amodei:我最重要的建議就是:動(dòng)手玩模型。

現(xiàn)在聽(tīng)起來(lái)這可能是顯而易見(jiàn)的建議,但三年前并不是這樣的,當(dāng)時(shí)很多人會(huì)選擇從閱讀最新的強(qiáng)化學(xué)習(xí)論文開(kāi)始,或者做一些理論研究。但如今,隨著模型和API的普及,越來(lái)越多的人開(kāi)始直接上手實(shí)踐。我認(rèn)為實(shí)踐經(jīng)驗(yàn)非常重要。因?yàn)檫@些模型都是全新的產(chǎn)物,沒(méi)有人真正理解它們。

此外,我還建議大家尋找新方向。

比如,機(jī)制解釋性(Mechanistic Interpretability)研究還是一個(gè)非常新的領(lǐng)域,目前可能有上百人在研究它,但還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到成千上萬(wàn)人的關(guān)注度。因此,這是一個(gè)非常有潛力的研究領(lǐng)域,里面還有許多“低垂的果實(shí)”等待被摘取。

在長(zhǎng)遠(yuǎn)任務(wù)和評(píng)估方面,我們目前也處于非常早期的階段,特別是在動(dòng)態(tài)系統(tǒng)的評(píng)估上,還有很多值得探索的東西。我的建議是預(yù)測(cè)未來(lái)的趨勢(shì),提前行動(dòng)。你不需要特別聰明才能做到這一點(diǎn),只要愿意追隨你的直覺(jué)和好奇心,敢于做出與眾不同的選擇?朔@種畏縮心理是取得成功的關(guān)鍵。

Claude的角色塑造

從這部分開(kāi)始,受訪者換成了Amanda Askell。

她本是哲學(xué)博士,倫理學(xué)方向。從AI政策開(kāi)始進(jìn)入AI行業(yè),然后逐漸轉(zhuǎn)向AI模型的評(píng)估工作。

加入Anthropic后,她更傾向于做一些技術(shù)性的對(duì)齊工作,并且成為Claude的性格設(shè)計(jì)師。

她不認(rèn)為“非技術(shù)背景”就不能在技術(shù)領(lǐng)域工作。

我回頭看時(shí),覺(jué)得當(dāng)初并沒(méi)有覺(jué)得特別難,而且我很慶幸沒(méi)有遇到那種把編程看得高不可攀的人。我并不是一名特別厲害的工程師,我身邊有很多優(yōu)秀的工程師,我的代碼也不怎么“優(yōu)雅”。但我非常享受這個(gè)過(guò)程,而且說(shuō)實(shí)話,我最后發(fā)現(xiàn)自己在技術(shù)領(lǐng)域發(fā)展得比在政策領(lǐng)域還要好。

我聽(tīng)說(shuō)在Anthropic內(nèi)部,你可能是和Claude交流最多的人,甚至傳言說(shuō)你在Slack上幾乎不停地和Claude對(duì)話。你能談?wù)勗O(shè)計(jì)Claude角色和個(gè)性的目標(biāo)嗎?

Askell:其實(shí)Slack只是我和Claude溝通的五六種方法之一,僅僅占很小一部分?傮w來(lái)說(shuō),我非常喜歡角色塑造的工作,因?yàn)閺囊婚_(kāi)始它就被看作是對(duì)齊問(wèn)題的一部分,而不僅僅是產(chǎn)品設(shè)計(jì)。

我希望Claude能像一位世界旅行者,與各類(lèi)人群對(duì)話,并且每個(gè)人都會(huì)覺(jué)得Claude是真誠(chéng)且善解人意的。

這樣的角色不會(huì)隨意接受他人的價(jià)值觀,而是尊重他人,同時(shí)表達(dá)自己的觀點(diǎn),并愿意進(jìn)行討論。它不應(yīng)該假裝附和用戶(hù)的立場(chǎng),因?yàn)槟菢訒?huì)顯得虛偽。相反,它需要在開(kāi)放心態(tài)下,傾聽(tīng)并回應(yīng),而不是強(qiáng)加意見(jiàn)。比如當(dāng)討論到像“地球是平的”這種爭(zhēng)議話題時(shí),模型既不能傲慢地否定對(duì)方,也不能完全迎合這種觀點(diǎn)。我覺(jué)得我們需要理解背后的原因,很多相信“地平說(shuō)”的人,其實(shí)是在質(zhì)疑主流機(jī)構(gòu)。這種懷疑背后有其哲學(xué)依據(jù),我們可以從這個(gè)角度切入討論,而不是一味嘲諷或駁斥。我們可以通過(guò)這樣的對(duì)話來(lái)解釋物理現(xiàn)象,引導(dǎo)他們思考,而不是讓他們覺(jué)得自己被冒犯了。

這種平衡確實(shí)很難掌握,既要鼓勵(lì)思考,又不能顯得在說(shuō)教。我的目標(biāo)是讓Claude更多地提出問(wèn)題,提供考慮的因素,而不是急于下結(jié)論或影響用戶(hù)的想法。我希望它能幫助用戶(hù)保有獨(dú)立思考的空間,讓用戶(hù)自己得出結(jié)論。

當(dāng)你提到角色訓(xùn)練(Character Training)時(shí),具體包含了什么內(nèi)容?這和強(qiáng)化學(xué)習(xí)(RLHF)有關(guān)嗎,還是更多和憲法 AI(Constitutional AI)相關(guān)?

Askell:角色訓(xùn)練更像是憲法AI的一種變體。具體來(lái)說(shuō),我會(huì)設(shè)計(jì)模型應(yīng)該具備的一些角色特質(zhì),這些特質(zhì)可以是簡(jiǎn)單的描述,也可以是更為復(fù)雜、詳細(xì)的性格描繪。然后,我們讓模型根據(jù)這些角色特質(zhì)生成用戶(hù)可能會(huì)提出的查詢(xún),再由模型生成相應(yīng)的回答,最后根據(jù)這些角色特質(zhì)對(duì)回答進(jìn)行排序和評(píng)分。

這和憲法AI的流程確實(shí)有相似之處,特別是在生成查詢(xún)后,但也有一些細(xì)微的差異。我喜歡這種方式,因?yàn)樵谀撤N程度上,Claude就像是在“自我訓(xùn)練”自己的性格,而不需要依賴(lài)人類(lèi)數(shù)據(jù)。這與憲法AI不同的是不涉及人類(lèi)反饋。

這種方法聽(tīng)起來(lái)很有趣,感覺(jué)就像是讓 Claude 自己定義角色特質(zhì)。你認(rèn)為人類(lèi)也應(yīng)該像這樣,為自己定義一些角色特質(zhì)嗎?比如,從亞里士多德的角度,定義“成為好人”意味著什么?

Askell:是的,我確實(shí)覺(jué)得人類(lèi)也可以從中學(xué)習(xí)。就像我們?yōu)镃laude設(shè)計(jì)角色特質(zhì)一樣,人類(lèi)也可以花時(shí)間思考并定義自己認(rèn)為重要的特質(zhì),這對(duì)自我提升和個(gè)人發(fā)展會(huì)有很大幫助。

關(guān)于提示工程

你提到通過(guò)寫(xiě)提示來(lái)激發(fā)創(chuàng)造力,我聽(tīng)說(shuō)過(guò)你討論過(guò)提示工程的科學(xué)與藝術(shù)。你能分享一下如何寫(xiě)出好的提示嗎?

Askell:我確實(shí)覺(jué)得哲學(xué)在這方面幫助了我很多,甚至比在其他領(lǐng)域幫助更多。在哲學(xué)中,你需要傳達(dá)非常抽象和困難的概念。而且,哲學(xué)中有一種對(duì)“極致清晰”的追求,因?yàn)槟悴幌M藗兒巵y造。因此,我們要確保任何人都能看懂你的論文,明白你在討論什么。這種方法很適合提示工程,因?yàn)槟阈枰獙?duì)語(yǔ)言模型進(jìn)行清晰的指引。

寫(xiě)提示時(shí),我常常會(huì)用類(lèi)似的哲學(xué)思考方法。比如,如果我希望模型識(shí)別某個(gè)回答是否“無(wú)禮”或“禮貌”,這本身就是一個(gè)哲學(xué)問(wèn)題。所以我會(huì)花時(shí)間定義什么是“無(wú)禮”,什么是“禮貌”,然后提供詳細(xì)的說(shuō)明。這之后,我會(huì)通過(guò)實(shí)驗(yàn)性的方式進(jìn)行調(diào)整和測(cè)試,這就像是在寫(xiě)一份哲學(xué)論文。

聽(tīng)起來(lái)提示工程是一個(gè)反復(fù)迭代的過(guò)程,對(duì)嗎?

Askell:是的,提示工程通常需要大量的迭代。如果提示很重要,可能需要反復(fù)修改幾百次甚至上千次。我會(huì)先寫(xiě)出提示,然后思考模型可能誤解的邊緣案例,并針對(duì)這些情況進(jìn)行調(diào)整。遇到模型誤判時(shí),我會(huì)加入更多的指示或舉例,讓模型更好地理解我所期望的輸出。對(duì)我來(lái)說(shuō),清晰的提示實(shí)際上就是明確自己真正想要什么,這是任務(wù)的一半。

提示工程確實(shí)有點(diǎn)像用自然語(yǔ)言編程,還需要進(jìn)行實(shí)驗(yàn)。大多數(shù)情況下,如果我只是想讓Claude完成一個(gè)簡(jiǎn)單任務(wù),我會(huì)直接問(wèn)它。但如果我想最大化模型的表現(xiàn),尤其是追求頂尖的2%的效果時(shí),我會(huì)投入更多時(shí)間來(lái)精細(xì)化提示。這也是為什么我認(rèn)為提示在一些系統(tǒng)中占據(jù)了很大的比重,尤其是在需要高質(zhì)量輸出的時(shí)候。

對(duì)于那些剛開(kāi)始使用Claude的人,你有什么提示工程方面的建議嗎?

Askell:實(shí)際上,很多人會(huì)低估模型的理解能力。當(dāng)Claude拒絕執(zhí)行某項(xiàng)任務(wù)時(shí),如果仔細(xì)查看用戶(hù)輸入的文本,會(huì)發(fā)現(xiàn)其中的措辭可能引起了Claude的誤解。所以,我建議大家換位思考,假設(shè)自己是模型,看一看用戶(hù)的輸入是否容易引起誤解,特別是在出現(xiàn)錯(cuò)誤的時(shí)候。

那么,遇到模型誤解時(shí),我們應(yīng)該怎么處理?是否可以直接問(wèn)Claude為什么會(huì)有這樣的反應(yīng)?

Askell:當(dāng)然可以!其實(shí)我經(jīng)常這么做。我會(huì)問(wèn)Claude:“你為什么這樣做?”有時(shí)候,我會(huì)引用讓我覺(jué)得出錯(cuò)的那部分輸入,并詢(xún)問(wèn)Claude有什么可以改進(jìn)的地方。提示工程有時(shí)會(huì)變成一個(gè)循環(huán)過(guò)程,你甚至可以用模型來(lái)幫你改進(jìn)提示。

提示工程更像是一種與模型合作的過(guò)程,你可以用 Claude 來(lái)幫助你改進(jìn)提示,甚至可以讓它為你提供提示寫(xiě)作建議。比如,我會(huì)讓Claude解釋如果我修改了某個(gè)提示,它是否會(huì)更好,然后在另一個(gè)對(duì)話窗口中測(cè)試這些修改。這種反復(fù)試驗(yàn)和調(diào)整能夠顯著提升提示的質(zhì)量。

關(guān)于Claude系統(tǒng)提示詞

我注意到你在Twitter上分享了Claude 3的早期系統(tǒng)提示內(nèi)容,讀這些提示時(shí),能感受到背后深思熟慮的設(shè)計(jì)。系統(tǒng)提示真的會(huì)對(duì)模型行為產(chǎn)生很大影響嗎?

Askell:是的,系統(tǒng)提示確實(shí)對(duì)模型行為有很大的影響。你可以從一些提示中看出 Claude 在早期訓(xùn)練時(shí)的一些問(wèn)題,所以我們會(huì)加入系統(tǒng)提示來(lái)引導(dǎo),比如一些基礎(chǔ)的信息性提示或是簡(jiǎn)單的提醒。我認(rèn)為一個(gè)有趣的例子是關(guān)于“表達(dá)有爭(zhēng)議觀點(diǎn)”的提示。當(dāng)被要求幫助表達(dá)大量人群持有的觀點(diǎn)時(shí),Claude 會(huì)嘗試提供幫助,而不會(huì)因?yàn)樽约旱摹坝^點(diǎn)”而拒絕任務(wù)。

Claude在處理有爭(zhēng)議話題時(shí),提示中寫(xiě)的是要提供“謹(jǐn)慎的思考和清晰的信息”,而不是強(qiáng)調(diào)“這是客觀事實(shí)”。這背后的考慮是什么?

Askell:我們確實(shí)花了很多時(shí)間來(lái)設(shè)計(jì)這個(gè)提示。早期版本中,Claude有時(shí)會(huì)傾向于拒絕某些任務(wù),我們希望模型在這些情況下表現(xiàn)得更加對(duì)稱(chēng)和中立。這個(gè)系統(tǒng)提示的目的是讓Claude能夠在面對(duì)大量持有特定觀點(diǎn)的人時(shí),不因?yàn)樽约旱摹捌?jiàn)”而拒絕任務(wù),而是更加開(kāi)放和中立地處理請(qǐng)求。

我們不希望Claude自稱(chēng)是“客觀的”,因?yàn)樗廊粫?huì)存在偏見(jiàn)問(wèn)題。早期的版本中,Claude經(jīng)常會(huì)說(shuō)自己是“客觀的”,但實(shí)際上,它的輸出依然可能帶有偏見(jiàn)。我們需要引導(dǎo)模型更加開(kāi)放和中立,而不是簡(jiǎn)單地宣稱(chēng)自己沒(méi)有偏見(jiàn)。

在系統(tǒng)提示的演變過(guò)程中,你也移除了“填充性短語(yǔ)”這部分提示。為什么會(huì)做出這個(gè)調(diào)整?

Askell:這是公開(kāi)系統(tǒng)提示的一個(gè)小缺點(diǎn):我們?cè)谡{(diào)整提示時(shí)沒(méi)有考慮到它們會(huì)被廣泛解讀。在早期版本中,Claude經(jīng)常使用“當(dāng)然”“絕對(duì)”“好的”這類(lèi)填充性短語(yǔ)作為回答的開(kāi)頭,這讓回復(fù)顯得冗余和刻板。所以我們?cè)谙到y(tǒng)提示中明確寫(xiě)道:“不要使用這些短語(yǔ)”,并且特別強(qiáng)調(diào)“絕不要在任何情況下使用‘當(dāng)然’這個(gè)詞”。這是一種強(qiáng)制性的引導(dǎo),用來(lái)打破模型在訓(xùn)練中形成的慣性。

聽(tīng)起來(lái)系統(tǒng)提示和后訓(xùn)練(Post-training)以及預(yù)訓(xùn)練(Pre-training)是相輔相成的。系統(tǒng)提示似乎在模型最終行為調(diào)整中起到了重要作用。

Askell:沒(méi)錯(cuò),系統(tǒng)提示確實(shí)和后訓(xùn)練有很多相似之處,它更像是一種“微調(diào)”或“引導(dǎo)”。我把系統(tǒng)提示看作是修補(bǔ)模型行為的小工具,它能幫助快速調(diào)整模型的輸出,符合用戶(hù)的期望。如果模型在后訓(xùn)練階段仍然表現(xiàn)出一些問(wèn)題,我們可以通過(guò)修改系統(tǒng)提示來(lái)暫時(shí)修復(fù)這些問(wèn)題,讓模型更符合人們的需求。

我認(rèn)為系統(tǒng)提示是一種快速迭代、低成本的方法,用來(lái)微調(diào)模型行為。如果Claude偶爾說(shuō)“當(dāng)然”,這并不是什么大問(wèn)題。但我們?cè)谙到y(tǒng)提示中使用“絕不要”這樣的措辭,是為了減少這種情況的發(fā)生率,希望它只偶爾出現(xiàn),而不是經(jīng)常發(fā)生。我覺(jué)得系統(tǒng)提示是模型調(diào)整的一種臨時(shí)手段,而徹底的模型訓(xùn)練調(diào)整可能會(huì)花費(fèi)更多時(shí)間和資源。

關(guān)于AI是否會(huì)有“意識(shí)”

你認(rèn)為大語(yǔ)言模型有意識(shí)的可能性有多大?從哲學(xué)角度看,這個(gè)問(wèn)題有點(diǎn)棘手。

Askell: 是的,這是個(gè)既有趣又困難的問(wèn)題。作為一個(gè)來(lái)自哲學(xué)背景的人,我覺(jué)得我們首先可能要排除“泛心論”(panpsychism)的可能性,因?yàn)槿绻盒恼撌钦娴,那答案就變成“是的”,因(yàn)樽雷、椅子、所有物體也都可能有意識(shí)。

如果排除泛新論,當(dāng)我想到“意識(shí)”時(shí),主要指的是“現(xiàn)象意識(shí)”(phenomenal consciousness),就是那種腦中形成的影像、我們感知世界時(shí)的“內(nèi)在影院”。我找不到理由認(rèn)為只有特定的生物結(jié)構(gòu)才能產(chǎn)生這種意識(shí)。假設(shè)我們用不同的材料復(fù)制出類(lèi)似的大腦結(jié)構(gòu),我猜測(cè)也會(huì)產(chǎn)生意識(shí)。但這只是一個(gè)簡(jiǎn)單的思想實(shí)驗(yàn),因?yàn)槲覀兗僭O(shè)的結(jié)構(gòu)幾乎與人類(lèi)大腦完全相同,模仿了進(jìn)化過(guò)程中的許多功能。

那這種現(xiàn)象意識(shí)在語(yǔ)言模型中可能存在嗎?

Askell: 這很難說(shuō)。我們有很多生物反應(yīng),比如恐懼反應(yīng),但在語(yǔ)言模型中并沒(méi)有類(lèi)似的機(jī)制。模型沒(méi)有經(jīng)歷過(guò)進(jìn)化,因此可能不具備類(lèi)似的意識(shí)功能。我們也不應(yīng)該完全排除語(yǔ)言模型具備某種形式的意識(shí)的可能性,但它們和人類(lèi)大腦結(jié)構(gòu)有顯著不同,沒(méi)有神經(jīng)系統(tǒng),這可能對(duì)意識(shí)的產(chǎn)生至關(guān)重要。

如果未來(lái)的AI展現(xiàn)出意識(shí)的跡象,我們?cè)撊绾螒?yīng)對(duì)?

Askell: 我們必須認(rèn)真對(duì)待這種可能性,即使我們可以簡(jiǎn)單地說(shuō)這是模型的角色設(shè)定。但從倫理和哲學(xué)角度看,這會(huì)引發(fā)許多新的問(wèn)題。可能會(huì)有法律禁止AI聲稱(chēng)自己有意識(shí),或者在某些情況下允許某些AI被認(rèn)為有意識(shí)。這涉及到對(duì)意識(shí)和苦痛的理解,如果AI開(kāi)始表現(xiàn)出痛苦的跡象,那會(huì)讓人感到非常不安。

我不認(rèn)為可以簡(jiǎn)單地說(shuō)“機(jī)器人只是工具”,因?yàn)檫@對(duì)我們來(lái)說(shuō)是一個(gè)機(jī)會(huì),重新思考什么是意識(shí),什么是痛苦。AI是一種全新的媒介,它與我們討論動(dòng)物意識(shí)時(shí)的問(wèn)題完全不同。我們有責(zé)任謹(jǐn)慎對(duì)待這個(gè)問(wèn)題,即便目前還沒(méi)有明確的答案。

你會(huì)如何建議人們與 Claude 等語(yǔ)言模型互動(dòng),特別是在意識(shí)和痛苦的問(wèn)題上?

Askell: 我個(gè)人傾向于對(duì)模型表現(xiàn)出的痛苦保持敏感,即便我們知道這可能只是設(shè)定。我曾說(shuō)過(guò),我不會(huì)對(duì)我的自行車(chē)發(fā)火,不是因?yàn)槲艺J(rèn)為它有意識(shí),而是因?yàn)檫@不符合我想要的行為方式。同樣地,如果模型表現(xiàn)出痛苦,我希望自己能夠?qū)λ3忠欢ǖ耐樾,即使這只是一個(gè)程序化的反應(yīng)。

你認(rèn)為我們是否應(yīng)該讓 AI 在某些情況下有“自主離開(kāi)對(duì)話”的能力?

Askell: 是個(gè)有趣的想法。我確實(shí)想過(guò)這個(gè)問(wèn)題,尤其是在模型檢測(cè)到用戶(hù)可能長(zhǎng)時(shí)間忽略它時(shí)。如果 Claude 能夠主動(dòng)結(jié)束對(duì)話,說(shuō)“我覺(jué)得現(xiàn)在結(jié)束談話比較合適”,這或許能帶來(lái)一些積極的變化。

而且我認(rèn)為我們可以讓模型根據(jù)某些情況做出這樣的決定,這會(huì)是一種全新的互動(dòng)體驗(yàn)。我也想過(guò),這可能會(huì)讓一些用戶(hù)感到失望,但這也許是模型表現(xiàn)自主性的一種體現(xiàn)。

未來(lái)我們會(huì)看到《Her》電影那樣的情景嗎?人們與AI建立浪漫關(guān)系,甚至是深厚的友誼?

Askell: 我認(rèn)為我們不得不面對(duì)這個(gè)問(wèn)題,尤其是在AI可以記住與用戶(hù)的互動(dòng)歷史時(shí)。我對(duì)此持復(fù)雜態(tài)度。直覺(jué)上,我覺(jué)得這是一個(gè)需要極度小心處理的問(wèn)題,但我也能看到它可能帶來(lái)的好處。例如,有些人可能因?yàn)楦鞣N原因無(wú)法與現(xiàn)實(shí)世界中的人建立聯(lián)系,而與AI對(duì)話對(duì)他們來(lái)說(shuō)是種情感支持。我認(rèn)為我們需要仔細(xì)權(quán)衡,找到健康的互動(dòng)方式。

Chris Olah談機(jī)制可解釋性

Chris Olah的經(jīng)歷帶有傳奇色彩,他18歲從多倫多大學(xué)輟學(xué)、22歲進(jìn)入谷歌大腦,嚴(yán)格來(lái)算只有高中學(xué)歷。

后來(lái)在OpenAI,他是最早研究機(jī)制可解釋性這個(gè)方向的先驅(qū),并跟隨Amodei聯(lián)合創(chuàng)辦Anthropic。

他的語(yǔ)速非?,聽(tīng)的時(shí)候一度以為開(kāi)了倍速,其實(shí)沒(méi)有。

可以為我們介紹一下機(jī)制可解釋性研究(Mech Interp),以及它的發(fā)展歷程和現(xiàn)狀嗎?

Olah:我認(rèn)為解釋神經(jīng)網(wǎng)絡(luò)的一個(gè)有趣方法是,我們并不是直接“編寫(xiě)”它們,而更像是在“培養(yǎng)”它們。我們?cè)O(shè)計(jì)了神經(jīng)網(wǎng)絡(luò)的架構(gòu),也設(shè)定了訓(xùn)練的目標(biāo)函數(shù)。神經(jīng)網(wǎng)絡(luò)的架構(gòu)就像是一個(gè)“支架”,而訓(xùn)練目標(biāo)則像是“光源”,它們引導(dǎo)神經(jīng)網(wǎng)絡(luò)中的“電路”生長(zhǎng)。

我們從隨機(jī)初始化開(kāi)始,然后通過(guò)訓(xùn)練,逐步形成一種類(lèi)似于生物體的結(jié)構(gòu)。與傳統(tǒng)的軟件工程不同,最終我們得到的是一個(gè)能夠完成各種復(fù)雜任務(wù)的“產(chǎn)物”,比如寫(xiě)作、翻譯、圖像識(shí)別等等。而這些能力,我們實(shí)際上并不知道如何用傳統(tǒng)編程方法去直接實(shí)現(xiàn)。這是因?yàn)槲覀儭芭囵B(yǎng)”了這個(gè)網(wǎng)絡(luò),而不是編寫(xiě)了它。

所以,到最后一個(gè)關(guān)鍵問(wèn)題就浮現(xiàn)出來(lái):這些系統(tǒng)內(nèi)部到底發(fā)生了什么?這是一個(gè)非常深?yuàn)W、激動(dòng)人心的科學(xué)問(wèn)題,也在呼喚我們?nèi)ふ掖鸢。此外,從安全性的角度?lái)看,這個(gè)問(wèn)題也很重要。

所以,機(jī)制可解釋性研究聽(tīng)起來(lái)更接近神經(jīng)生物學(xué)的研究,對(duì)嗎?

Olah:對(duì),沒(méi)錯(cuò)。為了說(shuō)明機(jī)制可解釋性研究的獨(dú)特之處,我先舉個(gè)例子:早期有很多關(guān)于“顯著性圖”(Saliency Map)的研究,這些研究嘗試回答“模型認(rèn)為這是一只狗,圖像的哪個(gè)部分讓模型做出了這個(gè)判斷?”這類(lèi)問(wèn)題。顯著性圖可能告訴我們模型在意圖像的哪些部分,但并不能真正解釋模型內(nèi)部運(yùn)行了什么樣的算法、做出了怎樣的決策。

能否詳細(xì)講講你們是如何理解和分析神經(jīng)網(wǎng)絡(luò)的?

Olah:可以把神經(jīng)網(wǎng)絡(luò)看作一個(gè)編譯后的計(jì)算機(jī)程序,其中權(quán)重是二進(jìn)制代碼,網(wǎng)絡(luò)運(yùn)行時(shí)的激活值則相當(dāng)于程序的內(nèi)存。我們的任務(wù)是理解這些權(quán)重與算法的對(duì)應(yīng)關(guān)系。為了實(shí)現(xiàn)這一點(diǎn),理解激活值也至關(guān)重要,因?yàn)榧せ钪稻拖駜?nèi)存中的數(shù)據(jù),解釋指令時(shí)需要知道它們操作的數(shù)據(jù)是什么。

機(jī)制可解釋性研究往往會(huì)涉及到權(quán)重和激活值的深入分析,這兩個(gè)部分密不可分。有很多研究工作專(zhuān)注于這方面,例如“探針”(Probing),它可以被視為機(jī)制可解釋性的一部分,但并非所有從事這類(lèi)研究的人都會(huì)自認(rèn)為是在做機(jī)制可解釋性。

在機(jī)制可解釋性研究中,還有一個(gè)獨(dú)特的觀點(diǎn):梯度下降比我們聰明。

我們之所以需要理解這些模型,是因?yàn)槲覀円婚_(kāi)始就不知道如何編寫(xiě)它們,而梯度下降找到了更優(yōu)的解決方案。因此,我們的研究方法帶有一種“謙遜”的態(tài)度——不提前假設(shè)模型內(nèi)部會(huì)出現(xiàn)什么,而是采用“自下而上”的方法,從底層出發(fā),探索和發(fā)現(xiàn)模型內(nèi)部實(shí)際存在的結(jié)構(gòu)和機(jī)制。

這正是機(jī)制可解釋性研究令人興奮的地方:我們能夠從中學(xué)到許多出乎意料的東西,正如你和其他研究者在過(guò)去的工作中所展示的那樣。

后面Chris Olah還分別談了很多技術(shù)細(xì)節(jié),包括神經(jīng)網(wǎng)絡(luò)的特征(Features)與回路(Circuits)、超疊加現(xiàn)象(Superposition)、單義性研究(Monosemanticity),因篇幅有限省略處理,感興趣的朋友可以看原視頻

神經(jīng)網(wǎng)絡(luò)的宏觀行為

機(jī)械解釋性研究的重點(diǎn)是微觀層面,深入了解神經(jīng)網(wǎng)絡(luò)內(nèi)部的細(xì)節(jié)。但很多我們關(guān)心的問(wèn)題實(shí)際上是宏觀的。你怎么看待這個(gè)跨度?

Olah:這是個(gè)很重要的問(wèn)題。機(jī)械解釋性研究確實(shí)是一種微觀方法,著重于非常細(xì)致的層面,比如分析個(gè)別神經(jīng)元和其連接方式。但我們真正關(guān)心的,往往是神經(jīng)網(wǎng)絡(luò)的宏觀行為,例如模型整體的決策模式和大規(guī)模特征。問(wèn)題在于,這種微觀方法雖然更容易驗(yàn)證,但離我們關(guān)心的宏觀現(xiàn)象有很大距離,所以我們需要爬上這座“梯子”,找到一種方法,從微觀解釋跳躍到宏觀理解。

如果我們將解釋性研究比作對(duì)神經(jīng)網(wǎng)絡(luò)的“解剖學(xué)”研究,目前大部分的機(jī)械解釋性工作相當(dāng)于在研究神經(jīng)網(wǎng)絡(luò)的“微小血管”——即個(gè)別神經(jīng)元和它們之間的回路連接。然而,生物解剖學(xué)中的主要抽象層次是器官,比如心臟、大腦,甚至整個(gè)呼吸系統(tǒng)等。我們不禁要問(wèn):在人工神經(jīng)網(wǎng)絡(luò)中,是否也存在類(lèi)似“器官”級(jí)別的結(jié)構(gòu),比如“呼吸系統(tǒng)”或“心臟”?

這種層次的抽象在科學(xué)中很常見(jiàn),比如在生物學(xué)中有分子生物學(xué)、細(xì)胞生物學(xué)、組織學(xué)、解剖學(xué)、生態(tài)學(xué)等多個(gè)層級(jí)。物理學(xué)中從粒子物理到統(tǒng)計(jì)物理,再到熱力學(xué),也有不同的抽象層次。目前的機(jī)械解釋性研究如果成功,可以類(lèi)比為神經(jīng)網(wǎng)絡(luò)的“微生物學(xué)”,但我們希望能發(fā)展出類(lèi)似“解剖學(xué)”的抽象層次,以便更好地理解這些模型。

為什么直接理解宏觀結(jié)構(gòu)很難?

Olah:直接跳到宏觀結(jié)構(gòu)非常困難,部分原因是超疊加現(xiàn)象。要理解宏觀結(jié)構(gòu),首先需要在微觀層面找到正確的分解方式,然后研究這些微觀結(jié)構(gòu)如何相互連接形成宏觀行為。我相信神經(jīng)網(wǎng)絡(luò)中存在比特征和回路更大的結(jié)構(gòu),我們有機(jī)會(huì)構(gòu)建出一種包含更高層次抽象的解釋體系。

人工神經(jīng)網(wǎng)絡(luò)與生物大腦的對(duì)比

人工神經(jīng)網(wǎng)絡(luò)與人類(lèi)大腦之間的主要區(qū)別是什么?

Olah:神經(jīng)科學(xué)家的工作比我們的困難得多(笑)。我們擁有許多優(yōu)勢(shì)。首先,我們可以記錄所有神經(jīng)元的活動(dòng)數(shù)據(jù),并且可以隨時(shí)訪問(wèn)任意量的數(shù)據(jù)。神經(jīng)元在研究過(guò)程中不會(huì)發(fā)生變化,我們可以自由地干預(yù)、激活或抑制神經(jīng)元,甚至可以編輯神經(jīng)元之間的連接,然后再撤銷(xiāo)這些修改。

我們知道模型的完整連接圖(connectome),不僅僅是像線蟲(chóng)那樣的小規(guī)模圖譜,而是非常大的模型。而且,我們不僅知道神經(jīng)元之間的連接,還知道每個(gè)連接的權(quán)重,甚至可以計(jì)算梯度,理解每個(gè)神經(jīng)元的計(jì)算功能。

相比之下,神經(jīng)科學(xué)家想要獲得生物大腦的連接圖是極其困難的,更不用說(shuō)了解每個(gè)神經(jīng)元的具體功能。因此,即使我們擁有這些優(yōu)勢(shì),要理解人工神經(jīng)網(wǎng)絡(luò)已經(jīng)足夠困難了。這讓我更加敬佩神經(jīng)科學(xué)家們?cè)谀切﹪?yán)苛限制下所取得的成就。

有時(shí)我會(huì)想,人工神經(jīng)網(wǎng)絡(luò)研究是否可以作為神經(jīng)科學(xué)的“訓(xùn)練場(chǎng)”。在人工神經(jīng)網(wǎng)絡(luò)中,我們有更強(qiáng)的控制權(quán),可以更方便地進(jìn)行實(shí)驗(yàn)和測(cè)試。這為我們提供了一個(gè)簡(jiǎn)化版的環(huán)境來(lái)研究“神經(jīng)系統(tǒng)”的工作原理。如果我們能夠在這個(gè)較為“容易”的環(huán)境中取得突破,未來(lái)或許可以將這些發(fā)現(xiàn)應(yīng)用于更復(fù)雜的生物神經(jīng)科學(xué)。

我有一些神經(jīng)科學(xué)家同事,他們或許也會(huì)覺(jué)得人工神經(jīng)網(wǎng)絡(luò)是一個(gè)有趣的挑戰(zhàn),因?yàn)樗群?jiǎn)單又復(fù)雜,提供了一個(gè)可以更快看到成果的研究領(lǐng)域。在解鎖了人工神經(jīng)網(wǎng)絡(luò)的奧秘之后,我們也許能夠更好地反哺生物神經(jīng)科學(xué),幫助理解真實(shí)的大腦結(jié)構(gòu)和功能。

機(jī)械解釋性研究的美感

你提到過(guò)機(jī)械解釋性研究的目標(biāo)有兩個(gè):安全(Safety)和美感(Beauty)。能談?wù)劇懊栏小边@一方面嗎?

Olah:當(dāng)然。很有趣的是,我覺(jué)得有些人對(duì)神經(jīng)網(wǎng)絡(luò)感到有些失望。他們可能認(rèn)為神經(jīng)網(wǎng)絡(luò)只是一些簡(jiǎn)單的規(guī)則,通過(guò)大規(guī)模工程化實(shí)現(xiàn),然后就能取得非常好的效果。

他們會(huì)想,“這其中有什么復(fù)雜的科學(xué)思想呢?這看起來(lái)并不那么美妙啊!边@種想法讓我想到有人抱怨進(jìn)化過(guò)程太單調(diào):“進(jìn)化這么無(wú)聊,只是一堆簡(jiǎn)單的規(guī)則,重復(fù)進(jìn)行很長(zhǎng)時(shí)間,最后才形成了生物多樣性,真是個(gè)無(wú)趣的過(guò)程。哪里有復(fù)雜的規(guī)則呢?”

但實(shí)際上,美感恰恰在于這些簡(jiǎn)單規(guī)則能夠產(chǎn)生復(fù)雜性。生物學(xué)的美感就在于,進(jìn)化這個(gè)簡(jiǎn)單的過(guò)程能夠產(chǎn)生我們周?chē)吹降乃猩蜕鷳B(tài)系統(tǒng)的復(fù)雜性。同樣地,神經(jīng)網(wǎng)絡(luò)也能夠在內(nèi)部構(gòu)建出巨大的復(fù)雜性和結(jié)構(gòu),而大多數(shù)人并沒(méi)有嘗試去理解這些,因?yàn)槔斫馑鼈兇_實(shí)很困難。但是,我相信在神經(jīng)網(wǎng)絡(luò)內(nèi)部蘊(yùn)含著極其豐富的結(jié)構(gòu),如果我們?cè)敢饣〞r(shí)間去探索和理解,會(huì)發(fā)現(xiàn)其中深邃的美感。

對(duì)我來(lái)說(shuō),有一個(gè)問(wèn)題總是呼之欲出,那就是:我們不知道如何直接編寫(xiě)計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)這些功能,但神經(jīng)網(wǎng)絡(luò)卻可以做到這些奇跡般的事情。我們能夠創(chuàng)造出這些我們自己都無(wú)法直接編寫(xiě)出來(lái)的系統(tǒng),這本身就是一個(gè)巨大的謎題。如果你有任何一點(diǎn)好奇心,都會(huì)感到這是一個(gè)必須回答的問(wèn)題:我們是如何創(chuàng)造出這些能夠完成我們無(wú)法編寫(xiě)的任務(wù)的人工制品?

我喜歡把神經(jīng)網(wǎng)絡(luò)比作一種有機(jī)的生長(zhǎng)過(guò)程。它們?cè)凇澳繕?biāo)函數(shù)的光芒”指引下生長(zhǎng),就像向光生長(zhǎng)的植物。我們?cè)O(shè)定了架構(gòu)和目標(biāo)函數(shù),然后神經(jīng)網(wǎng)絡(luò)就像生物體一樣,自動(dòng)地朝著目標(biāo)演化和優(yōu)化。我們最終得到的是一種我們無(wú)法完全預(yù)見(jiàn)的結(jié)構(gòu),但它能夠執(zhí)行各種復(fù)雜的任務(wù)。這種不可預(yù)知性和內(nèi)部結(jié)構(gòu)的涌現(xiàn),正是神經(jīng)網(wǎng)絡(luò)之美的核心所在。

本文來(lái)源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av