首頁(yè) > 科技要聞 > 科技> 正文

這個(gè)AI生圖神器太好玩了,連提示詞都不用寫(xiě)

appso 整合編輯:太平洋科技 發(fā)布于:2024-12-24 17:36

AI 生圖工具,已經(jīng)多得泛濫了,但 Google 最新推出的 Whisk,還是找到了一種很新的玩法,讓見(jiàn)過(guò)世面的網(wǎng)友也直呼好玩。

只需輸入三張圖片,subject(主題)、scene(場(chǎng)景)、style(風(fēng)格),Whisk 就可以生成一張博采眾長(zhǎng)的圖片。

圖片來(lái)自:Google

舉個(gè)例子,主題是老人,場(chǎng)景是藤蔓,風(fēng)格是 90 年代復(fù)古動(dòng)漫,寫(xiě)上「角色騎著飛行自行車」的提示詞,等待一會(huì)兒,一張類似吉卜力畫(huà)風(fēng)的新圖片誕生了。

圖片來(lái)自:Google

老人還是那個(gè)老人,戴帽子,穿西裝,拿著書(shū),但他騎上了提示詞里的車,場(chǎng)景和風(fēng)格也都變成了參考圖片的樣子。

Whisk 的長(zhǎng)處便在這里——讓我們少寫(xiě)、不寫(xiě)提示詞的同時(shí),輕松玩轉(zhuǎn)各種風(fēng)格,媽媽再也不擔(dān)心我不會(huì)寫(xiě)提示詞了。

別寫(xiě)復(fù)雜的提示詞了,直接把圖片端上來(lái)就行

別看只需要幾張圖片,Whisk 的玩法簡(jiǎn)單,卻又無(wú)窮無(wú)盡。

刷刷刷上傳三張圖片——主題圖片,麥當(dāng)勞薯?xiàng)l;場(chǎng)景圖片,莫奈畫(huà)作《睡蓮》;風(fēng)格圖片,像素風(fēng)游戲《星露谷物語(yǔ)》。

不寫(xiě)提示詞,直接生成,Whisk 給出的結(jié)果,一張更比三張強(qiáng)。

除了上傳自己的圖片,我們也可以擲骰子,讓 Whisk 隨機(jī)生成主題、場(chǎng)景、風(fēng)格。

其實(shí),Whisk 為我們提供的預(yù)設(shè)風(fēng)格已經(jīng)很夠用,徽章、貼紙、刺繡、黏土、美漫、馬賽克拼貼等等,特色鮮明,效果立竿見(jiàn)影。

只要有腦洞和想象力,無(wú)需一個(gè)字,僅僅通過(guò)不同圖片的排列組合,我們可以不斷地做完形填空的游戲——主題+場(chǎng)景+風(fēng)格,而且不是每個(gè)空都必須填。

1.主題圖片,熏雞;2.場(chǎng)景圖片,梵高《星月夜》畫(huà)作;3.風(fēng)格圖片,日本木版畫(huà)

1.主題圖片,《戴珍珠耳環(huán)的少女》;2.場(chǎng)景圖片,電影《千與千尋》劇照;3.風(fēng)格圖片,蒙德里安抽象畫(huà)

1.主題圖片,微信「死亡笑臉」表情包;2.場(chǎng)景圖片,電影《星際穿越》劇照;3.風(fēng)格圖片,史努比漫畫(huà)截圖

1.主題圖片,沖浪默認(rèn)頭像粉色恐龍 momo;2.風(fēng)格圖片,Jellycat 玩偶

另外,Whisk 的每一次生成,場(chǎng)景和風(fēng)格只能選擇一個(gè)參考圖片,但主題可以選擇多個(gè)。這意味著什么?我們可以讓多個(gè)角色同框了!

比如,讓馬斯克、奧特曼、扎克伯格通通變成琺瑯徽章。

三位的服裝、裝飾、神態(tài)都還原得挺好,扎克伯格的話筒和項(xiàng)鏈都沒(méi)漏掉,但人臉沒(méi)法保持一致性,全部變成了大眾臉。

雖然 Whisk 減少了寫(xiě)提示詞的需求,但你需要寫(xiě)的話,Whisk 也鼓勵(lì)。

在對(duì)話框加上一句「角色們都舉著一塊告示牌,上面寫(xiě)著 AGI」,徽章小人們輕輕松松地遵循了提示詞。

如果我們需要某個(gè)場(chǎng)景或者某種風(fēng)格,但一時(shí)找不到參考圖,Whisk 的預(yù)設(shè)也沒(méi)有提供呢?

解決方式很簡(jiǎn)單,沒(méi)有圖片,那就寫(xiě)提示詞,讓 Whisk 臨場(chǎng)發(fā)揮一個(gè)。

就像我需要一個(gè)讓角色站上去的、像素風(fēng)格的底座作為場(chǎng)景,就讓 Whisk 幫我生成了。

然后,再把貓貓表情包作為主題圖片,把像素小雞作為風(fēng)格圖片,就可以得到一個(gè)有底座的像素貓貓。

總之,Whisk 就是非常自由,像橡皮泥一樣,怎么捏都可以。

既生圖又識(shí)圖,把復(fù)雜的工作流包裝成有趣的「打蛋器」

Whisk,其實(shí)是 Google 多模態(tài)模型秀肌肉的一種方式。

為了讓我們少寫(xiě)提示詞,Whisk 整合了視覺(jué)理解和圖片生成能力。

Gemini 模型識(shí)別圖片,自動(dòng)生成詳細(xì)的描述,然后這些描述會(huì)被輸入到 Google 的圖片生成模型 Imagen 3,由 Imagen 3 生圖。

Whisk 是這樣的,用戶只要上傳和生成圖片就可以了,但它自己要考慮的事情就很多了。

Whisk 的每張圖片,不管是上傳的還是生成的,都寫(xiě)了很長(zhǎng)的底層提示詞,并且不藏著掩著,我們點(diǎn)開(kāi)圖片就能看,也可以上手修改。

如果把一個(gè)人作為主題圖片,Whisk 會(huì)詳細(xì)地描述他的外貌特征,場(chǎng)景圖片也是類似的。

Whisk 對(duì)奧特曼的描述:「一個(gè)膚色較淺的男子,有著短而深棕色的卷發(fā),從胸部以上展示。他有著淺色的眼睛。他穿著一件淺米色的針織圓領(lǐng)毛衣。背景是一面斑駁的灰色混凝土墻。男子的表情嚴(yán)肅而中性。光線有些昏暗,他的右臉有輕微的陰影!

風(fēng)格圖片略有些不同,如果把一張動(dòng)畫(huà)截圖作為風(fēng)格參考,Whisk 不會(huì)說(shuō),畫(huà)面里有三個(gè)人,而是描述這幅畫(huà)的色彩、光線、線條......

Whisk 對(duì)史努比畫(huà)風(fēng)的描述:「這張圖片以卡通風(fēng)格呈現(xiàn),具有粗獷的輪廓和平面著色。色彩調(diào)色板有限,主要使用原色和柔和的次要顏色。光線均勻,缺乏強(qiáng)烈的陰影或高光,給人一種簡(jiǎn)單、幾乎孩童般的質(zhì)感。線條清晰且一致,帶有輕微不均勻的質(zhì)感,暗示手繪的效果。整體美學(xué)讓人聯(lián)想到經(jīng)典的連環(huán)漫畫(huà)或兒童動(dòng)畫(huà)!

所以,Whisk 不是精準(zhǔn)地復(fù)制圖片,而是提取圖片的特點(diǎn)和精髓,將主題、場(chǎng)景、風(fēng)格自然地融合在一起,各司其職,互不干擾。

同時(shí),Whisk 也疊了甲——只從圖片提取少量關(guān)鍵特征,結(jié)果可能和預(yù)期不同。這也解釋了,為什么 Whisk 做不到人臉的精準(zhǔn)還原。

所以,哪怕選擇不那么抽象的復(fù)古膠片風(fēng)格,三位大佬的臉也是和本尊都不挨著,但其他細(xì)節(jié)都很準(zhǔn)確。

物體也是一樣,特斯拉的賽博皮卡,經(jīng)過(guò)特征提取再生成之后,變得非常普通。

但如果是麥當(dāng)勞薯?xiàng)l這種素材豐富的超級(jí) IP,效果倒還不錯(cuò),可以拿來(lái)當(dāng)廣告圖了。試過(guò)一些迪士尼的角色,Whisk 復(fù)刻得也原模原樣,但圖就不放上來(lái)了。

另外,Whisk 還存在一個(gè)問(wèn)題——沒(méi)法做很細(xì)致的風(fēng)格參考,模仿不了某種特定的畫(huà)風(fēng)。

當(dāng)我讓 Whisk 生成蒙娜麗莎的樂(lè)高小人,出來(lái)的結(jié)果讓我兩眼一黑,但多加一句提示詞,「讓角色更像樂(lè)高人物」,Whisk 又能模仿個(gè)七八成。

某個(gè)漫畫(huà)家的畫(huà)風(fēng)就更難模仿了,上傳漫畫(huà)截圖讓 Whisk 參考,它最終給出的是一個(gè)非常普通的漫畫(huà)風(fēng)格圖片,就算通過(guò)提示詞強(qiáng)調(diào)作品、角色、漫畫(huà)家,也不起什么作用。

其實(shí),Whisk 好玩就夠了,它更適合做一些不追求精準(zhǔn)的創(chuàng)意探索,俗稱整活。

Whisk 可以翻譯為「攪拌」或者「打蛋器」,Google 的這個(gè)名字取得即視感很強(qiáng),可不就是把食材都混搭在一起嗎?

Whisk 的不精準(zhǔn),也讓它的定位和傳統(tǒng)的圖片編輯器不同,更像是一種創(chuàng)意工具。有了什么腦洞,由它實(shí)現(xiàn)粗略的視覺(jué)效果。

Whisk 生成,1.主題圖片,《火影忍者》截圖;2.風(fēng)格圖片,毛絨玩具

以前實(shí)現(xiàn) Whisk 這種風(fēng)格化的效果,跑通一整個(gè)圖像生成的流程,我們可能需要在 ComfyUI 搭建工作流。

但現(xiàn)在有了 Whisk,好像就在玩抽卡游戲或者開(kāi)盲盒,而且只要能登錄(限美國(guó)地區(qū)),目前還免費(fèi)。

體驗(yàn)指路

https://labs.google/fx/zh/tools/whisk

Google 領(lǐng)先的模型能力固然是前提和基礎(chǔ),但設(shè)計(jì)出被大家需要的產(chǎn)品,仍然需要?jiǎng)?chuàng)造力和審美。

很喜歡 Whisk 的 slogan:「prompt less, play more.」(少寫(xiě)提示詞,多玩耍。)

Whisk 出自 Google labs,之前爆火的 AI 播客 NotebookLM,也是出自這里,后來(lái)慢慢發(fā)展為成熟的項(xiàng)目。這個(gè)實(shí)驗(yàn)室,本身就是這句 slogan 的最好注解。

強(qiáng)大的模型能力,有新意的產(chǎn)品,開(kāi)放的心態(tài),曾經(jīng)似乎被 OpenAI 威脅的 Google,風(fēng)輕云淡地展現(xiàn)出了王者歸來(lái)的姿態(tài)

本文來(lái)源:Appso

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av