谷歌雙新多模態模型上線 4秒出圖2毛多 全鏈路跑通了

不少開發者最近開啟谷歌AI Studio,都注意到後臺悄悄更新了兩個全新的模型呼叫入口旅遊

點進去的第一反應,大多是同一個感受:谷歌這次把多模態落地的最後一公里,直接鋪到了普通開發者的工位上旅遊

谷歌AI Studio推文及模型生成對比介面 旅遊:展示Nano Banana 2 Lite與2的生成速

就在2026年7月1日,兩款憋了大半年的多模態生成工具,同步透過Gemini API向所有開發者開放旅遊。沒有預熱造勢,沒有大規模釋出會,靜悄悄的動作背後,藏著谷歌在AI賽道換道的明確訊號。

兩張牌湊齊的效率賬

先說這次最出圈的Nano Banana 2 Lite,很多人第一眼就被它的引數驚到了旅遊

4秒生成一張1K解析度的影像,單張成本摺合人民幣才兩毛多旅遊。這個速度是前代Nano Banana 2的五分之一,價格直接砍到了一半,對比頂配的Pro版本更是隻有四分之一。

更有意思的細節是,它在大幅壓縮延遲和成本的同時,影像生成質量並沒有明顯縮水,尤其是文字渲染精度,已經和頭部同類模型站在了同一水準線上旅遊

影像生成編輯對比柱狀圖 旅遊:多款模型的生圖、延遲、成本資料對比

你可以算一筆很直觀的賬:以前批次生成1000張電商商品圖,用前代模型要等三個多小時,成本接近兩千元旅遊。現在用Lite版本,不到70分鐘就能全部跑完,總成本才兩百多塊。

這種級別的效率和成本最佳化,剛好踩中了當下內容生產行業最痛的那個點旅遊

過去半年裡,國內跨境電商、本地廣告公司、新媒體工作室,幾乎都在找能穩定批次出圖的低成本方案,很多團隊甚至專門租了GPU叢集跑開源模型,光電費和運維成本每個月就不少花旅遊

Lite版本的出現,相當於直接把這套自建流水線的門檻給打了下來旅遊

和它同步開放的Gemini Omni Flash,走的是另一條差異化路線旅遊

它的核心能力不是從零生成影片,而是把Gemini沉澱多年的世界知識,直接注入到影片生成和編輯環節裡旅遊。你不用寫三頁長提示詞描述古羅馬建築的柱式比例,只用說一句“讓畫面裡的人沿著古羅馬街道往前走”,它就能自動補全符合史實的場景細節。

影片編輯能力對比柱狀圖 旅遊:多款影片編輯模型的Elo得分對比

更重要的是它的定價策略,每秒影片生成成本0.1美元,和當前市面上主流的輕量影片生成模型持平,沒有因為多了世界知識buff就開出溢價旅遊

不少開發者實測後發現,用它做對話式影片編輯,體驗和線上協作文件差不了多少,拖動進度條改某一幀的畫面風格,只用輸一句自然語言指令就能完成旅遊

1+1>2的串聯玩法

很多人一開始以為,這兩款模型只是並行釋出的兩個獨立工具,直到谷歌放出了三個配套演示應用,大家才反應過來,人家從一開始就沒打算讓你分開用旅遊

真正的核心亮點,是把兩個模型的能力串聯起來,影像生成和影片創作全程不用反覆上傳下載檔案,資料在同一個生態裡就能無縫流轉旅遊

第一個演示應用叫Anywhere,操作邏輯簡單到離譜旅遊。你上傳一張自拍照,Nano Banana 2 Lite幾秒鐘就能把你合成到全球幾十個地標景點的畫面裡,挑出你最滿意的那張,點一下按鈕,Omni Flash直接把靜態照片轉成動態漫遊短片。

以前要做一套這樣的賽博旅遊素材,你得先找圖床修圖,再開影片剪輯軟體補動態效果,前前後後折騰大半天,現在全程幾十秒就能搞定旅遊

第二個演示應用Space Lift,瞄準的是萬億級的家裝設計市場旅遊。你上傳一張自家客廳的實拍圖,Lite版本瞬間生成十幾套不同風格的裝修方案,選中心儀的方案之後,一鍵就能生成一段電影級的空間漫遊影片,不用再等設計師出效果圖。

不少做家裝SaaS的從業者看完演示都在感慨,這套玩法再迭代半年,很多傳統設計工具的飯碗真的要被搶走一半旅遊

第三個演示應用Omni Product Studio,簡直是為跨境電商從業者量身定做的神器旅遊。你給產品拍一張白底圖,Lite版本自動生成幾十套不同場景的商品宣傳圖,Omni Flash接著把靜態圖轉成適配短影片平臺的商品種草片。

從原始產品圖到最終可直接投放的廣告素材,全鏈路自動跑完,中間不需要任何人工介入旅遊

這種端到端的串聯能力,才是谷歌這次釋出最有分量的底牌旅遊。別家還在單獨比拼生圖速度、影片時長這些單點引數的時候,谷歌已經把整條內容生產流水線給搭好了。

換道背後的邏輯

不少人最近都在問一個問題:全行業都在死磕程式碼生成能力的時候旅遊,谷歌為什麼把這麼多精力投到多模態生成上,連原定6月要發的Gemini 3.5 Pro都推遲到了7月?

答案其實藏在最現實的商業化賬裡旅遊

程式碼生成賽道現在確實卷得厲害,頭部幾家模型的表現差距已經縮到很小,使用者遷移成本極低,很難靠單點功能建立長期壁壘旅遊。但多模態生成這條賽道不一樣,它拼的不是某一次測試的跑分,而是多年積累下來的全棧生態能力。

谷歌手裡握著安卓系統、YouTube內容生態、Photos雲服務、Pixel硬體終端,這些場景天然就是多模態生成技術落地的絕佳土壤旅遊。你可以在安卓相簿裡一鍵把靜態照片轉成動態短片,可以在YouTube後臺用這套工具批次生成短影片素材,這種打通全場景的體驗,是別家很難短時間追上來的。

6月AI發展史手繪漫畫 旅遊:以龍的形象展示三款AI模型的月度進展

更關鍵的是,當下B端客戶對多模態生成的付費意願,比很多人預想的要高得多旅遊。電商、廣告、家裝、文旅這些行業,每年花在內容生產上的成本是萬億級別的市場,只要能把效率提上去、把成本打下來,根本不愁找不到買單的客戶。

現在兩款新模型的能力還處在初期階段,Omni Flash目前最多隻能生成10秒時長的影片,也暫不支援音訊參考上傳,人物運鏡的一致性還有最佳化空間旅遊。但這些都屬於快速迭代就能補上的細節問題。

真正值得注意的是,谷歌已經悄悄完成了多模態生成落地的關鍵佈局旅遊

當別家還在糾結程式碼跑分誰更高的時候,谷歌已經拿著一套能直接落地賺錢的多模態組合拳,站在了下一波內容生產力變革的起跑線上旅遊

這步棋走得不算聲張,但分量足夠沉旅遊

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://wap.yxd-1688.com/post/52411.html

🌐 /