不少開發者最近開啟谷歌AI Studio，都注意到後臺悄悄更新了兩個全新的模型呼叫入口旅遊。

點進去的第一反應，大多是同一個感受：谷歌這次把多模態落地的最後一公里，直接鋪到了普通開發者的工位上旅遊。

谷歌AI Studio推文及模型生成對比介面旅遊：展示Nano Banana 2 Lite與2的生成速

就在2026年7月1日，兩款憋了大半年的多模態生成工具，同步透過Gemini API向所有開發者開放旅遊。沒有預熱造勢，沒有大規模釋出會，靜悄悄的動作背後，藏著谷歌在AI賽道換道的明確訊號。

兩張牌湊齊的效率賬

先說這次最出圈的Nano Banana 2 Lite，很多人第一眼就被它的引數驚到了旅遊。

4秒生成一張1K解析度的影像，單張成本摺合人民幣才兩毛多旅遊。這個速度是前代Nano Banana 2的五分之一，價格直接砍到了一半，對比頂配的Pro版本更是隻有四分之一。

更有意思的細節是，它在大幅壓縮延遲和成本的同時，影像生成質量並沒有明顯縮水，尤其是文字渲染精度，已經和頭部同類模型站在了同一水準線上旅遊。

影像生成編輯對比柱狀圖旅遊：多款模型的生圖、延遲、成本資料對比

你可以算一筆很直觀的賬：以前批次生成1000張電商商品圖，用前代模型要等三個多小時，成本接近兩千元旅遊。現在用Lite版本，不到70分鐘就能全部跑完，總成本才兩百多塊。

這種級別的效率和成本最佳化，剛好踩中了當下內容生產行業最痛的那個點旅遊。

過去半年裡，國內跨境電商、本地廣告公司、新媒體工作室，幾乎都在找能穩定批次出圖的低成本方案，很多團隊甚至專門租了GPU叢集跑開源模型，光電費和運維成本每個月就不少花旅遊。

Lite版本的出現，相當於直接把這套自建流水線的門檻給打了下來旅遊。

和它同步開放的Gemini Omni Flash，走的是另一條差異化路線旅遊。

它的核心能力不是從零生成影片，而是把Gemini沉澱多年的世界知識，直接注入到影片生成和編輯環節裡旅遊。你不用寫三頁長提示詞描述古羅馬建築的柱式比例，只用說一句“讓畫面裡的人沿著古羅馬街道往前走”，它就能自動補全符合史實的場景細節。

影片編輯能力對比柱狀圖旅遊：多款影片編輯模型的Elo得分對比

更重要的是它的定價策略，每秒影片生成成本0.1美元，和當前市面上主流的輕量影片生成模型持平，沒有因為多了世界知識buff就開出溢價旅遊。

不少開發者實測後發現，用它做對話式影片編輯，體驗和線上協作文件差不了多少，拖動進度條改某一幀的畫面風格，只用輸一句自然語言指令就能完成旅遊。

1+1>2的串聯玩法

很多人一開始以為，這兩款模型只是並行釋出的兩個獨立工具，直到谷歌放出了三個配套演示應用，大家才反應過來，人家從一開始就沒打算讓你分開用旅遊。

真正的核心亮點，是把兩個模型的能力串聯起來，影像生成和影片創作全程不用反覆上傳下載檔案，資料在同一個生態裡就能無縫流轉旅遊。

第一個演示應用叫Anywhere，操作邏輯簡單到離譜旅遊。你上傳一張自拍照，Nano Banana 2 Lite幾秒鐘就能把你合成到全球幾十個地標景點的畫面裡，挑出你最滿意的那張，點一下按鈕，Omni Flash直接把靜態照片轉成動態漫遊短片。

以前要做一套這樣的賽博旅遊素材，你得先找圖床修圖，再開影片剪輯軟體補動態效果，前前後後折騰大半天，現在全程幾十秒就能搞定旅遊。

第二個演示應用Space Lift，瞄準的是萬億級的家裝設計市場旅遊。你上傳一張自家客廳的實拍圖，Lite版本瞬間生成十幾套不同風格的裝修方案，選中心儀的方案之後，一鍵就能生成一段電影級的空間漫遊影片，不用再等設計師出效果圖。

不少做家裝SaaS的從業者看完演示都在感慨，這套玩法再迭代半年，很多傳統設計工具的飯碗真的要被搶走一半旅遊。

第三個演示應用Omni Product Studio，簡直是為跨境電商從業者量身定做的神器旅遊。你給產品拍一張白底圖，Lite版本自動生成幾十套不同場景的商品宣傳圖，Omni Flash接著把靜態圖轉成適配短影片平臺的商品種草片。

從原始產品圖到最終可直接投放的廣告素材，全鏈路自動跑完，中間不需要任何人工介入旅遊。

這種端到端的串聯能力，才是谷歌這次釋出最有分量的底牌旅遊。別家還在單獨比拼生圖速度、影片時長這些單點引數的時候，谷歌已經把整條內容生產流水線給搭好了。

換道背後的邏輯

不少人最近都在問一個問題：全行業都在死磕程式碼生成能力的時候旅遊，谷歌為什麼把這麼多精力投到多模態生成上，連原定6月要發的Gemini 3.5 Pro都推遲到了7月？

答案其實藏在最現實的商業化賬裡旅遊。

程式碼生成賽道現在確實卷得厲害，頭部幾家模型的表現差距已經縮到很小，使用者遷移成本極低，很難靠單點功能建立長期壁壘旅遊。但多模態生成這條賽道不一樣，它拼的不是某一次測試的跑分，而是多年積累下來的全棧生態能力。

谷歌手裡握著安卓系統、YouTube內容生態、Photos雲服務、Pixel硬體終端，這些場景天然就是多模態生成技術落地的絕佳土壤旅遊。你可以在安卓相簿裡一鍵把靜態照片轉成動態短片，可以在YouTube後臺用這套工具批次生成短影片素材，這種打通全場景的體驗，是別家很難短時間追上來的。

6月AI發展史手繪漫畫旅遊：以龍的形象展示三款AI模型的月度進展

更關鍵的是，當下B端客戶對多模態生成的付費意願，比很多人預想的要高得多旅遊。電商、廣告、家裝、文旅這些行業，每年花在內容生產上的成本是萬億級別的市場，只要能把效率提上去、把成本打下來，根本不愁找不到買單的客戶。

現在兩款新模型的能力還處在初期階段，Omni Flash目前最多隻能生成10秒時長的影片，也暫不支援音訊參考上傳，人物運鏡的一致性還有最佳化空間旅遊。但這些都屬於快速迭代就能補上的細節問題。

真正值得注意的是，谷歌已經悄悄完成了多模態生成落地的關鍵佈局旅遊。

當別家還在糾結程式碼跑分誰更高的時候，谷歌已經拿著一套能直接落地賺錢的多模態組合拳，站在了下一波內容生產力變革的起跑線上旅遊。

這步棋走得不算聲張，但分量足夠沉旅遊。

谷歌雙新多模態模型上線 4秒出圖2毛多全鏈路跑通了

兩張牌湊齊的效率賬

1+1>2的串聯玩法

換道背後的邏輯

小金泰網路

熱門標籤

相關詞彙

分站導航

谷歌雙新多模態模型上線 4秒出圖2毛多 全鏈路跑通了

兩張牌湊齊的效率賬

1+1>2的串聯玩法

換道背後的邏輯

小金泰網路

熱門標籤

相關詞彙

分站導航

谷歌雙新多模態模型上線 4秒出圖2毛多全鏈路跑通了