
解析Vidu Q3:AI視頻生成下半場,拼的是“可交付”。
作者|王藝
編輯|王博
凌晨一點,剪輯時間線還在往右延長。屏幕里的人物說著臺詞,嘴型卻像慢了半拍;下一鏡切到側臉,五官又變了一點;再往后,動作流暢了,但情緒不連貫——像是同一個演員在不同片場、不同天氣里拍出來的素材,被硬拼成了一條“故事”。
這是AI視頻創作者雪佬BOT(下文簡稱“雪佬”)在創作中遇到的真實問題。2023年,他進入AIGC視頻領域,創作出了《無盡之境》《等待安娜》等作品。
事實上,過去一年,AI 視頻模型在“效果”維度的進步已經非常明顯。以近期爆火的 Seedance 2.0 為例,其在單鏡頭表現力、情緒張力和畫面完成度上的提升,讓不少創作者第一次感受到“AI 視頻終于好看了”。但在真實創作中,雪佬發現,效果的突破,并沒有自動解決制作層面的核心難題。
和他一樣遇到類似問題的,還有知名AI漫劇《749密檔:滇西石像生》的創作者幻夢。
“一部劇的時長是60-120分鐘,每分鐘需要三四十個鏡頭;一段AI生成的素材是5-10秒,每個鏡頭最多也就用3-5秒。這也就意味著,AI短劇是由很多個AI生成的片段拼接而成的,素材與素材之間的的人物、道具、場景必須是連貫的。”幻夢說,“但是現在AI最大的問題是,一張圖生成一個視頻,每張圖相互是獨立的,生成的視頻中人物、道具、場景是割裂的,沒有相關性。”
雪佬和幻夢的困境,反映了當下AI生成視頻最大的痛點:一致性差。
在大語言模型和多模態模型發展到“能看、能聽、能說”的今天,創意和鏡頭點子幾乎不再稀缺:你可以在十分鐘里寫完一個世界觀,半小時里生成一套角色設定,幾個小時里堆出一堆“看起來很像電影”的片段。
但真正困住創作者的,往往不是靈感,而是反復消耗時間與預算都很難穩定解決的硬問題:人物與場景一致性、聲畫同步與口型、鏡頭節奏與多機位連貫性。最終導向的是“能不能交付”。
也正因為這些硬問題,導致了AI視頻在“供給側”層出不窮,在“需求側”卻出現一種分化——能爆的很多,能持續賺錢的并不多。
率先跑出來的內容形態之一,是AI漫劇:它有明確的更新頻率、清晰的分發渠道,也有更接近流水線的回款邏輯。巨量引擎數據顯示,2025年上半年漫劇的供給量以83%的復合增長率擴容,播放量、點贊量分別實現92%、105%的復合增長。
近期各種AI視頻生成模型都在不斷迭代,在和一些創作者交流后,我們發現在AI漫劇、短劇領域,生數科技最近發布的Vidu Q3已被創作者廣泛應用。
可以說Vidu Q3是“為劇而生”:它通過一次生成把畫面與聲音合到一起,把時長推到可直接應用的段落粒度(16秒),還可實現多人多語種對話;自動根據畫面內容自由切換運鏡,解決了畫面文字“鬼畫符”的問題的同時,保持了較高的一致性。
在國際權威AI基準測試機構Artificial Analysis 最新公布的文生視頻模型榜單中,Vidu Q3排名全球第一,超越馬斯克xAI Grok,Runway Gen-4.5 ,Google Veo3.1和 OpenAI Sora 2等一眾廠商。

Text to Video Leaderboard,圖源:Artificial Analysis
當 Seedance 2.0 在效果層面持續出圈、刷新創作者對“好看”的預期,Vidu Q3 則在權威評測與真實生產中,給出了另一種答案:如何把 AI 視頻從“素材生成”,推進到“可交付的敘事內容單元”。
「甲子光年」認為,這種并行出現的“雙重領先”并非偶然,而是一個清晰信號——中國 AI 視頻大模型,正在效果上限與交付能力兩條路徑上同時進入全球第一梯隊。
1.聲畫同出、更長時長、更高可控
如果只按功能表看,每家視頻生成模型都有一串“更清晰、更穩定、更真實”的表述。但站在生產的視角,視頻生成模型的評判核心只有四個指標:可用率、返工率、交付周期、協作分工。
Vidu Q3 的賣點,恰恰是圍繞這四個指標展開。
在過去的AI短劇、漫劇生產里,“畫面生成”與“聲音系統”往往是割裂的:畫面先做出來,再真人配音,再對口型,再補音效與氛圍。任何一個鏡頭有問題需要重抽,整條鏈路跟著返工。
Vidu Q3的核心敘事之一,是強調聲畫同出、口型同步和多人對話,讓“配音+對口型+補音效”從必選項變成可選項,顯著降低了返工的連鎖反應。
例如,輸入一張女生站在橋上的照片和以下提示詞“The girl introduces the bridge behind her:The bridge behind me is called Happiness Bridge.Tourists come here every day, lining up to take pictures.”

Vidu Q3生成的視頻不僅實現了口型與聲音的精準同步,人物面部肌肉的運動細節也高度真實,情緒表達飽滿而自然。
在AI視頻生成領域,有相當多的模型在單人對話領域已經做得比較成熟,但一旦涉及多人對話場景,問題就來了——
首先是音頻綁定混亂:兩段音頻輸入時,AI經常讓所有人一起動嘴,像“合唱團”而非對話;
其次是指令跟隨失效:生成的視頻可能忽略文本提示,比如“A點頭,B搖頭”;
最后是長視頻易崩壞:現有技術只能生成幾秒片段,無法支持電影或者直播等實際應用。
Vidu Q3很好地解決了上述問題。不僅在多人對話方面實現了口型和指令跟隨的一致,而且還支持中、英、日三種語言,極大拓寬了視頻生成的內容維度。
提示詞:Him: “Are we just killing time?”
Her: “Maybe. But at least we’re doing it together.”
提示詞:
My mother used to say, give your whole heart to what you do. Work with focus. Laugh without holding back.
And meet every meal with the gratitude you’d feel at a last feast.
Vidu Q3完美生成了交談的視頻,不僅聲音、口型匹配精準,而且人物動作、形態也很自然。
再比如,基于同一張圖片輸入,要求 Vidu Q3 分別以中文、英文和日文生成小男孩說“我希望長大后,成為一個非常厲害的人”的視頻。最終生成的多語言版本中,口型與語音高度匹配,發音自然、地道。

提示詞:圖中的男孩用中文說:我希望長大后,成為一個非常厲害的人。無bgm配音;
提示詞:圖中的男孩用英文說:I hope that when I grow up, I will become a truly remarkable person. 無bgm配音;
提示詞:圖中的男孩用日語說:大人になったら、とてもすごい人になりたいです。無bgm配音。
盡管聲畫同出和多人對話解決了AI生成視頻單鏡頭反復修改的大問題,但是對內容工業而言,最稀缺的不是“一個鏡頭”,而是一個能承載情緒推進的段落單元。
幻夢告訴「甲子光年」,在Vidu Q3出來之前,AI視頻生成模型出來的東西大概是5-10秒,不能叫做“一個視頻”,更多是“視頻素材”:“現在生成視頻基本上是以一張圖片為基礎,去讓這張圖片動起來形成的視頻,生成的每段素材不連貫、很割裂。”
而Q3的視頻生成長度,達到了16秒,這不僅是全球首個支持16秒音視頻直出的模型,而且至少把單位從“碎片”往“段落”推了一步。
“Vidu Q3能實現10-16s視頻素材,一次出好幾個連貫的鏡頭,雖然現在主要是文生視頻和圖生視頻,但是我估計多參功能出來之后就會更完善,跟Sora 2比較像,能大幅提高制作效率。”幻夢說。
Vidu Q3單次生成16秒長度的視頻可以讓內容能進入剪輯邏輯——時間更長,意味著即使中間有崩壞畫面,也更有空間通過剪輯規避,并保留可用段落。
“生成視頻時間長的話,即使中間有一些崩壞的畫面,也可以剪輯掉;另外,片段時間越長,表現出來的東西越多。如果你寫一個非常復雜的提示詞,5秒的片段肯定是表現不出來你想要的畫面的。”雪佬說。
我們也嘗試將一張“街霸游戲”圖片輸入給Vidu Q3,Q3為我們生成了長達16秒的媲美游戲CG動畫的視頻。

輸入圖片和提示詞:超高速打斗,特效光效亂飛,兩個格斗家高速對打,拳拳到肉,飛檐走壁,快到產生殘影
此外,AI視頻最容易“露餡”的地方,是鏡頭之間:生成的畫面鏡頭較為單一、切鏡邏輯不成立、景別變化不服務敘事、人物關系在鏡頭切換時斷裂,更多還是通過后期人工進行剪輯拼接。
Vidu Q3把“鏡頭控制/切鏡”放到重要位置,核心訴求是讓模型輸出更接近“可直接應用的鏡頭組”,可以根據劇情自動生成匹配的分鏡,讓畫面更引人入勝。雪佬告訴「甲子光年」,他之前的創作習慣是用Gemini寫好提示詞后,通過Nano Banana生成首尾幀圖片,然后把圖片喂給視頻生成模型,這樣才能生成一個連貫的鏡頭。但是Vidu Q3出來之后,他省略了這一步,簡單地輸入提示詞或者上傳一張圖片,Vidu就能輸出包含遠、中、近景的、鏡頭切換自然、敘事連貫的鏡頭。
“說實話,之前谷歌推出Veo 3的時候,我離開過Vidu一段時間,但是Vidu Q3推出后,我又回來了,因為我比較喜歡做真人和寫實的短片,我感覺Vidu Q3的生成的視頻人物演技非常逼真,臺詞比較自然,還有就是他的鏡頭,運鏡和切鏡控制地非常好。還有就是Vidu Q3對提示存的遵循度很高,你寫什么提示詞它都能表現出來,有時候出來的效果比你的預期還高。”雪佬說。
幻夢也表示,Vidu Q3的大動態是目前所有模型里做的最好的:“不僅動作表現是最好的,而且真人效果和風格也是最好的。”
這種高水平的運鏡控制能力,其實得益于Vidu一直以來領先的“參考生圖”技術。
「甲子光年」推測,Vidu Q3在模型訓練中很可能深度內化了影視語言,把“鏡頭內調度”和“匹配剪輯”理解的足夠深,在生成之初,就為視頻片段規劃了一條連貫的視覺敘事路徑。這意味著,那些曾經需要昂貴設備和專業團隊才能實現的鏡頭語言,現在可能只需一段精準的文字描述。
2.從單鏡頭到“一鏡到底”,Vidu Q3“為劇而生”
講“模型能力”,容易落入參數的堆砌;講“工作流”,才能看清它解決了哪些硬問題。
AI漫劇生產的流程,大致可以分為“劇本創作—文生圖—圖生視頻—剪輯”四步。創作者會先確定漫劇的主題、核心情節和故事框架,借助AI工具生成劇本大綱后,再將劇本內容轉化為具體的鏡頭語言,利用AI繪圖工具生成角色、場景和每個鏡頭的靜態畫面,然后再通過AI視頻生成工具轉化為動態視頻,最后進行剪輯。
而“AI漫劇”作為市場上流通的內容形態之一,其落點最終還是商業化,還是需要考慮變現問題。
醬油文化是《代管截教,忽悠出了一堆圣人》《魅魔叛主》《玩具店賣機甲我震驚全世界》等漫劇的出品方,其創始人黃浩南在去年11月的閱文漫劇大講堂《好故事,動起來》活動中,把AI漫劇的商業化拆成了三條路徑:投流、原生/自然流量、平臺分賬。
“首先最直觀的收入就是投流,通過買流量,用戶過來充值,通過廣告模式變現;第二種是原生模式,包括全渠道的自然流量模式,我的劇放上去給大家看,有人付錢,有人不付錢,不付錢的不用管,我們就看付錢的有多少人;第三種跟長視頻合作,類似于B站,把劇放給他們,進行分賬;再后面,還有出海等模式。”黃浩南說。
有行業專家表示,和所有的互聯網內容形態一樣,AI漫劇也會經歷產能井噴、內容精品化和IP化階段。現階段由于市場需求太大,AI漫劇還以產量為主,誰做的產量大誰就是王者,而未來,AI漫劇一定會轉入“內容精品化”和“IP”化的競爭。
而想要在這場競爭中勝出,關鍵在于“有沒有一個好的故事”,這也就對模型的敘事連貫性提出了較高的要求。
“AI技術的核心是畫質變得更好,讓觀眾越來越喜歡看它,而且弱化AI感,更真實。在技術方面提升之后,我個人認為故事才是排第一的。Vidu這一點就做得非常棒,我們80%以上的作品是Vidu做的。黃浩南說。
幻夢也認可了“故事”的價值。他表示,隨著AI短劇市場的不斷擴大,對模型的“連續敘事”能力提出了越來越高的要求。以他那部抖音播放量4000萬+、一度登上紅果榜單前三的漫劇《749密檔:滇西石像生》為例,他認為內容和劇情是吸引用戶觀看的關鍵。而在此部劇的制作中,Vidu做出了相當大的貢獻。“這個劇的前半段基本上是用Vidu 2.0做的,后半段60%-70%是用Vidu Q1做的。”幻夢說。
而除了“敘事連貫性”,AI漫劇作為一種內容工業產品,“是否能穩定交付”也很重要。
一部AI漫劇制作完成后,就進入了分發環節。具體的分發節奏是:先在流量平臺投流“洗一遍”,通常兩天洗完;洗量階段是付費的,洗完轉免費;7天后,進入各大平臺分發,這是驗證AI漫劇商業化效果的階段——B站能實現一周內變現,騰訊視頻則更長,周期能到兩個月。
當一門生意的時間軸被梳理地如此清晰,模型的角色也就隨之改變:它必須服務于這條生產線的時間軸,而不是服務于發布會的demo。
這也是為什么“ARR”“當月收入”這樣的指標會進入行業敘事的原因——商業化的壓力,正強迫所有人把問題從“能不能生成”轉向“能不能規模化生產”。
快手最近披露,可靈AI在2025年12月當月收入突破2000萬美元、ARR達2.4億美元;英國初創公司Synthesia也憑借AI生成的虛擬視頻,獲得了博世、默克和SAP等大客戶的青睞,并在2025年4月實現了超過1億美元的ARR。
ARR并不只是一個收入數字,而是衡量SaaS廠商收入質量與長期健康度的核心指標,這一點與高度依賴項目制、一次性收入的模式有著本質區別。
放在AI賽道來看,ARR的意義被進一步放大:
它反映的不是“有沒有人試用”,而是是否存在真實、可持續的付費需求,以及產品是否已經進入用戶的長期工作流。從這一維度看,AI視頻是國內少數已經跑通付費邏輯的AI應用方向之一。
做 AI 視頻最容易陷入的誤區是:盯著某一次生成的驚艷畫面,然后把它當成“能力證明”。但內容產業最終拼的是復購:觀眾愿不愿意追、平臺敢不敢持續投。因此,一個很現實的判斷是:2026年的AI視頻爆款,未必更像真人劇,但一定更像內容產品。更強的系列化、更明確的題材策略、更工程化的制作流程、更可衡量的商業邏輯,會成為新的門檻。從能生成到能交付,拼的不只是模型,而是可復用的生產流程、穩定的品控體系和能跑通的商業閉環。
相較仍以算力消耗和試點合作為主的大語言模型,AI 視頻已經出現了規模化、持續性的付費使用行為,驗證了賽道本身的商業健康度與可持續發展潛力。
雪佬對「甲子光年」表示,他現在最看重的就是模型對商單或短內容的穩定交付能力,而Vidu Q3的聲畫同出、長視頻生成、更加仿真的人物形象生成能力等幫助他極大縮短了交付時間、提升了交付能力。
“我前兩天接了一個商單,是給《三體》做宣傳片,成片出來之后發到創作者群里,有人說感覺就跟真人拍的一樣,人物表演和情緒遞進都非常自然,沒有一點AI的味道了。”雪佬說。
3.市場很卷,但各有千秋
過去這一年多,AI 視頻生成領域可以說是神仙打架、遍地開花。
Fortune Business Insights數據顯示,2025年全球人工智能視頻生成器市場規模為7.168億美元。預計該市場將從2026年的8.47億美元增長到2034年的33.5億美元,預測期內復合年增長率(CAGR)為18.80%。
在強勁的市場需求的下,上至科技巨頭、下至創業公司,再到影視工作室,各路玩家都加入了這一賽道,馬不停蹄地卷畫質、卷時長、卷分辨率,工具推出了一個又一個、模型迭代了一版又一版。而大家似乎也看到了AI生成視頻在內容和運鏡上存在的問題,開始在音畫同步和敘事一致性上不斷發力。
比如,「甲子光年」觀察到,即夢最新發布的Seedance 2.0模型就也把重點放在了音視頻聯合生成、音畫同步、運鏡控制與敘事連貫性上;而Seko、Oii Oii、納米漫劇流水線等市場上的后起之秀產品也在聲畫同步和故事一致性上持續加碼、快速迭代,后勁十足。
以擬人化狐貍Nick靠在積雪的城市橋欄桿上的視頻為例,可以看到——Seedance 2.0在Nick閉眼的特寫鏡頭上表現力較好;Vidu Q3不僅很好還原了提示詞中的“雪花落在鼻尖融化”這一鏡頭,而且生成的Nick皮毛紋理也是最清晰的,最后,結合視頻的效果,增加了對應的bgm背景音,提升了整體視頻的完整度。
提示詞:Shot 1: 全景,擬人化狐貍 Nick 靠在積雪的城市橋欄桿上,身著棕色蓬松羽絨服、厚針織圍巾與手套,雪花飄落,雪花簌簌飄落的細碎聲響,皮毛和衣物沾雪,背景是冰封河面、覆雪摩天樓與暖光路燈,冷調柔光營造冬日氛圍。遠處城市街道隱約的車流聲,路燈旁偶爾的風吹過欄桿的嗚咽聲,Nick 呼出的氣息凝成白霧時的輕微呵氣聲。
Shot 2: 特寫,Nick 的皮毛紋理清晰,雪花落在鼻尖融化,圍巾邊緣結著薄霜,爪子搭在冰涼的欄桿上,遠處暖光路燈下傳來的零星行人腳步聲。Shot 3: 中景拉遠,Nick 望向冰封河面,身后城市建筑群的暖光與雪景形成冷暖對比,河面偶爾傳來冰塊碰撞的脆響。城市背景里的圣誕頌歌隱約旋律,寒風掠過橋身的呼嘯聲,Nick 輕輕嘆氣的低沉聲線。
再來看一個短劇場景,可以看到,Seedance 2.0 在切鏡節奏上更為流暢,而 Vidu Q3 在人物情緒表達與情緒貼合度上表現更為到位。
提示詞:現代高層辦公室,冷灰色調搭配落地窗的自然光線。女主穿著黑色西裝,手肘撐在辦公桌托腮凝視鏡頭,眼神冷靜且有力量。鏡頭從正面鏡頭,切換到側面鏡頭,捕捉她手指輕敲桌面的細節,她皺起眉頭,有點生氣,中文開口說道:“這就是這個星期的成果么?我不滿意,重新做吧。”背景加入鍵盤敲擊聲與窗外城市車流的環境音,營造專業且略帶壓迫感的職場氛圍,無背景音樂。
再來看一段打斗場景(素材來源于網絡)。可以看到,Seedance 2.0 的自動分鏡銜接更加流暢,而 Vidu Q3 在黑紅火焰等特效的表現上更具張力。
提示詞:起始畫面中大量敵人涌向少女,少女瞬間展開攻擊,使用武器與敵人劇烈撞擊,鏡頭隨著攻擊震顫,能量炸開。少女速度之快拉出殘影,鏡頭難以捕捉,少女持續揮刀斬擊其他敵人,隨著少女的斬衣,黑紅火焰在敵人身上燃燒,粒子能量濺射開,所有敵人被擊倒。實時高速動作,強烈運動模糊。
總體來看,Seedance 2.0 更側重多模態參考能力、自動分鏡以及視頻編輯層面的靈活性,適合對創作過程控制要求較高、希望快速生成高完成度視頻內容的創作者;而 Vidu Q3 則以長視頻聲畫同出、鏡頭調度能力與更強的物理一致性為核心優勢,更適合敘事性較強、對畫面質量與物理真實感要求更高的內容生產場景。
從生數科技Vidu Q3的發布,到Seedance 2.0的更新,再到雪佬、幻夢等創作者在真實項目中的工作流遷移,這些信號共同指向同一件事:AI視頻行業正在進入“下半場”。競爭焦點不再停留在“視覺生成”本身,而是全面轉向“視聽一體化 + 結構化鏡頭語言 + 可復制的制作流程”,也就是把模型能力嵌入可控的鏡頭組織、可復用的段落單元與可規模化的交付節奏之中。
回到Vidu Q3,「甲子光年」認為,它的此次發布更像一次把行業拉回同一張牌桌的“交付型升級”——把音畫割裂變成一次性交付、把單鏡頭素材推到段落閾值、把鏡頭調度前置讓輸出更可控。當這種能力開始成為行業默認對標的標準時,Vidu Q3扮演的就不只是“更強的模型”,而是把AI視頻推向工業化生產范式的那只“定標器”。
換句話說,Vidu Q3把行業問題從“能不能生成”改寫為“能不能穩定交付”,并迫使所有玩家在同一套更接近內容工業的指標體系里重新排位。
最終,內容工業會用最樸素的標準篩選工具:誰能縮短鏈條、降低失敗率、穩定交付,誰就更接近“基礎設施”。而AI漫劇的爆發式增長,也意味著這種篩選會越來越快發生。
(封面圖來源:AI生成)