字節(jié)跳動旗下AI視頻生成技術(shù)Seedance 2.0近日在學(xué)術(shù)平臺arXiv發(fā)布技術(shù)論文,同步公開26頁詳細(xì)評測報告及170人完整研發(fā)團(tuán)隊(duì)名單。這項(xiàng)被業(yè)界稱為"現(xiàn)象級"的多模態(tài)視頻生成技術(shù),通過原生統(tǒng)一模型架構(gòu)實(shí)現(xiàn)了文本、圖像、視頻、音頻的跨模態(tài)理解與生成,在動作自然度、音畫同步性、導(dǎo)演級分鏡控制等維度達(dá)到行業(yè)領(lǐng)先水平。
技術(shù)突破直指傳統(tǒng)生成式工具的核心痛點(diǎn)。過往模型依賴單一文本輸入,在整合品牌素材、配音、歷史片段時存在顯著一致性缺陷,創(chuàng)作者需經(jīng)歷數(shù)十次試錯才能獲得可用成果。Seedance 2.0通過構(gòu)建四模態(tài)統(tǒng)一理解框架,支持混合輸入指令的實(shí)時解析,使人物運(yùn)動軌跡更符合物理規(guī)律,多人交互場景不再出現(xiàn)邏輯錯亂。其自研的音畫對齊算法可精準(zhǔn)匹配口型、腳步聲、背景音樂與畫面動態(tài),在評測中實(shí)現(xiàn)98.7%的同步準(zhǔn)確率。
該技術(shù)已通過Byteplus平臺向全球100余個國家企業(yè)開放API調(diào)用服務(wù),支持生成4-15秒、分辨率最高達(dá)720p的短視頻內(nèi)容。值得注意的是,服務(wù)覆蓋范圍特意排除了美國市場。企業(yè)用戶可實(shí)現(xiàn)劇情腳本的自動分鏡、運(yùn)鏡設(shè)計與節(jié)奏剪輯,還能對指定角色、動作或場景進(jìn)行局部修改,或在現(xiàn)有視頻基礎(chǔ)上無縫續(xù)拍新內(nèi)容。
在VBench等主流基準(zhǔn)測試中,Seedance 2.0在質(zhì)量、運(yùn)動合理性、語義一致性等23項(xiàng)指標(biāo)中全面領(lǐng)先同期競品。論文披露的對比數(shù)據(jù)顯示,其人物動作自然度評分超出第二名14.6個百分點(diǎn),復(fù)雜場景生成效率提升3倍以上。研發(fā)團(tuán)隊(duì)特別強(qiáng)調(diào),模型通過引入物理引擎約束模塊,使奔跑、打斗等動態(tài)場景的失真率降低至2.3%。
團(tuán)隊(duì)構(gòu)成顯示劇烈人事變動:相較1.5 Pro版本,現(xiàn)有170人團(tuán)隊(duì)中有89人離職,同時引入62名新成員,核心研發(fā)層保持穩(wěn)定。基礎(chǔ)研究負(fù)責(zé)人吳永輝直接向CEO梁汝波匯報,預(yù)訓(xùn)練技術(shù)路線由位于帕洛阿爾托的曾妍團(tuán)隊(duì)主導(dǎo)。值得關(guān)注的是,抖音副總裁李亮近日否認(rèn)了"億元年薪挖角"傳聞,但確認(rèn)Seed團(tuán)隊(duì)采用"現(xiàn)金+字節(jié)期權(quán)+豆包期權(quán)"的復(fù)合薪酬體系,期權(quán)四年全部歸屬,業(yè)務(wù)發(fā)展良好時技術(shù)人員收益可能達(dá)數(shù)億元級別。





















