91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

阿里Qwen3.5-Omni全模態(tài)大模型來(lái)襲!實(shí)測(cè)50分鐘視頻,解鎖“用嘴編程”新技能

   發(fā)布時(shí)間:2026-04-02 02:05 作者:鐘景軒

阿里巴巴近日正式發(fā)布新一代全模態(tài)大模型Qwen3.5-Omni,標(biāo)志著多模態(tài)人工智能技術(shù)邁入新階段。該模型突破傳統(tǒng)單一模態(tài)限制,支持文本、圖像、音頻及音視頻的混合輸入與輸出,其中音頻輸出與文本輸出可同步生成,為智能交互領(lǐng)域帶來(lái)全新可能。

技術(shù)團(tuán)隊(duì)披露,Qwen3.5-Omni系列包含Plus、Flash、Light三種規(guī)格模型,最大支持256k長(zhǎng)上下文處理能力。在音頻處理方面,該模型可連續(xù)解析超過(guò)10小時(shí)的語(yǔ)音內(nèi)容,音視頻輸入時(shí)長(zhǎng)擴(kuò)展至400秒(720P分辨率,1幀/秒)。經(jīng)實(shí)測(cè)驗(yàn)證,模型在215項(xiàng)多模態(tài)任務(wù)中刷新多項(xiàng)最佳紀(jì)錄,其音頻理解、推理及翻譯能力已超越Gemini-3.1 Pro,音視頻綜合處理水平與之持平。

該模型最引人注目的創(chuàng)新在于"視聽編程"能力。在演示場(chǎng)景中,用戶通過(guò)手機(jī)攝像頭拍攝手繪草圖并語(yǔ)音描述需求,模型即可實(shí)時(shí)生成對(duì)應(yīng)的前端代碼。當(dāng)測(cè)試團(tuán)隊(duì)上傳50分鐘美劇《老友記》時(shí),系統(tǒng)在1分鐘內(nèi)完成全片解析,不僅精準(zhǔn)標(biāo)注時(shí)間軸與人物關(guān)系,還能識(shí)別關(guān)鍵劇情轉(zhuǎn)折點(diǎn)。更令人驚嘆的是,模型可根據(jù)游戲直播畫面自動(dòng)檢測(cè)違規(guī)內(nèi)容,展現(xiàn)出色的多模態(tài)內(nèi)容審核能力。

方言支持成為另一大亮點(diǎn)。模型現(xiàn)已兼容39種中國(guó)方言與74種外語(yǔ)的語(yǔ)音識(shí)別,可合成7種方言及29種語(yǔ)言的語(yǔ)音輸出。在閩南語(yǔ)對(duì)話測(cè)試中,系統(tǒng)準(zhǔn)確理解方言語(yǔ)義并生成地道語(yǔ)音回應(yīng),僅在極少數(shù)專業(yè)詞匯上自動(dòng)切換普通話。配合實(shí)時(shí)網(wǎng)絡(luò)搜索功能,模型甚至能主動(dòng)提供當(dāng)日天氣等動(dòng)態(tài)信息,整個(gè)交互過(guò)程延遲控制在1-2秒。

交互體驗(yàn)實(shí)現(xiàn)質(zhì)的飛躍。新模型引入語(yǔ)義打斷機(jī)制,允許用戶在系統(tǒng)"說(shuō)話"時(shí)隨時(shí)插入新指令,模型可智能區(qū)分有效指令與背景噪音。通過(guò)整合端到端語(yǔ)音控制技術(shù),用戶能直接調(diào)節(jié)輸出語(yǔ)音的音量、語(yǔ)速甚至情緒表達(dá)。更突破性的是音色克隆功能,用戶上傳30秒語(yǔ)音樣本后,模型即可復(fù)現(xiàn)該音色并完成多語(yǔ)言轉(zhuǎn)換,在交替?zhèn)髯g場(chǎng)景中實(shí)現(xiàn)聲紋保持。

技術(shù)架構(gòu)方面,Qwen3.5-Omni延續(xù)Thinker-Talker分工模式但進(jìn)行全面升級(jí)。Thinker模塊采用混合注意力MoE架構(gòu),通過(guò)TMRoPE編碼技術(shù)實(shí)現(xiàn)長(zhǎng)序列高效處理;Talker模塊引入RVQ編碼替代傳統(tǒng)DiT運(yùn)算,配合ARIA自適應(yīng)對(duì)齊技術(shù),使語(yǔ)音合成穩(wěn)定性提升40%。經(jīng)基準(zhǔn)測(cè)試,新模型在長(zhǎng)音頻處理效率較前代提升3倍,音視頻理解任務(wù)響應(yīng)速度加快2.5倍。

該模型已開放API調(diào)用服務(wù),支持離線與實(shí)時(shí)兩種模式。定價(jià)體系采用階梯計(jì)費(fèi),128k以下輸入場(chǎng)景中,音頻處理價(jià)格為4.96元/百萬(wàn)tokens,文本/圖像/視頻輸入為0.8元/百萬(wàn)tokens。輸出端文本+音頻綜合價(jià)格為61.322元/百萬(wàn)tokens,純文本輸出降至9.6元/百萬(wàn)tokens。開發(fā)者可通過(guò)阿里云百煉平臺(tái)、魔搭社區(qū)及Hugging Face等渠道體驗(yàn)?zāi)P湍芰Α?/p>

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群