91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

小紅書聯(lián)合復(fù)旦推出InstanceAssemble:AI繪畫實(shí)現(xiàn)復(fù)雜布局精準(zhǔn)生成新突破

   發(fā)布時(shí)間:2025-12-27 07:53 作者:鐘景軒

AI繪畫領(lǐng)域迎來(lái)重要突破,復(fù)旦大學(xué)與小紅書聯(lián)合研發(fā)的InstanceAssemble技術(shù),在布局控制生成(Layout-to-Image)方向?qū)崿F(xiàn)關(guān)鍵性進(jìn)展。這項(xiàng)基于擴(kuò)散變換器架構(gòu)的創(chuàng)新方案,通過(guò)引入"實(shí)例拼裝注意力"機(jī)制,成功解決了復(fù)雜場(chǎng)景下物體布局對(duì)齊與語(yǔ)義匹配的難題,相關(guān)研究成果已被國(guó)際頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2025收錄。

傳統(tǒng)AI繪畫技術(shù)主要依賴文字描述生成圖像(Text-to-Image),而新一代布局控制生成技術(shù)則要求系統(tǒng)根據(jù)用戶指定的空間約束條件進(jìn)行創(chuàng)作。這些約束條件包括物體邊界框、分割掩碼或骨架圖等空間定位信息,技術(shù)難點(diǎn)在于如何確保生成圖像中的每個(gè)物體都嚴(yán)格符合預(yù)設(shè)位置,同時(shí)保持語(yǔ)義邏輯的連貫性?,F(xiàn)有方案普遍存在布局偏移、語(yǔ)義脫節(jié)或計(jì)算資源消耗過(guò)大等問(wèn)題。

研究團(tuán)隊(duì)提出的InstanceAssemble技術(shù)通過(guò)創(chuàng)新機(jī)制實(shí)現(xiàn)了精準(zhǔn)控制。該系統(tǒng)采用輕量化設(shè)計(jì),僅需在現(xiàn)有模型基礎(chǔ)上增加約7100萬(wàn)個(gè)參數(shù)(相當(dāng)于Stable Diffusion3-Medium模型容量的3.46%),即可完成模型適配。特別值得注意的是,當(dāng)適配Flux.1模型時(shí),額外參數(shù)需求更低至0.84%,顯著降低了技術(shù)落地門檻。

實(shí)驗(yàn)數(shù)據(jù)顯示,在包含90萬(wàn)個(gè)實(shí)例的密集布局?jǐn)?shù)據(jù)集測(cè)試中,新技術(shù)展現(xiàn)出卓越性能。研究團(tuán)隊(duì)專門構(gòu)建的"Denselayout"基準(zhǔn)測(cè)試集包含5000張圖像和9萬(wàn)個(gè)實(shí)例,配合全新設(shè)計(jì)的"Layout Grounding Score"評(píng)估指標(biāo),能夠精確量化生成圖像與布局指令的匹配程度。測(cè)試結(jié)果表明,即使訓(xùn)練數(shù)據(jù)僅包含稀疏布局(≤10個(gè)實(shí)例),系統(tǒng)在處理密集場(chǎng)景(≥10個(gè)實(shí)例)時(shí)仍能保持穩(wěn)定輸出。

這項(xiàng)突破性成果標(biāo)志著AI繪畫技術(shù)進(jìn)入精準(zhǔn)構(gòu)圖時(shí)代。用戶只需提供物體位置框和內(nèi)容描述,系統(tǒng)即可在指定區(qū)域生成符合語(yǔ)義的圖像元素,無(wú)論是簡(jiǎn)單場(chǎng)景還是復(fù)雜構(gòu)圖都能保持高度一致性。研究團(tuán)隊(duì)表示,該技術(shù)已具備實(shí)際應(yīng)用條件,未來(lái)可廣泛應(yīng)用于數(shù)字內(nèi)容創(chuàng)作、虛擬場(chǎng)景構(gòu)建等領(lǐng)域,為創(chuàng)意產(chǎn)業(yè)提供新的技術(shù)支撐。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群