智快網 - 新科技與新能源行業網絡媒體

蘋果推出Pico-Banana-400K數據集,為文本引導圖像編輯模型提供優質訓練資源

   發布時間:2025-10-29 14:05 作者:江紫萱

蘋果公司近日宣布推出一項名為《Pico-Banana-400K:面向文本引導圖像編輯的大規模數據集》的研究成果,并同步公開了包含40萬張圖像的完整數據集。該數據集采用非商業性研究許可協議發布,允許全球學術機構和研究人員自由使用,但明確禁止商業用途。這一舉措旨在解決當前圖像編輯領域數據集質量參差不齊、共享性受限等核心問題。

研究團隊指出,盡管近年來圖像生成與編輯技術取得顯著突破,但開放研究仍面臨關鍵瓶頸?,F有數據集普遍存在三大缺陷:依賴專有模型生成的合成數據、人工篩選子集規模有限、以及領域偏移與質量控制不一致等問題。這些缺陷直接導致魯棒圖像編輯模型的開發受阻。為突破這一局限,蘋果團隊歷時數月構建了Pico-Banana-400K數據集。

該數據集的構建流程體現了嚴格的篩選機制。研究人員首先從OpenImages數據集中精選涵蓋人物、物體及文字場景的多樣化真實照片,隨后設計了35類圖像修改指令,并劃分為八大編輯類別。具體包括像素與光度調整(如添加復古濾鏡)、以人為中心的編輯(如生成Funko-Pop風格形象)、場景構成編輯(如天氣條件變換)、對象級語義修改(如物體空間關系調整)等。

在技術實現層面,團隊采用谷歌的Gemini-2.5系列模型完成核心工作。每張原始圖像與編輯指令輸入至Nanon-Banana模型(即Gemini 2.5-Flash-Image)生成編輯結果后,需通過Gemini 2.5-Pro模型的雙重驗證:評估編輯是否精準遵循指令,并確保視覺質量達標。只有通過嚴格篩選的樣本才會被納入最終數據集。

數據集的創新性體現在其結構設計上。除包含單輪編輯樣本外,還首次引入多輪連續編輯序列,模擬真實場景中的漸進式修改需求。更值得關注的是"偏好對"樣本的收錄——通過對比成功與失敗的編輯結果,為模型提供區分優質輸出的學習范例。這種設計有助于提升下一代文本引導圖像編輯模型的判斷能力。

研究團隊坦承,當前使用的Nanon-Banana模型在精細空間控制、布局外推及文字排版處理方面仍存在改進空間。但他們強調,Pico-Banana-400K的核心價值在于為行業提供首個可復現、高質量的訓練與評測基準。目前,相關研究論文已上線預印本平臺arXiv,完整數據集則在GitHub平臺向全球研究者開放下載。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群