91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

舊金山四人團(tuán)隊另辟蹊徑:1100萬小時視頻訓(xùn)練出通用計算機(jī)操作新模型

   發(fā)布時間:2026-02-25 06:40 作者:江紫萱

舊金山一家名為Standard Intelligence的初創(chuàng)公司,近日推出了一款名為FDM-1(前向動力學(xué)模型)的計算機(jī)行為模型,宣稱其為“首個完全通用的計算機(jī)行為模型”。該模型在包含1100萬小時屏幕錄制視頻的數(shù)據(jù)集上完成訓(xùn)練,能夠以每秒30幀的速率直接處理視頻流,并在CAD建模、網(wǎng)站安全測試以及真實(shí)世界的自動駕駛場景中展現(xiàn)出令人矚目的泛化能力。

當(dāng)前主流的計算機(jī)使用代理技術(shù)路線主要依賴視覺語言模型(VLM)疊加工具調(diào)用能力。例如,Anthropic在2024年10月為Claude添加了Computer Use功能,通過截屏、界面元素識別和模擬點(diǎn)擊來操作計算機(jī)。到2026年2月,Claude Sonnet 4.6在OSWorld基準(zhǔn)測試中取得了72.5%的得分。OpenAI在2025年1月發(fā)布的Operator則基于GPT-4o的視覺能力與強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)網(wǎng)頁操控。Google DeepMind也布局了Project Mariner和Gemini 2.5 Computer Use等類似項目。這些巨頭的共同特點(diǎn)是通過截屏分析理解界面,本質(zhì)上仍是“看圖說話”的思路。

Standard Intelligence認(rèn)為,這種技術(shù)路線存在局限性。他們提出,真正通用的計算機(jī)操作智能體需要直接從大規(guī)模視頻中學(xué)習(xí)人類行為模式,而非依賴截屏分類與推理。正如GPT-3需要互聯(lián)網(wǎng)規(guī)模的文本語料庫才能涌現(xiàn)語言能力,通用的計算機(jī)行為模型同樣需要互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)。目前最大的公開計算機(jī)操作數(shù)據(jù)集不足20小時30 FPS視頻,而互聯(lián)網(wǎng)上積累了數(shù)百萬小時的剪輯制作、編程直播、游戲?qū)崨r等操作錄像,這些數(shù)據(jù)尚未被系統(tǒng)性利用。FDM-1正是瞄準(zhǔn)這一缺口展開研發(fā)。

該模型的技術(shù)路線與2022年OpenAI發(fā)布的VPT(視頻預(yù)訓(xùn)練)方法有相似之處。VPT通過少量人工標(biāo)注的Minecraft游戲視頻訓(xùn)練逆向動力學(xué)模型(IDM),再利用IDM為約7萬小時的YouTube游戲視頻自動標(biāo)注操作標(biāo)簽,最終實(shí)現(xiàn)復(fù)雜任務(wù)的行為克隆。但VPT僅適用于特定環(huán)境,且上下文窗口極短(約六秒),難以處理需要長時間連貫操作的計算機(jī)任務(wù)。FDM-1則試圖在數(shù)據(jù)規(guī)模和上下文長度兩個維度上實(shí)現(xiàn)突破。

在數(shù)據(jù)規(guī)模方面,Standard Intelligence首先在4萬小時標(biāo)注員錄屏數(shù)據(jù)上訓(xùn)練IDM,隨后用該模型為1100萬小時互聯(lián)網(wǎng)視頻自動標(biāo)注操作標(biāo)簽。IDM通過觀察屏幕前后幀變化反推操作動作,例如屏幕上出現(xiàn)字母“K”可能對應(yīng)按下K鍵,光標(biāo)移動則對應(yīng)鼠標(biāo)位移。盡管存在噪聲和歧義,但這種方法在技術(shù)上可行。團(tuán)隊采用掩碼擴(kuò)散架構(gòu)設(shè)計IDM,使其能夠同時參照所有幀推斷動作,先標(biāo)注高置信度簡單動作,再集中處理模糊難例。據(jù)稱,這種方法比純因果模型數(shù)據(jù)效率更高,且在鼠標(biāo)移動和界面操作等任務(wù)上的表現(xiàn)甚至優(yōu)于人工標(biāo)注數(shù)據(jù)。

在上下文長度方面,突破來自團(tuán)隊自研的視頻編碼器。現(xiàn)有VLM處理屏幕錄制視頻的方式消耗大量token,例如一分鐘30 FPS視頻約需100萬個token,導(dǎo)致主流模型在200k token上下文窗口中僅能處理幾秒鐘視頻。Standard Intelligence的視頻編碼器聲稱能將近兩小時(約36000幀)視頻壓縮進(jìn)相同token預(yù)算,比此前最優(yōu)方案高效50倍,比OpenAI編碼器高效100倍。該編碼器通過在屏幕錄制數(shù)據(jù)上訓(xùn)練掩碼壓縮目標(biāo)實(shí)現(xiàn)這一性能,并在文本轉(zhuǎn)錄基準(zhǔn)測試中展現(xiàn)出比標(biāo)準(zhǔn)ViT快約100倍的收斂速度。

基于大規(guī)模標(biāo)注數(shù)據(jù)和高效編碼器,F(xiàn)DM-1采用標(biāo)準(zhǔn)自回歸架構(gòu)訓(xùn)練。該模型接收此前視頻幀和動作序列,預(yù)測下一個動作token,輸出空間包含鍵盤按鍵和鼠標(biāo)移動增量。為處理鼠標(biāo)位移的龐大狀態(tài)空間,團(tuán)隊將其分解為X和Y分量,經(jīng)屏幕寬高歸一化后使用指數(shù)分箱映射到49個尺寸遞增的箱中。小而頻繁的移動分入細(xì)粒度箱,大而稀少的移動分入粗粒度箱,同時每個鼠標(biāo)移動token附帶預(yù)測下一個點(diǎn)擊位置,以生成更精確軌跡。

與VLM路線不同,F(xiàn)DM-1完全不使用鏈?zhǔn)剿季S推理、字節(jié)對編碼或工具調(diào)用,直接在視頻和動作token上運(yùn)作。這種設(shè)計使推理延遲降低,并使其能夠處理滾動、3D建模、游戲操控等連續(xù)性任務(wù)。為評估模型性能,團(tuán)隊構(gòu)建了一套可運(yùn)行8萬臺分叉虛擬機(jī)的系統(tǒng),每小時能完成超過100萬次rollout。每臺虛擬機(jī)配備最小化Ubuntu桌面環(huán)境、1個vCPU和8GB內(nèi)存,一塊H100 GPU可同時控制42臺。分叉機(jī)制允許對操作系統(tǒng)狀態(tài)做完整內(nèi)存快照并復(fù)制到新虛擬機(jī),從而在相同起始狀態(tài)下并行運(yùn)行數(shù)千次評估。通過優(yōu)化GPU與虛擬機(jī)布局、使用低延遲VNC配置和自定義Rust輸入綁定,團(tuán)隊將屏幕截取到動作執(zhí)行的往返延遲壓縮至11毫秒。

初步評測結(jié)果顯示,IDM標(biāo)注數(shù)據(jù)在鼠標(biāo)操作、目標(biāo)點(diǎn)擊、符號記憶和UI操控等方面的表現(xiàn)已超過人工標(biāo)注數(shù)據(jù),但在打字和語言理解任務(wù)上進(jìn)步較慢。團(tuán)隊認(rèn)為這是IDM標(biāo)注噪聲所致,未來計劃混合使用兩種數(shù)據(jù)。在自動駕駛微調(diào)實(shí)驗中,F(xiàn)DM-1在不到1小時駕駛數(shù)據(jù)上微調(diào)后,即能用方向鍵控制汽車在舊金山繞街區(qū)轉(zhuǎn)彎,起始準(zhǔn)確率為50%(在“無操作/左轉(zhuǎn)/右轉(zhuǎn)”三選一中),明顯高于僅有視頻編碼器而無互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練的基線模型。

Standard Intelligence成立于2024年3月,定位為“對齊的AGI實(shí)驗室”。研究團(tuán)隊核心成員包括Neel Redkar、Yudhister Kumar、Devansh Pandey和Galen Mead。Neel Redkar來自UCLA,高中時期曾憑借碳捕獲金屬有機(jī)框架神經(jīng)網(wǎng)絡(luò)研究獲得ISEF大獎,并在Notion AI團(tuán)隊實(shí)習(xí)過。Yudhister Kumar參與過MATS 5.0項目,研究過預(yù)言機(jī)在合作AI中的應(yīng)用。在FDM-1之前,團(tuán)隊已開展過兩個引人關(guān)注的項目:2024年中在舊金山市中心建造的30 PB存儲集群,用于存放9000萬小時視頻數(shù)據(jù);2024年11月開源的hertz-dev,一個85億參數(shù)的全雙工音頻基礎(chǔ)模型,在單張RTX 4090上實(shí)現(xiàn)了約120毫秒的實(shí)際對話延遲。這兩個項目分別對應(yīng)了FDM-1所需的大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施和跨模態(tài)學(xué)習(xí)能力。

FDM-1的技術(shù)路徑與當(dāng)前行業(yè)主流形成鮮明對比。Anthropic、OpenAI和Google的計算機(jī)操控代理本質(zhì)上是“大腦外接手臂”,利用現(xiàn)有語言/視覺推理模型截圖、識別UI元素并生成點(diǎn)擊指令。這種方法的優(yōu)點(diǎn)是能利用通用推理能力,缺點(diǎn)是操作頻率低,難以處理高幀率連續(xù)控制任務(wù),且受限于截屏分辨率下的UI理解。FDM-1則更接近端到端行為克隆路線,直接從視頻到動作,不經(jīng)過語言中介,天然擅長連續(xù)控制任務(wù),但可能缺乏VLM方案的抽象推理和自然語言理解能力。

目前,F(xiàn)DM-1尚未成為可用產(chǎn)品。它不具備指令跟隨能力,所有演示均為模型自主探索或執(zhí)行預(yù)設(shè)行為,缺乏自然語言驅(qū)動展示。團(tuán)隊也未在公開標(biāo)準(zhǔn)化基準(zhǔn)(如OSWorld或CUB)上報告結(jié)果,所有評測基于內(nèi)部任務(wù)套件,與主流方案缺乏直接可比性。不使用語言模型能力遷移意味著FDM-1可能在CAD建模、游戲操控、連續(xù)滾動瀏覽等任務(wù)上有獨(dú)特優(yōu)勢,但產(chǎn)品化落地時需解決指令理解、任務(wù)規(guī)劃等問題。未來,F(xiàn)DM-1代表的路線與VLM代理路線可能會趨于融合。一個能在30 FPS下連續(xù)操控3D建模軟件的模型,若加上語言條件化和高級規(guī)劃模塊,或能兼得兩種路線優(yōu)點(diǎn)。在計算機(jī)行為建模領(lǐng)域,數(shù)據(jù)規(guī)模和上下文長度的重要性正被重新認(rèn)識,而Standard Intelligence可能是首個將這兩個要素推向極致的團(tuán)隊。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群