近日,科技行業(yè)傳來(lái)一則重磅人事變動(dòng)消息:原阿里巴巴通義實(shí)驗(yàn)室Qwen(千問(wèn))大模型后訓(xùn)練負(fù)責(zé)人郁博文,已正式加入字節(jié)跳動(dòng),擔(dān)任Seed團(tuán)隊(duì)視覺(jué)模型與多模態(tài)交互團(tuán)隊(duì)后訓(xùn)練負(fù)責(zé)人。這一變動(dòng)引發(fā)了業(yè)界對(duì)大模型技術(shù)發(fā)展路徑的廣泛關(guān)注。
郁博文在學(xué)術(shù)領(lǐng)域有著深厚的積累。他本科就讀于中南大學(xué),之后在中國(guó)科學(xué)院信息工程研究所攻讀研究生,并于2022年獲得中國(guó)科學(xué)院大學(xué)博士學(xué)位。讀研期間,他專注于自然語(yǔ)言處理與信息抽取領(lǐng)域的研究,在ACL、EMNLP等國(guó)際頂級(jí)學(xué)術(shù)會(huì)議上發(fā)表過(guò)多篇論文。他創(chuàng)新性地提出將信息抽取任務(wù)轉(zhuǎn)化為圖結(jié)構(gòu)問(wèn)題,有效解決了實(shí)體重疊、嵌套等復(fù)雜場(chǎng)景下的識(shí)別難題,憑借這些突出成果,他榮獲了中國(guó)科學(xué)院院長(zhǎng)獎(jiǎng)。
2022年博士畢業(yè)后,郁博文以阿里集團(tuán)最高級(jí)別校招項(xiàng)目“阿里星”的身份加入阿里巴巴達(dá)摩院,擔(dān)任算法專家(P7)。入職初期,他就深度參與了通義千問(wèn)大模型的早期訓(xùn)練與研發(fā)工作,憑借出色的能力迅速成長(zhǎng)為千問(wèn)團(tuán)隊(duì)的核心骨干,并最終擔(dān)任后訓(xùn)練負(fù)責(zé)人。
在后訓(xùn)練崗位上,郁博文成績(jī)斐然。他主導(dǎo)了Qwen系列Chat模型的研發(fā),運(yùn)用監(jiān)督微調(diào)(SFT)、強(qiáng)化學(xué)習(xí)(RLHF)、直接偏好優(yōu)化(DPO)等技術(shù),成功將通用大模型轉(zhuǎn)化為符合人類價(jià)值觀和使用習(xí)慣的對(duì)話模型。針對(duì)不同規(guī)模的模型,他設(shè)計(jì)了“四階段進(jìn)化論”和“知識(shí)蒸餾”策略,使得Qwen模型在長(zhǎng)文本生成、復(fù)雜推理及多模態(tài)理解等任務(wù)上表現(xiàn)出色。在LMSYS Chatbot Arena等全球權(quán)威評(píng)測(cè)中,Qwen系列多次進(jìn)入前十名。
然而,2026年3月,阿里通義實(shí)驗(yàn)室啟動(dòng)了組織架構(gòu)調(diào)整,計(jì)劃將原本垂直整合的Qwen團(tuán)隊(duì)拆分為預(yù)訓(xùn)練、后訓(xùn)練、文本、多模態(tài)等多個(gè)平行模塊。這一調(diào)整使得郁博文的管理范圍大幅縮小,而且與他堅(jiān)持的“預(yù)訓(xùn)練與后訓(xùn)練必須深度耦合”的技術(shù)理念產(chǎn)生了沖突。阿里高層對(duì)千問(wèn)團(tuán)隊(duì)施加的商業(yè)化考核壓力,也進(jìn)一步加劇了團(tuán)隊(duì)內(nèi)部的分歧。
2026年3月3日,郁博文提交了辭職申請(qǐng),并于次日正式離職。他的工作由前Google DeepMind高級(jí)資深研究員周浩接任。
字節(jié)Seed團(tuán)隊(duì)近年來(lái)在大模型和多模態(tài)領(lǐng)域持續(xù)投入資源、積極布局。郁博文的加入,無(wú)疑將為該團(tuán)隊(duì)在視覺(jué)與多模態(tài)交互方面的后訓(xùn)練能力帶來(lái)顯著提升,進(jìn)一步推動(dòng)字節(jié)在AI領(lǐng)域的發(fā)展。業(yè)界普遍認(rèn)為,這一人事變動(dòng)可能會(huì)引發(fā)大模型技術(shù)領(lǐng)域的新一輪競(jìng)爭(zhēng)與合作格局的變化。























