近日,AI領域掀起了一場不小的波瀾:一位年僅22歲的創業者Kye Gomez,憑借公開論文和第一性原理,成功復現了Anthropic閉源已久的Claude Mythos核心架構,并將其開源項目OpenMythos公之于眾。這一舉動不僅讓行業震驚,更引發了關于閉源實驗室技術護城河是否依然存在的激烈討論。
Kye Gomez,作為Swarms的創始人,此前還曾領導過Agora Labs,他的研究重點涵蓋大規模多智能體系統、替代模型架構以及多模態模型。這位高中畢業后便投身創業的年輕人,在2021年至2024年間,同時擔任了三家公司的聯創或CEO,構建了一個以“APAC”為品牌的生態體系,業務范圍橫跨AI深科技、媒體、食品科技等多個領域。
此次,他通過OpenMythos項目,向世界展示了一個不依賴堆砌參數,而是通過“循環深度Transformer”(RDT)架構實現高效推理的模型。與傳統大模型通過不斷增加層數來提升性能不同,RDT架構采用同一套權重,在一次前向傳播中循環運行最多16次,每循環一次,隱藏狀態便更新一次,相當于模型“多想了一步”。這種設計不僅節省了顯存,還降低了訓練成本,為消費級硬件帶來了福音。
OpenMythos的架構設計精妙,分為Prelude(序曲)、Recurrent Block(循環核心)和Coda(終章)三段。Prelude和Coda采用標準的Transformer層,而真正的計算核心則是中間的循環塊。循環塊中的更新規則結合了線性變換和Transformer計算,確保模型在循環過程中不會“跑偏”。項目還引入了多潛變量注意力機制,來自DeepSeek-V2,有效壓縮了KV緩存,實現了顯存的顯著節省。
為了確保循環的穩定性,OpenMythos還設計了三個額外機制:LTI約束注入、自適應計算時間逐位置停機以及深度級LoRA適配器。這些機制共同作用,使得模型在循環過程中能夠保持穩定,并允許每次迭代都有獨立的行為調整能力。
實驗數據表明,一個770M參數的循環模型,在同等訓練數據下,能夠達到1.3B標準Transformer的下游任務質量。這意味著,用一半的參數,就能完成同樣的任務,參數效率直接翻倍。這一成果不僅挑戰了傳統的AI scaling法則,更預示著未來AI模型的發展方向可能將更加注重推理的深度和效率,而非單純的參數數量。
Kye Gomez的這一壯舉,不僅展示了年輕創業者的創新能力和技術實力,更對閉源實驗室的技術優勢構成了挑戰。當一個人能夠僅憑公開信息就重建出最核心的技術時,護城河便不再僅僅是架構本身。這一事件無疑將激勵更多的研究者和開發者投身于AI領域的創新和探索中。






















