22歲天才破解Claude Mythos架構！開源新模型融合創新思路參數量減半性能持平-行業-智快網

22歲天才破解Claude Mythos架構！開源新模型融合創新思路參數量減半性能持平

發布時間：2026-04-20 19:30 來源：快訊作者：顧青青

近日，AI領域掀起了一場不小的波瀾：一位年僅22歲的創業者Kye Gomez，憑借公開論文和第一性原理，成功復現了Anthropic閉源已久的Claude Mythos核心架構，并將其開源項目OpenMythos公之于眾。這一舉動不僅讓行業震驚，更引發了關于閉源實驗室技術護城河是否依然存在的激烈討論。

Kye Gomez，作為Swarms的創始人，此前還曾領導過Agora Labs，他的研究重點涵蓋大規模多智能體系統、替代模型架構以及多模態模型。這位高中畢業后便投身創業的年輕人，在2021年至2024年間，同時擔任了三家公司的聯創或CEO，構建了一個以“APAC”為品牌的生態體系，業務范圍橫跨AI深科技、媒體、食品科技等多個領域。

此次，他通過OpenMythos項目，向世界展示了一個不依賴堆砌參數，而是通過“循環深度Transformer”（RDT）架構實現高效推理的模型。與傳統大模型通過不斷增加層數來提升性能不同，RDT架構采用同一套權重，在一次前向傳播中循環運行最多16次，每循環一次，隱藏狀態便更新一次，相當于模型“多想了一步”。這種設計不僅節省了顯存，還降低了訓練成本，為消費級硬件帶來了福音。

OpenMythos的架構設計精妙，分為Prelude（序曲）、Recurrent Block（循環核心）和Coda（終章）三段。Prelude和Coda采用標準的Transformer層，而真正的計算核心則是中間的循環塊。循環塊中的更新規則結合了線性變換和Transformer計算，確保模型在循環過程中不會“跑偏”。項目還引入了多潛變量注意力機制，來自DeepSeek-V2，有效壓縮了KV緩存，實現了顯存的顯著節省。

為了確保循環的穩定性，OpenMythos還設計了三個額外機制：LTI約束注入、自適應計算時間逐位置停機以及深度級LoRA適配器。這些機制共同作用，使得模型在循環過程中能夠保持穩定，并允許每次迭代都有獨立的行為調整能力。

實驗數據表明，一個770M參數的循環模型，在同等訓練數據下，能夠達到1.3B標準Transformer的下游任務質量。這意味著，用一半的參數，就能完成同樣的任務，參數效率直接翻倍。這一成果不僅挑戰了傳統的AI scaling法則，更預示著未來AI模型的發展方向可能將更加注重推理的深度和效率，而非單純的參數數量。

Kye Gomez的這一壯舉，不僅展示了年輕創業者的創新能力和技術實力，更對閉源實驗室的技術優勢構成了挑戰。當一個人能夠僅憑公開信息就重建出最核心的技術時，護城河便不再僅僅是架構本身。這一事件無疑將激勵更多的研究者和開發者投身于AI領域的創新和探索中。

更多>同類內容