曰批免费视频免费无码软件,日本东京男人天堂热线,国产精品成人av一区二区

林俊旸在離開阿里千問團隊后首次公開發(fā)聲，未對離職風(fēng)波或個人去向作出回應(yīng)，而是以一篇長文深入探討了AI領(lǐng)域從“推理模型時代”向“智能體時代”的演進邏輯。

千問團隊曾嘗試將“思考模式”與“指令模式”整合到單一模型中，Qwen3便是這一思路的代表性成果。該模型引入混合思維框架，試圖通過四階段后訓(xùn)練流水線實現(xiàn)兩種模式的動態(tài)平衡。然而，林俊旸坦言，這種融合面臨本質(zhì)性挑戰(zhàn)：指令模式追求簡潔高效，而思考模式需要深度探索，兩者在數(shù)據(jù)分布和行為目標(biāo)上的差異導(dǎo)致合并后的模型表現(xiàn)平庸——思考變得冗余猶豫，指令變得遲緩昂貴。盡管2025年下半年千問團隊拆分了獨立版本，但林俊旸認(rèn)為，真正的突破應(yīng)在于構(gòu)建“推理力度連續(xù)光譜”，使模型能自適應(yīng)調(diào)整思考深度。

行業(yè)對推理模型的探索已進入新階段。OpenAI的o1和DeepSeek-R1驗證了通過強化學(xué)習(xí)訓(xùn)練“先思考后回答”能力的可行性，其核心在于利用數(shù)學(xué)、代碼等強反饋信號優(yōu)化模型正確性。但林俊旸指出，當(dāng)前研究重心正從“延長思考時間”轉(zhuǎn)向“為行動而思考”。智能體式思維要求模型在與環(huán)境交互中動態(tài)修正計劃，而非僅生成靜態(tài)推理軌跡。例如，編程任務(wù)中，智能體需通過執(zhí)行、調(diào)試、迭代逐步優(yōu)化代碼，而非一次性輸出完整方案；工具調(diào)用需根據(jù)實時反饋調(diào)整策略，而非依賴預(yù)設(shè)函數(shù)庫。

智能體時代的到來對技術(shù)棧提出全新要求。傳統(tǒng)推理強化學(xué)習(xí)依賴靜態(tài)評估環(huán)境，而智能體訓(xùn)練需構(gòu)建包含工具服務(wù)器、模擬器、執(zhí)行沙箱的閉環(huán)系統(tǒng)。林俊旸強調(diào)，環(huán)境設(shè)計已成為核心能力，其穩(wěn)定性、真實性和反饋豐富度直接影響模型效能。例如，編程智能體若在訓(xùn)練中直接搜索答案而非自主推理，雖能提升短期指標(biāo)，卻會削弱實際解決問題的能力。多智能體協(xié)作框架逐漸興起，通過編排者分配任務(wù)、領(lǐng)域?qū)＜姨幚砑毞謫栴}、子智能體維護上下文隔離，實現(xiàn)復(fù)雜任務(wù)的高效分解與執(zhí)行。

技術(shù)路徑的分野已顯現(xiàn)。Anthropic的Claude系列通過可控思維預(yù)算整合推理與工具使用，將編程質(zhì)量和長周期任務(wù)作為首要目標(biāo)；GLM-4.5則統(tǒng)一推理、編程與智能體能力，強調(diào)動態(tài)規(guī)劃與跨輪次連貫性。林俊旸認(rèn)為，這些實踐揭示了未來方向：從訓(xùn)練單一模型轉(zhuǎn)向訓(xùn)練智能體系統(tǒng)，競爭優(yōu)勢將源于環(huán)境構(gòu)建、編排工程及閉環(huán)決策能力。例如，智能體需在部分可觀測環(huán)境中處理噪聲數(shù)據(jù)，在失敗后修正策略而非重新規(guī)劃，這些能力無法通過延長推理時間實現(xiàn)，而需通過與真實世界的交互迭代獲得。

隨著工具賦能的思維模式成為主流，AI研究正從“追求更長推理軌跡”轉(zhuǎn)向“優(yōu)化有效行動路徑”。林俊旸的論述為行業(yè)提供了新視角：真正的智能不在于輸出多少文字，而在于能否在復(fù)雜環(huán)境中持續(xù)產(chǎn)生實際價值。這一轉(zhuǎn)變或?qū)⒅匦露xAI技術(shù)的評價體系與發(fā)展方向。

林俊旸離職后首談AI：剖析千問技術(shù)彎路，展望智能體式思考新方向

林俊旸離職后首談AI：剖析千問技術(shù)彎路，展望智能體式思考新方向