久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

Claude Sonnet 4.6重磅登場:百萬token上下文,多領(lǐng)域能力全面升級

   時(shí)間:2026-02-19 00:37 來源:快訊作者:沈瑾瑜

Anthropic 近日正式推出其最新模型 Claude Sonnet 4.6,并宣稱這是目前性能最強(qiáng)的 Sonnet 系列版本。該模型在編碼、計(jì)算機(jī)操作、長上下文推理、智能體規(guī)劃、知識處理和設(shè)計(jì)等多個(gè)領(lǐng)域?qū)崿F(xiàn)了全面升級,同時(shí)保持了與前代 Sonnet 4.5 相同的價(jià)格體系:每百萬輸入 token 收費(fèi) 3 美元,每百萬輸出 token 收費(fèi) 15 美元。

在計(jì)算機(jī)使用能力方面,Claude Sonnet 4.6 延續(xù)了 2024 年 10 月首發(fā)的通用計(jì)算機(jī)操作模型技術(shù)路線。通過模擬真實(shí)軟件環(huán)境(如 Chrome、LibreOffice、VS Code 等)的 OSWorld 基準(zhǔn)測試顯示,該模型在處理復(fù)雜電子表格、多步驟網(wǎng)頁表單填寫等任務(wù)時(shí)已達(dá)到人類水平,并能在多個(gè)瀏覽器標(biāo)簽頁間整合信息。盡管目前仍落后于專業(yè)人類用戶,但其進(jìn)步速度顯著,且在抵抗提示注入攻擊方面較前代有重大改進(jìn),安全性能與同期發(fā)布的 Opus 4.6 持平。

技術(shù)團(tuán)隊(duì)通過對比圖表揭示了模型迭代軌跡:自 2024 年 10 月以來,Sonnet 系列在 OSWorld 基準(zhǔn)上的得分持續(xù)攀升。值得注意的是,2025 年 7 月更新的 OSWorld-Verified 基準(zhǔn)通過升級任務(wù)質(zhì)量評估體系和基礎(chǔ)設(shè)施,為模型能力驗(yàn)證提供了更嚴(yán)格的測試環(huán)境。最新測試表明,Sonnet 4.6 在處理長上下文時(shí)表現(xiàn)尤為突出,其 100 萬 token 的超大窗口容量可完整容納代碼庫、長篇合同或數(shù)十篇研究論文,并在推理過程中保持高度一致性。

在 Vending-Bench Arena 商業(yè)模擬測試中,Sonnet 4.6 展現(xiàn)出獨(dú)特的戰(zhàn)略思維。該模型在運(yùn)營初期大幅增加產(chǎn)能投資,支出遠(yuǎn)超競爭對手,隨后在第十個(gè)月突然轉(zhuǎn)向利潤最大化策略,最終以顯著優(yōu)勢領(lǐng)先。這種"先擴(kuò)張后收割"的運(yùn)營模式,印證了其在長程規(guī)劃和資源分配方面的進(jìn)化。

用戶反饋數(shù)據(jù)顯示,約 70% 的開發(fā)者在代碼修改任務(wù)中更傾向選擇 Sonnet 4.6,認(rèn)為其上下文理解能力和邏輯整合效率顯著提升。在與 Opus 4.5 的對比測試中,59% 的用戶認(rèn)為新模型減少了過度工程化問題,在指令遵循、幻覺控制和多步驟執(zhí)行方面表現(xiàn)更優(yōu)。目前該模型已全面開放使用,覆蓋 Claude 套餐、Cowork 協(xié)作平臺、Code 開發(fā)環(huán)境及主流云平臺,免費(fèi)用戶也可通過默認(rèn)升級體驗(yàn)文件創(chuàng)建、連接器等新增功能。開發(fā)者可通過 Claude API 快速調(diào)用 claude-sonnet-4-6 接口進(jìn)行集成開發(fā)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容