久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來

DeepSeek-OCR2革新登場:首推「因果流」視覺編碼,性能超越Gemini

   時(shí)間:2026-01-27 23:40 來源:快訊作者:江紫萱

DeepSeek團(tuán)隊(duì)近日宣布推出全新升級(jí)的DeepSeek-OCR2模型,該模型通過引入創(chuàng)新的DeepEncoder V2視覺編碼器架構(gòu),實(shí)現(xiàn)了視覺處理范式的重大突破。與傳統(tǒng)模型機(jī)械式的圖像掃描方式不同,新架構(gòu)模擬人類視覺認(rèn)知的因果邏輯流,能夠根據(jù)內(nèi)容語義動(dòng)態(tài)調(diào)整信息處理順序。

核心技術(shù)創(chuàng)新在于視覺編碼器的重構(gòu)。研究團(tuán)隊(duì)采用輕量化Qwen2-0.5B語言模型替代傳統(tǒng)CLIP編碼器,構(gòu)建了包含視覺分詞器和因果查詢機(jī)制的雙模塊架構(gòu)。視覺分詞器沿用SAM-base架構(gòu)配合卷積層,將圖像轉(zhuǎn)換為視覺標(biāo)記;而獨(dú)特的因果流查詢機(jī)制通過可學(xué)習(xí)的查詢標(biāo)記,配合雙向與因果混合的注意力掩碼設(shè)計(jì),實(shí)現(xiàn)了視覺信息的語義重排。

實(shí)驗(yàn)數(shù)據(jù)顯示,新模型在保持極高壓縮率的同時(shí)顯著提升處理精度。在OmniDocBench v1.5基準(zhǔn)測試中,使用256-1120個(gè)視覺標(biāo)記的DeepSeek-OCR2取得91.09%的綜合得分,較前代提升3.73%。特別值得注意的是,閱讀順序編輯距離指標(biāo)從0.085優(yōu)化至0.057,證明模型在復(fù)雜版面處理中展現(xiàn)出更強(qiáng)的邏輯性。

與閉源強(qiáng)模型Gemini-3 Pro的對比測試中,DeepSeek-OCR2在約1120個(gè)視覺標(biāo)記的條件下,文檔解析編輯距離達(dá)到0.100,優(yōu)于對手的0.115。生產(chǎn)環(huán)境測試顯示,該模型使在線用戶日志圖像的OCR結(jié)果重復(fù)率從6.25%降至4.17%,PDF數(shù)據(jù)處理重復(fù)率從3.69%降至2.88%,顯著提升了數(shù)據(jù)清洗效率。

研究團(tuán)隊(duì)強(qiáng)調(diào),這項(xiàng)突破驗(yàn)證了"語言模型作為視覺編碼器"的技術(shù)路徑可行性。通過配備不同模態(tài)的查詢嵌入,同一編碼器架構(gòu)未來有望同時(shí)處理文本、圖像、音頻等多模態(tài)數(shù)據(jù),為構(gòu)建原生多模態(tài)系統(tǒng)奠定基礎(chǔ)。目前模型代碼、論文及預(yù)訓(xùn)練權(quán)重已在GitHub和HuggingFace平臺(tái)開源發(fā)布。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容