久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來

智譜GLM-5V-Turbo發(fā)布:視覺編程新突破,一眼識(shí)圖生成代碼

   時(shí)間:2026-04-03 11:51 來源:快訊作者:朱天宇

在開發(fā)領(lǐng)域,視覺信息占據(jù)著主導(dǎo)地位,超過80%的需求以視覺形式呈現(xiàn)。然而,許多國(guó)內(nèi)代碼大模型長(zhǎng)期以來只能依賴文本描述來推測(cè)頁(yè)面布局,難以直接處理視覺信息。近日,智譜推出的GLM-5V-Turbo模型打破了這一局限,為視覺編程帶來了新的突破。

GLM-5V-Turbo是一款專為視覺編程設(shè)計(jì)的多模態(tài)模型,能夠原生融合視覺與文本能力。它不再依賴文本轉(zhuǎn)譯來“猜測(cè)”世界,而是直接理解設(shè)計(jì)圖、解析復(fù)雜界面并生成對(duì)應(yīng)代碼,實(shí)現(xiàn)了從視覺感知到代碼實(shí)現(xiàn)的完整開發(fā)鏈路。這一創(chuàng)新在海外社區(qū)引起了廣泛關(guān)注,主貼閱讀量迅速突破百萬。

該模型在推理速度和核心能力上均表現(xiàn)出色。在前端看重的Design2code評(píng)測(cè)中,GLM-5V-Turbo以92.6的高分超越了K2.5的91.3分,展現(xiàn)了其在視覺UI轉(zhuǎn)化為代碼方面的精準(zhǔn)度。在多模態(tài)工具調(diào)用方面,它在BrowseComp-VL評(píng)測(cè)中取得了48.7的成績(jī),領(lǐng)先于K2.5的42.9分,具備了“看圖找工具辦事”的實(shí)用能力。在Agent復(fù)雜任務(wù)評(píng)測(cè)中,其Pass3分?jǐn)?shù)接近行業(yè)頂尖水平,顯示出強(qiáng)大的綜合規(guī)劃與執(zhí)行力。

GLM-5V-Turbo的能力不僅限于單一圖像場(chǎng)景,還延伸至圖文混合理解與生成任務(wù)。例如,在處理斯坦福大學(xué)《2025年人工智能指數(shù)報(bào)告》時(shí),該模型能夠提煉核心結(jié)論,并將其轉(zhuǎn)化為精美的多頁(yè)HTML演示文檔,同時(shí)生成結(jié)構(gòu)化大綱JSON和Markdown格式的摘要。這一過程展示了模型在“閱讀—理解—抽象—表達(dá)—生成”多步流程中的卓越表現(xiàn)。

在更復(fù)雜的測(cè)試中,GLM-5V-Turbo被要求基于一張?jiān)O(shè)計(jì)圖復(fù)刻一個(gè)完整的網(wǎng)頁(yè)。模型不僅實(shí)現(xiàn)了光標(biāo)周圍清晰、其他位置模糊的視覺效果,還使網(wǎng)頁(yè)元素可點(diǎn)擊,并將特定文字改為打字機(jī)特效展示。網(wǎng)頁(yè)上的便利貼點(diǎn)擊后會(huì)展開記事本,不同窗口可展示圖片和視頻素材,初步效果令人驚艷。

GLM-5V-Turbo的技術(shù)優(yōu)勢(shì)源于其獨(dú)特的模型架構(gòu)和訓(xùn)練方法。與大多數(shù)多模態(tài)模型“先語(yǔ)言后視覺”的工程化方法不同,該模型從預(yù)訓(xùn)練階段就將文本和視覺信號(hào)深度融合。自研的CogViT視覺編碼器在通用物體識(shí)別、細(xì)粒度細(xì)節(jié)理解等方面顯著提升,配套的MTP結(jié)構(gòu)則保證了推理效率。模型在強(qiáng)化學(xué)習(xí)階段同步優(yōu)化超過30種任務(wù),覆蓋STEM推理、視覺定位、視頻理解等領(lǐng)域,實(shí)現(xiàn)了能力的均衡提升。

為解決Agent領(lǐng)域高質(zhì)量多模態(tài)交互數(shù)據(jù)稀缺的問題,智譜構(gòu)建了分層數(shù)據(jù)體系,利用合成環(huán)境自動(dòng)生成大規(guī)??煽?cái)?shù)據(jù),并通過過程獎(jiǎng)勵(lì)模型(PRM)數(shù)據(jù)抑制幻覺生成。同時(shí),模型工具鏈擴(kuò)展至多模態(tài)搜索、區(qū)域框選標(biāo)注等視覺交互類工具,將編程與任務(wù)執(zhí)行的鏈路升級(jí)為“視覺-行動(dòng)混合閉環(huán)”。

目前,GLM-5V-Turbo已開放API,Coding Plan用戶可申請(qǐng)搶先試用。開發(fā)者可通過BigModel開放平臺(tái)、AutoClaw(澳龍)和Z.ai等渠道訪問該模型。隨著API的開放和Agent生態(tài)的打通,智譜為開發(fā)者提供了“視覺感知+動(dòng)作執(zhí)行”的基礎(chǔ)設(shè)施,開啟了AI應(yīng)用開發(fā)的新篇章。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容