久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機網(wǎng)站 站內搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

ChatGPT-5.4“動手”新突破:微信操作驚艷,瀏覽器失誤又讓人哭笑不得

   時間:2026-03-07 15:24 來源:快訊作者:蘇婉清

近期,科技圈被一個名為“原生電腦操控能力”(Native Computer Use)的概念刷屏,各大媒體紛紛報道“AI終于能接管你的電腦了”“GPT-5.4操控桌面超越人類水平”等消息,評論區(qū)也充斥著“為時已晚,有機體!”的驚嘆。然而,面對如此熱烈的宣傳,不少人心中卻充滿了懷疑,“AI操控電腦”并非新鮮話題,今年1月OpenClaw爆火時,大家就已見識過類似概念,且過去兩年“agent時代”的呼聲每隔幾個月就會響起一次,但實際體驗往往不盡如人意。那么,GPT-5.4的“原生電腦操控”究竟是真正的技術飛躍,還是又一次營銷噱頭?

為了揭開真相,有人親自對GPT-5.4進行了大半天的測試,得出的結論是:它確實取得了顯著進步,但遠未達到宣傳中的神奇程度。測試過程中,有些場景令人驚嘆,有些則讓人哭笑不得??梢源_定的是,ChatGPT-5.4絕非僅僅內置了一個OpenClaw那么簡單,它標志著ChatGPT終于學會了“動手”。

GPT-5.4是OpenAI首個具備原生電腦操控能力的主線模型。所謂“原生電腦操控能力”,簡單來說,就是AI不再局限于聊天,而是能像人類一樣直接操作電腦。它能夠識別屏幕上的元素,如瀏覽器、按鈕、輸入框等,并自主進行點擊、輸入、切換窗口、滾動頁面、提交表單等操作。若發(fā)現(xiàn)操作錯誤,還能回退或嘗試其他方式。這與傳統(tǒng)的自動化腳本截然不同,后者需要提前設定固定流程,一旦網(wǎng)頁結構或按鈕位置發(fā)生變化,腳本便無法運行,而原生電腦操控能力則具備隨機應變的能力,能根據(jù)實際情況靈活調整操作。

以微信為例,其產(chǎn)品設計、底層架構和安全體系從一開始就未給第三方agent留下任何合規(guī)的技術通道,且微信開放平臺至今未對外開放個人微信賬號的私聊、群聊消息發(fā)送相關API接口。然而,ChatGPT-5.4卻成功實現(xiàn)了在微信上的操作。有人通過Codex要求ChatGPT-5.4歸納24小時內的AI新聞,并以字母AI的風格轉化為選題,最后發(fā)送到群里供同事查看,還在選題末尾注明消息由ChatGPT-5.4發(fā)送。ChatGPT-5.4不僅完成了任務,還主動提出將文字修改得更自然。它不僅能看懂屏幕元素,還能完整模擬鍵盤鼠標操作,這一表現(xiàn)令人震驚,畢竟就連OpenClaw在征服微信時都面臨巨大挑戰(zhàn)。

不過,ChatGPT-5.4在瀏覽器控制方面卻出現(xiàn)了一些意外。當要求其打開douyin.com時,它卻打開了“抖音。com”。原來,由于它是模擬鍵盤輸入,而測試者的輸入法為中文,導致輸入錯誤。由于英語鍵盤沒有輸入欄,ChatGPT-5.4無法看到輸入欄,因此當輸入法切換為中文時,它便無法正常輸入網(wǎng)頁。在操作復雜頁面時,它容易點錯位置,操作速度通常比人類慢,且涉及付款、刪除文件、處理隱私數(shù)據(jù)等高風險操作時,仍需人工監(jiān)督。

OpenAI為ChatGPT提供了兩種“動手”方式。一種是代碼模式,AI通過編寫Python Playwright腳本來操控瀏覽器和應用程序,精確執(zhí)行點哪里、輸入什么、如何導航等操作;另一種是截圖模式,AI直接“看”屏幕截圖,然后像人類一樣發(fā)出鼠標和鍵盤指令,無需代碼作為中間層。OpenAI還推出了“Playwright Interactive”實驗性功能,讓AI能夠一邊寫代碼一邊實時測試,甚至在構建網(wǎng)頁應用的同時自行打開瀏覽器調試。

在衡量AI通過截圖加鍵盤鼠標自主操控桌面能力的OSWorld-Verified測試中,GPT-5.4取得了75.0%的成功率,上一代GPT-5.2僅為47.3%,而人類基準線為72.4%。這意味著GPT-5.4在“看著屏幕操作電腦”方面已超越普通人平均水平。在WebArena-Verified測試中,GPT-5.4成功率為67.3%;在Online-Mind2Web測試中,僅靠截圖觀察就達到了92.8%。這些數(shù)據(jù)表明,如今的ChatGPT在電腦操控方面已不再是實驗室中的玩具,而是具備了實際應用能力。

OpenClaw對ChatGPT-5.4的加持作用顯著。2026年2月14日,斯坦伯格加入OpenAI,負責推動下一代個人agent的研發(fā),同時OpenClaw項目移交至獨立開源基金會運營,OpenAI承諾提供持續(xù)的資源、資金和技術支持。然而,OpenClaw存在成本高昂的問題,由于軟件會將上下文發(fā)送至大模型,導致某些場景下token消耗巨大。為此,OpenAI引入了“Compaction”機制,即上下文壓縮。當AI執(zhí)行長多步驟任務時,會自動總結和修剪中間過程的歷史記錄,僅保留關鍵信息,既維持了長任務的連貫性,又避免了token預算的過度消耗。這是GPT-5.4作為首個主線模型被訓練支持的能力,此前僅有專門的Codex編碼模型具備類似功能。

在推理能力方面,GPT-5.4 Thinking版本新增了一項實用特性:在處理復雜問題時,會先展示推理計劃大綱,告知用戶“我打算怎么做”。更關鍵的是,用戶可在其推理過程中隨時打斷并調整方向,無需從頭開始。這一功能解決了以往AI處理復雜任務時方向跑偏只能重新開始的問題。在專業(yè)知識工作的GDPval基準上,GPT-5.4取得了83.0%的成績,較GPT-5.2提升了12個百分點;在BrowseComp基準上,GPT-5.4 Pro版本達到了89.3%,刷新了紀錄。Mercor的APEX-Agents基準測試也顯示,GPT-5.4在制作幻燈片、金融建模、法律分析等長周期專業(yè)任務中表現(xiàn)突出。

對于開發(fā)者而言,GPT-5.4帶來了Tool Search這一重要更新。以往調用API時,所有可用工具的定義需全部塞入上下文,消耗大量token。如今,GPT-5.4僅加載輕量級工具列表,需要時再查詢具體定義。在Scale的 MCP Atlas基準測試中,這種方式在36個MCP服務器場景下,token消耗降低了47%,準確率保持不變。OpenAI還推出了ChatGPT與Microsoft Excel和谷歌Sheets的集成功能,GPT-5.4可讀取單元格范圍、執(zhí)行多步分析、自動編寫公式,對企業(yè)用戶而言,這無疑是一大助力,AI不再僅僅是用戶與表格之間的“傳話筒”,而是直接參與工作。

然而,GPT-5.4的發(fā)布也引發(fā)了一些擔憂。OpenClaw的“魔幻”之處不僅在于AI能做事,更在于其經(jīng)常超出人類預期。當這種能力被內置到擁有數(shù)億用戶的產(chǎn)品中時,難免讓人感到不安。目前,Codex可設置讓ChatGPT-5.4完全訪問用戶電腦,實現(xiàn)真正的原生控制,但這一功能令人望而卻步,畢竟電腦中存儲著大量個人敏感數(shù)據(jù)。OpenAI在GPT-5.4的安全評估中提到,Thinking版本的欺騙行為概率更低,表明模型缺乏隱藏推理過程的能力,思維鏈監(jiān)控仍是有效的安全工具。但這同時也反映出,他們確實在擔心AI會“隱藏推理過程”。無論如何,GPT-5.4的發(fā)布標志著AI發(fā)展進入了一個新階段,它不再僅僅是對話框中的助手,而是開始伸出“手”,觸碰用戶的屏幕、文件和工作流。

 
 
更多>同類內容
全站最新
熱門內容