猫咪www免费人成网站无码,无码人妻一区二区三区精品视频

近期，科技圈被一個名為“原生電腦操控能力”（Native Computer Use）的概念刷屏，各大媒體紛紛報道“AI終于能接管你的電腦了”“GPT-5.4操控桌面超越人類水平”等消息，評論區(qū)也充斥著“為時已晚，有機體！”的驚嘆。然而，面對如此熱烈的宣傳，不少人心中卻充滿了懷疑，“AI操控電腦”并非新鮮話題，今年1月OpenClaw爆火時，大家就已見識過類似概念，且過去兩年“agent時代”的呼聲每隔幾個月就會響起一次，但實際體驗往往不盡如人意。那么，GPT-5.4的“原生電腦操控”究竟是真正的技術飛躍，還是又一次營銷噱頭？

為了揭開真相，有人親自對GPT-5.4進行了大半天的測試，得出的結論是：它確實取得了顯著進步，但遠未達到宣傳中的神奇程度。測試過程中，有些場景令人驚嘆，有些則讓人哭笑不得?？梢源_定的是，ChatGPT-5.4絕非僅僅內置了一個OpenClaw那么簡單，它標志著ChatGPT終于學會了“動手”。

GPT-5.4是OpenAI首個具備原生電腦操控能力的主線模型。所謂“原生電腦操控能力”，簡單來說，就是AI不再局限于聊天，而是能像人類一樣直接操作電腦。它能夠識別屏幕上的元素，如瀏覽器、按鈕、輸入框等，并自主進行點擊、輸入、切換窗口、滾動頁面、提交表單等操作。若發(fā)現(xiàn)操作錯誤，還能回退或嘗試其他方式。這與傳統(tǒng)的自動化腳本截然不同，后者需要提前設定固定流程，一旦網(wǎng)頁結構或按鈕位置發(fā)生變化，腳本便無法運行，而原生電腦操控能力則具備隨機應變的能力，能根據(jù)實際情況靈活調整操作。

以微信為例，其產(chǎn)品設計、底層架構和安全體系從一開始就未給第三方agent留下任何合規(guī)的技術通道，且微信開放平臺至今未對外開放個人微信賬號的私聊、群聊消息發(fā)送相關API接口。然而，ChatGPT-5.4卻成功實現(xiàn)了在微信上的操作。有人通過Codex要求ChatGPT-5.4歸納24小時內的AI新聞，并以字母AI的風格轉化為選題，最后發(fā)送到群里供同事查看，還在選題末尾注明消息由ChatGPT-5.4發(fā)送。ChatGPT-5.4不僅完成了任務，還主動提出將文字修改得更自然。它不僅能看懂屏幕元素，還能完整模擬鍵盤鼠標操作，這一表現(xiàn)令人震驚，畢竟就連OpenClaw在征服微信時都面臨巨大挑戰(zhàn)。

不過，ChatGPT-5.4在瀏覽器控制方面卻出現(xiàn)了一些意外。當要求其打開douyin.com時，它卻打開了“抖音。com”。原來，由于它是模擬鍵盤輸入，而測試者的輸入法為中文，導致輸入錯誤。由于英語鍵盤沒有輸入欄，ChatGPT-5.4無法看到輸入欄，因此當輸入法切換為中文時，它便無法正常輸入網(wǎng)頁。在操作復雜頁面時，它容易點錯位置，操作速度通常比人類慢，且涉及付款、刪除文件、處理隱私數(shù)據(jù)等高風險操作時，仍需人工監(jiān)督。

OpenAI為ChatGPT提供了兩種“動手”方式。一種是代碼模式，AI通過編寫Python Playwright腳本來操控瀏覽器和應用程序，精確執(zhí)行點哪里、輸入什么、如何導航等操作；另一種是截圖模式，AI直接“看”屏幕截圖，然后像人類一樣發(fā)出鼠標和鍵盤指令，無需代碼作為中間層。OpenAI還推出了“Playwright Interactive”實驗性功能，讓AI能夠一邊寫代碼一邊實時測試，甚至在構建網(wǎng)頁應用的同時自行打開瀏覽器調試。

在衡量AI通過截圖加鍵盤鼠標自主操控桌面能力的OSWorld-Verified測試中，GPT-5.4取得了75.0%的成功率，上一代GPT-5.2僅為47.3%，而人類基準線為72.4%。這意味著GPT-5.4在“看著屏幕操作電腦”方面已超越普通人平均水平。在WebArena-Verified測試中，GPT-5.4成功率為67.3%；在Online-Mind2Web測試中，僅靠截圖觀察就達到了92.8%。這些數(shù)據(jù)表明，如今的ChatGPT在電腦操控方面已不再是實驗室中的玩具，而是具備了實際應用能力。

OpenClaw對ChatGPT-5.4的加持作用顯著。2026年2月14日，斯坦伯格加入OpenAI，負責推動下一代個人agent的研發(fā)，同時OpenClaw項目移交至獨立開源基金會運營，OpenAI承諾提供持續(xù)的資源、資金和技術支持。然而，OpenClaw存在成本高昂的問題，由于軟件會將上下文發(fā)送至大模型，導致某些場景下token消耗巨大。為此，OpenAI引入了“Compaction”機制，即上下文壓縮。當AI執(zhí)行長多步驟任務時，會自動總結和修剪中間過程的歷史記錄，僅保留關鍵信息，既維持了長任務的連貫性，又避免了token預算的過度消耗。這是GPT-5.4作為首個主線模型被訓練支持的能力，此前僅有專門的Codex編碼模型具備類似功能。

在推理能力方面，GPT-5.4 Thinking版本新增了一項實用特性：在處理復雜問題時，會先展示推理計劃大綱，告知用戶“我打算怎么做”。更關鍵的是，用戶可在其推理過程中隨時打斷并調整方向，無需從頭開始。這一功能解決了以往AI處理復雜任務時方向跑偏只能重新開始的問題。在專業(yè)知識工作的GDPval基準上，GPT-5.4取得了83.0%的成績，較GPT-5.2提升了12個百分點；在BrowseComp基準上，GPT-5.4 Pro版本達到了89.3%，刷新了紀錄。Mercor的APEX-Agents基準測試也顯示，GPT-5.4在制作幻燈片、金融建模、法律分析等長周期專業(yè)任務中表現(xiàn)突出。

對于開發(fā)者而言，GPT-5.4帶來了Tool Search這一重要更新。以往調用API時，所有可用工具的定義需全部塞入上下文，消耗大量token。如今，GPT-5.4僅加載輕量級工具列表，需要時再查詢具體定義。在Scale的 MCP Atlas基準測試中，這種方式在36個MCP服務器場景下，token消耗降低了47%，準確率保持不變。OpenAI還推出了ChatGPT與Microsoft Excel和谷歌Sheets的集成功能，GPT-5.4可讀取單元格范圍、執(zhí)行多步分析、自動編寫公式，對企業(yè)用戶而言，這無疑是一大助力，AI不再僅僅是用戶與表格之間的“傳話筒”，而是直接參與工作。

然而，GPT-5.4的發(fā)布也引發(fā)了一些擔憂。OpenClaw的“魔幻”之處不僅在于AI能做事，更在于其經(jīng)常超出人類預期。當這種能力被內置到擁有數(shù)億用戶的產(chǎn)品中時，難免讓人感到不安。目前，Codex可設置讓ChatGPT-5.4完全訪問用戶電腦，實現(xiàn)真正的原生控制，但這一功能令人望而卻步，畢竟電腦中存儲著大量個人敏感數(shù)據(jù)。OpenAI在GPT-5.4的安全評估中提到，Thinking版本的欺騙行為概率更低，表明模型缺乏隱藏推理過程的能力，思維鏈監(jiān)控仍是有效的安全工具。但這同時也反映出，他們確實在擔心AI會“隱藏推理過程”。無論如何，GPT-5.4的發(fā)布標志著AI發(fā)展進入了一個新階段，它不再僅僅是對話框中的助手，而是開始伸出“手”，觸碰用戶的屏幕、文件和工作流。

ChatGPT-5.4“動手”新突破：微信操作驚艷，瀏覽器失誤又讓人哭笑不得