如果你最近看到 GPT-5.4 的消息,第一反應很可能是:「喔,又一個更強的模型來了。」
這個反應不能說錯,但只說到一半。
OpenAI 這次真正丟出來的,不只是「更會推理」或「分數更高」,而是把幾個過去比較像高階 agent 功能的能力,直接搬進主流模型敘事裡。講白一點,就是 AI 不只更會回答問題,還更像一個開始能幫你把事情做下去的同事。
為什麼這次不能只看 benchmark
每次新模型發布,大家都會先看排行榜。這很像球賽比分,簡單、刺激,也很容易拿來當社群貼文素材。但如果你真的在評估一個模型要不要進工作流,最關鍵的問題通常不是「它多贏幾分」,而是「它是不是可以少讓我接手三次」。
以前很多 AI 導入卡住,不是因為模型不夠聰明,而是因為它做完第一步之後,後面還要你自己找資料、切工具、補上下文、確認畫面、收拾殘局。結果就是看起來很強,用起來還是很像實習生。
GPT-5.4 這次到底多了什麼
OpenAI 在 3 月 5 日的官方發布裡,把 GPT-5.4 定位成 professional work 的旗艦模型。這句話乍看像行銷標語,但配上文件頁的規格,就比較能看懂他們想推什麼。第一,是 computer use。這代表模型不是只能讀文字和吐文字,而是更適合去理解畫面、操作軟體、在網站和應用程式之間走完整個流程。對一般人來說,這件事的意義不是「AI 會按滑鼠了好酷」,而是它終於更接近真實工作裡那種跨工具、跨步驟、不是一句 prompt 就能結束的任務。
第二,是 tool search。這個詞不如 computer use 聽起來炫,但其實很關鍵。很多 agent workflow 不是敗在模型不會思考,而是敗在它找錯工具、漏掉工具、或者明明有合適工具卻沒用上。當模型開始更擅長在大工具生態裡找到合適的東西,整個工作流的穩定度就會往上走。
第三,是 1M context。你可以把它想成 AI 這次記憶體終於從「短期記憶比較不差」進化到「可以帶著一大堆任務脈絡工作比較久」。對於長文件、多步驟檢查、跨工具協作,這個差別不是加分題,而是你能不能放心把工作交給它的分水嶺。
這些規格對真實工作流有什麼差
如果你是做內容、營運、產品、教學設計,這波更新最值得注意的不是模型回你更像顧問,而是它更可能真的把一連串事情做完。例如,以前你可能會讓 AI 幫你整理會議紀錄,接著自己把內容貼進表格,再自己補成簡報大綱,再自己查漏缺字。現在你會開始合理期待:AI 不只整理文字,還能在多個工具裡把中間那段搬運、整理、驗證的工作一起做掉。
這種差別很像你原本請了一個超會講理論的人,現在則是請到一個會講、也比較會動手的人。前者讓你覺得「哇,好懂」,後者才比較有機會讓你說「好,這個真的能上線」。
所以現在該怎麼判斷要不要跟進
我會建議你先不要急著問「GPT-5.4 有沒有全面屌打別人」,而是先問三件事:- 你的工作流是不是常常卡在跨工具切換?
- 你的任務是不是常常因為上下文太長而斷掉?
- 你是不是已經不缺一個會回答問題的 AI,而缺一個能把流程往前推的人?
因為這次比較像是一個信號:主流模型供應商已經不想只賣你「更像人聊天」,而是開始賣你「更像人做事」。
這件事的影響,會比多幾個 benchmark 百分點更大,也更快進到你每天的工作現場。