就在 Anthropic Claude 陷入降智風波時,OpenAI 剛剛推出了 GPT-5-Codex——這是基于 GPT-5 優化后的 Codex 專用版本,專門針對「自主編程」進行了訓練。
這次升級確實有些分量。
聚焦于真實的軟件工程場景的 GPT-5-Codex,不僅能處理日常的編程交互,還能獨立完成復雜耗時的工程項目。它能像真正的程序員一樣,連續工作超過 7 個小時,在復雜項目上不斷迭代、修 bug、跑測試,最后交付一個完整可用的解決方案。
從四月份推出 CLI 版本,到五月份上線網頁版,再到現在的全面升級,Codex 的——就是要把編程這件事徹底「自動化」。
現在無論你在終端、IDE、網頁還是手機上開發,Codex 都能提供一致的編程輔助體驗,而且已經整合進 ChatGPT 賬號體系,本地和云端可以無縫切換。

GPT-5-Codex 最有意思的特性是「動態思考」能力。它能夠根據任務復雜度靈活調整處理時間。
OpenAI 內部員工使用數據顯示,按模型生成的 token 數排序,對于最底部 10% 的簡單請求,GPT-5-Codex 比 GPT-5 少用了 93.7% 的計算資源。
相反,對于最頂部 10% 的復雜請求,它會花費大約兩倍的時間進行推理、代碼編輯、測試和迭代。這意味著日常聊天和小任務響應會更快,而復雜的大型重構則會投入更多時間深度處理。

用人話說就是:日常小問題不磨蹭,大項目該花時間就花時間。
終于有個編程模型懂得「好鋼用在刀刃上」了。
基準測試方面,在 GPT-5 發布時,OpenAI 只在 477 個 SWE-bench Verified 任務上報告結果,在被 Anthropic 指出這一問題后,今天 OpenAI 宣布這些問題已經修復,現在可以在全部 500 個任務上報告結果。結果如下:

代碼重構評測更是涵蓋了 Python、Go 甚至 OCaml 等語言,比如一個來自 Gitea 的 pull request 案例,修改了 232 個文件、3541 行代碼,將 ctx 變量貫穿到應用邏輯中。
代碼審查功能也很實用,它會在代碼庫中瀏覽分析,運行測試驗證正確性,給出的審查意見準確性不錯。在 OpenAI 內部,Codex 現在會審查大部分 PR,每天能發現數百個問題,很多時候比人工審查更早發現潛在 bug。

前端開發支持同樣到位,GPT-5-Codex 不僅能創建桌面應用,移動端開發能力也有明顯提升。它還能讀取截圖和設計稿,檢查開發進度,把工作成果可視化展示,這對前端開發確實很有幫助。
工具層面的更新也相當豐富。全新改造的 Codex CLI 現在圍繞自主編程流程重構,支持直接附加和分享圖片,包括截圖、線框圖和架構圖,用于建立對設計決策的共同理解。

處理復雜任務時,Codex 會通過待辦清單跟蹤進度,內置了網頁搜索、MCP 等工具連接外部系統。
審批模式簡化為三種:只讀模式需要顯式批準,自動模式對工作區有完整訪問權限但工作區外需要批準,完全訪問模式可以在任意位置讀取文件并運行帶網絡訪問的命令。
全新的 IDE 插件支持 VS Code、Cursor 等編輯器,讓用戶能無縫預覽本地修改并與 Codex 協作編輯代碼。插件還支持在云端與本地環境間流暢切換,可以直接在編輯器中創建云端任務、跟蹤進行中的工作,以及審查已完成的任務。
云端基礎設施也有明顯改進,通過容器緩存將新任務和后續任務的中位完成時間縮短了 90%。Codex 能自動設置運行環境,掃描常見初始化腳本并執行,在配置網絡訪問權限時還能運行 pip install 等命令按需安裝依賴。

安全方面,OpenAI 采用了沙箱運行環境,默認禁用網絡訪問,確保不會在用戶電腦上執行有害操作,同時降低提示注入風險。
開發者可以根據風險承受度自定義安全設置,在云端可以限制網絡訪問只允許可信域名,在 CLI 和 IDE 插件中可以批準命令、允許全權限運行或使用網頁搜索、連接 MCP 服務器。
與 GPT-5 管理方式一致,GPT-5-Codex 在生物與化學領域被歸類為高能力模型,已采取相應安全措施。
價格上,Codex 已經集成到 ChatGPT 的各個付費套餐中,不同套餐提供不同的使用額度。
Plus、Edu 和 Business 適合每周幾次專注的編程會話;
Pro 則能支持跨多個項目的一整周工作量。
Business 套餐可以購買額外額度,幫助開發者突破包含的上限;Enterprise 套餐則提供共享額度池,只需為團隊實際使用部分付費。對于使用 API key 的開發者,OpenAI 計劃很快在 API 中開放 GPT-5-Codex。

目前 GPT-5-Codex 的系統提示詞已經泄露,感興趣的開發者可以研究一下。
系統提示詞地址:https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/Codex_Sep-15-2025.md
知名博主 Dan Shipper 在體驗完 GPT-5-Codex 之后,給出的評價是:
我們在 @every 上測試了幾天,結果相當震撼:
– 它會根據任務動態選擇「思考」時間——難題上能長時間工作,簡單問題則能即時給出答案。
– 在我們的生產代碼庫測試中,它可以自主運行 長達 35 分鐘 ——相比之下,GPT-5 往往過于謹慎,這是一次明顯的升級。
– 它支持 本地與網頁開發環境的無縫切換。你可以在 VS Code 中啟動一個任務,然后在去購物時把它交給 Codex Web 繼續完成。
– 它配備了 代碼審查智能體,會真正運行你的代碼,因此能發現更多 bug。
以下是我們經過大量內部測試后的整體感受:
– 這是一次非常出色的升級,讓 Codex CLI 成為了 Claude Code 的有力替代品。
– 不過,它需要合理的提示才能表現出最佳效果。比如 @kieranklaassen 最多只能讓它運行 5 分鐘,而 @DannyAziz97 找到了訣竅。
– 有時候它會「偷懶」——在某些任務上可能思考不足,或者如果認為任務過大就會直接拒絕。
– 我整個周末都在用 Codex CLI 為 @CoraComputer 提交一個新的 PR,體驗下來發現它非常好用、易于引導——這是一個很棒的模型。
OpenAI Codex 產品負責人 Alexander Embiricos 表示,性能的大幅提升主要歸功于 GPT-5-Codex 動態的「思考能力」。Embiricos 解釋說,GPT-5-Codex 的工作方式類似,但它內部沒有路由器,而是能實時調整在某項任務上投入的時間。
Embiricos 指出,這比路由機制更具優勢:后者在一開始就必須決定要為某個問題分配多少算力和時間,而 GPT-5-Codex 則可以在處理任務 5 分鐘后決定「還需要再多花一個小時」。他說,他見過該模型在某些情況下連續工作超過 7 小時。

最近幾個月,幾乎所有 AI 大廠的重磅更新都指向同一個方向——編程能力。相比之下,如果你仔細觀察就會發現,針對普通用戶的「優化」其實是在不斷減少。
表面上看,這可能是因為面向普通消費者的 AI 產品已經陷入瓶頸期。聊天、寫文案、做翻譯,這些功能已經比較成熟,很難再有突破性進展。
但更深層的原因,還是繞不開商業邏輯。
開發先進的 AI 模型本就需要天文數字的巨額投入,這些成本總要有人承擔。與其指望海量低付費用戶慢慢回血,不如直接鎖定那些真正愿意掏錢的高價值用戶。而程序員是最愿意為 AI 工具付費、且粘性較高的群體之一。
從這個角度來說,放棄技術平權的敘事,AI 的未來可能比我們想象的更加「精英化」。這不一定是壞事,但至少我們應該對此有清醒的認識。