← 返回知識庫/文章內容

在 3 個編碼任務中比較 GPT-5.1 與 Gemini 3.0 與 Opus 4.5

📅 1/23/2026#Web#Tool#SEO#AI#Other

測試

提示遵守： 要求使用具有 10 個特定要求（確切的類別名稱、錯誤訊息等）的 Python 速率限制器。
程式碼重構：為他們帶來了一個混亂的遺留 API，存在安全漏洞和不良做法。想看看他們是否會發現問題並修復架構，以及他們是否會添加我們未明確要求的保護措施。
系統擴充： 移交了部分通知系統，並要求他們先解釋架構，然後再新增電子郵件處理程序。在實施之前測試理解力。

結果

迅速遵守

Gemini 3.0最嚴格地遵循指示。
Opus 保持接近規範，並提供更清晰的文件。
GPT-5.1 進入防禦模式 - 新增了未要求的驗證和保護措施。

程式碼重構（TypeScript API）

Opus 提供了最完整的重構（全部 10 項要求）。
GPT-5.1 達到 9/10，發現安全性問題，例如缺少身份驗證和不安全的資料庫操作。
Gemini 的得分為 8/10，輸出更乾淨、更快，但錯過了一些架構缺陷。

系統擴充

Opus 為每種事件類型提供了最完整的解決方案和範本。
GPT-5.1 深入理解階段（識別錯誤、創建圖表），然後構建了豐富的功能，例如 CC/BCC 和附件。
Gemini 了解基礎知識，但提供了「最低限度」版本。

重點

Opus 整體來說是最快的（總共 7 分鐘），同時產生了最徹底的輸出。當規範嚴格時保持簡潔，當徹底性很重要時寫更多。
由於 JSDoc 註解、驗證邏輯、錯誤處理和明確類型定義， GPT-5.1 始終比 Gemini 編寫多 1.5-1.8 倍的程式碼。
Gemini 總體上是最便宜的，但實際上在複雜的系統任務中成本超過了 GPT
- 看起來即使輸出較短，它也會「思考」更長的時間。
Opus 是最貴的，但如果您需要在第一次嘗試時完成完整的實現，那可能是值得的。

參考

https://blog.kilo.ai/p/benchmarking-gpt-51-vs-gemini-30-vs-opus-45

https://www.reddit.com/r/ClaudeAI/comments/1p78cci/comparing_gpt51_vs_gemini_30_vs_opus_45_across_3/?tl=zh-hant