在 3 個編碼任務中比較 GPT-5.1 與 Gemini 3.0 與 Opus 4.5
📅 1/23/2026#Web#Tool#SEO#AI#Other
測試
- 提示遵守: 要求使用具有 10 個特定要求(確切的類別名稱、錯誤訊息等)的 Python 速率限制器。
- 程式碼重構:為他們帶來了一個混亂的遺留 API,存在安全漏洞和不良做法。想看看他們是否會發現問題並修復架構,以及他們是否會添加我們未明確要求的保護措施。
- 系統擴充: 移交了部分通知系統,並要求他們先解釋架構,然後再新增電子郵件處理程序。在實施之前測試理解力。
結果
迅速遵守
- Gemini 3.0最嚴格地遵循指示。
- Opus 保持接近規範,並提供更清晰的文件。
- GPT-5.1 進入防禦模式 - 新增了未要求的驗證和保護措施。

程式碼重構(TypeScript API)
- Opus 提供了最完整的重構(全部 10 項要求)。
- GPT-5.1 達到 9/10,發現安全性問題,例如缺少身份驗證和不安全的資料庫操作。
- Gemini 的得分為 8/10,輸出更乾淨、更快,但錯過了一些架構缺陷。

系統擴充
- Opus 為每種事件類型提供了最完整的解決方案和範本。
- GPT-5.1 深入理解階段(識別錯誤、創建圖表),然後構建了豐富的功能,例如 CC/BCC 和附件。
- Gemini 了解基礎知識,但提供了「最低限度」版本。

重點
- Opus 整體來說是最快的(總共 7 分鐘),同時產生了最徹底的輸出。當規範嚴格時保持簡潔,當徹底性很重要時寫更多。
- 由於 JSDoc 註解、驗證邏輯、錯誤處理和明確類型定義, GPT-5.1 始終比 Gemini 編寫多 1.5-1.8 倍的程式碼。
- Gemini 總體上是最便宜的,但實際上在複雜的系統任務中成本超過了 GPT
- 看起來即使輸出較短,它也會「思考」更長的時間。
- Opus 是最貴的,但如果您需要在第一次嘗試時完成完整的實現,那可能是值得的。
參考
https://blog.kilo.ai/p/benchmarking-gpt-51-vs-gemini-30-vs-opus-45