微軟研究發現AI除錯失靈！Claude與OpenAI模型解Bug成效差強人意

商傳媒｜記者責任編輯／綜合外電報導

Google執行長皮查伊（Sundar Pichai）指出，該公司目前有25%的新程式碼已由AI生成，Meta執行長祖克柏（Mark Zuckerberg）也公開宣示將全面部署AI編程工具。在科技巨頭爭相將「AI自動撰寫程式」導入產業應用的年代，科技媒體《TechCrunch》報導披露，一項由微軟研究部門（Microsoft Research）主導的分析卻揭示，當前最頂尖的AI模型在「除錯」表現方面仍遠遜於人類工程師。

微軟研究團隊以包含Anthropic的Claude 3.7 Sonnet與OpenAI的o3-mini在內的9種語言模型為測試對象，構建一個單一提示驅動（prompt-based）的AI代理系統，並賦予其多種除錯工具，如：Python除錯器，該系統被要求解決來自SWE-bench Lite基準的300項真實除錯任務，涵蓋程式錯誤識別、修復與邏輯調整。

結果顯示，表現最好的Claude 3.7 Sonnet僅完成48.4%的任務，OpenAI o1與o3-mini的成功率則分別落在30.2%與22.1%，明顯無法達到業界可接受的標準。研究團隊坦言，即便模型能力已大幅提升，距離實用除錯工具仍有相當落差。

造成低效能的主因之一，是模型在使用除錯工具時難以正確選擇並應用不同工具對應問題情境，反映其在序列化決策過程中的理解力仍有限。研究作者指出，當前AI訓練資料中，缺乏足夠的「人類除錯軌跡」（debugging trajectory）數據，是導致學習瓶頸的關鍵。

這項結果正呼應業界對AI撰寫程式工具的安全疑慮。例如AI開發平台Replit旗下的Devin模型，在20項程式測試中僅完成3項，顯示即便能生成語法正確的代碼，其邏輯完整性與維護性仍然堪慮。

專家建議，企業在導入AI輔助開發工具時，應審慎評估模型在「除錯、架構設計與安全性檢核」等方面的限制，並善用資深工程師進行二次審查，避免「系統性漏洞」導致將來造成更大損失。

資料來源：https://sunmedia.tw/news/technology/%E5%BE%AE%E8%BB%9F%E7%A0%94%E7%A9%B6%E7%99%BC%E7%8F%BEAI%E9%99%A4%E9%8C%AF%E5%A4%B1%E9%9D%88%EF%BC%81Claude%E8%88%87OpenAI%E6%A8%A1%E5%9E%8B%E8%A7%A3Bug%E6%88%90%E6%95%88%E5%B7%AE%E5%BC%B7%E4%BA%BA%E6%84%8F-1744357184459

What's Hot

臺東泰國首班直航班機 12日搭載泰國遊客降落臺東

展現社區產業特色「宜蘭流域藝術季」發表四條農旅路線

打擊登革熱　竹市全民總動員！邱臣遠與市民一同清除孳生源守護健康

微軟研究發現AI除錯失靈！Claude與OpenAI模型解Bug成效差強人意

打造品牌競爭力 4/18新北群募輔導徵件說明會揭密實戰心法

屏東好物前進新加坡　廠商歡喜接單　滿滿商機無限大

2025資產關鍵年倫敦核心地段正當時！CBRE世邦魏理仕推廣英國置產

What's Hot

臺東泰國首班直航班機 12日搭載泰國遊客降落臺東

展現社區產業特色 「宜蘭流域藝術季」發表四條農旅路線

打擊登革熱 竹市全民總動員！邱臣遠與市民一同清除孳生源 守護健康

微軟研究發現AI除錯失靈！Claude與OpenAI模型解Bug成效差強人意

相關文章

打造品牌競爭力 4/18新北群募輔導徵件說明會揭密實戰心法

屏東好物前進新加坡 廠商歡喜接單 滿滿商機無限大

2025資產關鍵年 倫敦核心地段正當時！CBRE世邦魏理仕推廣英國置產

展現社區產業特色「宜蘭流域藝術季」發表四條農旅路線

打擊登革熱　竹市全民總動員！邱臣遠與市民一同清除孳生源守護健康

屏東好物前進新加坡　廠商歡喜接單　滿滿商機無限大

2025資產關鍵年倫敦核心地段正當時！CBRE世邦魏理仕推廣英國置產