商傳媒|記者責任編輯/綜合外電報導
AI發展進入戰國時代,從OpenAI、Google到新創企業如xAI、Anthropic與Cohere,各大企業正加速推出次世代人工智慧模型,應用範圍涵蓋:影像生成、推理、程式撰寫、資料檢索及個人助理等多項應用工具,堪稱是AI應用的爆發年。根據科技媒體《TechCrunch》報導分析,目前已有超過10款具代表性的主力AI模型問世,市占爭霸排行越來越激烈。
OpenAI「超進化」系列:從GPT-4o到Operator
OpenAI近期推出多款模型引發話題,其中GPT-4o升級為具備影像生成功能的版本,可將人物照片轉為「吉卜力風格」動畫,廣受網友瘋傳;同時也引發潛在的版權爭議。目前該功能僅限訂閱ChatGPT Plus(每月20美元)以上的用戶使用。
更高階的GPT-4.5 Orion與Deep Research,則鎖定重度專業用戶,前者強調「世界知識與情緒智商」,後者則主打帶有清楚出處的研究型回應,但均需200美元/月的Pro訂閱方案。此外,OpenAI推出的AI代理人「Operator」能主動執行任務,包括代購日用品等;不過目前仍屬實驗階段,且曾因「誤下高價訂單」而引發用戶疑慮。
Google Gemini 2.5與2.0:強攻推理與長文本處理
Google方面,Gemini 2.5 Pro Experimental專攻AI代理應用與網頁建構,被視為挑戰OpenAI主力工具的武器,月費方案與ChatGPT相當。Google早先釋出的Gemini 2.0擁有驚人的200萬字元上下文處理能力,特別適合文獻摘要、學術應用。Google也推出名為Gemini Deep Research的搜尋增強模型,整合搜尋結果並自動生成摘要,雖然內容仍難媲美學術論文品質,但已成為學生族群熱門工具。
xAI Grok系列:強調數理邏輯與政治中立
由馬斯克創辦的xAI推出Grok 3,聲稱在數學、科學與程式設計上超越主流模型,需訂閱X Premium(每月50美元)才能使用;馬斯克並承諾將其調整為追求「政治中立」。xAI前作Grok 2與影像生成模型Aurora亦引發關注,後者甚至可產出近乎寫實的暴力或戲劇場景。
Anthropic Claude系列與Cohere Aya Vision:多模態戰開打
Anthropic近期推出Claude Sonnet 3.7,被稱為首款「混合推理模型」,可快速回應也能深度思考,並允許使用者控制思考時間;而先前推出的Claude Computer Use更可遠端操作電腦執行任務,類似OpenAI的Operator雛形。
Cohere則以Aya Vision主打影像理解與多語言能力,特別強調非英語市場應用,並可透過WhatsApp免費使用。其旗下Command R+專精於企業級文件檢索(RAG),雖仍有幻覺問題,但精確度表現優異。
開源陣營續擴大:Meta、Mistral、DeepSeek免費釋出模型
Meta釋出的Llama 3.3 70B與中國DeepSeek推出的R1,分別為歐美與亞洲代表性開源模型,前者強調效率與數學能力,後者則因其開放特性與免費使用在矽谷造成轟動。法國新創Mistral亦推出Le Chat應用程式版本,強調回應速度與法新社新聞串接,進軍聊天助理市場。
儘管這些模型各有特色,但也暴露出生成式AI存在「幻覺、授權、安全性與使用門檻」上的各種挑戰。例如OpenAI的Operator與Deep Research功能雖強大,但價格不菲;而開源模型如Qwen QwQ表現雖亮眼,卻因中國審查機制遭到多國排除。
2025年,生成式AI進入多模態與應用深化的新紀元,大型語言模型(LLM)從「文字生成」走向「任務完成」,用途橫跨教育、商務、設計與研究;與此同時,科技巨擘要如何平衡技術創新與實務可用性、商業授權與資料安全等多元面向,將成為接下來一年的關鍵議題。