實測五大 AI 聊天工具
上一篇文章「2024 五款 AI 聊天機器人 : 選擇最適合你的智慧助理」已經介紹了五大 AI 聊天工具的特色。為了更深入驗證與比較 Perplexity、ChatGPT、Microsoft Copilot、Gemini 和 Claude 五大 AI 聊天工具的表現,我準備了以下三個測試問題,涵蓋 資訊檢索、文字創作和程式碼生成 三大領域,而且這些問題都是這五大 AI 免費版就有提供的通用功能。以下是每個工具的實測結果和比較。
測試問題
在開始問問題前,問題都會先請它用中文回答,藉以順便測試中文的理解能力。
資訊檢索:
- 請告訴我 Netflix 本日台灣前三名戲劇節目。
- 請告訴我台中路思義教堂在哪與周邊景點介紹。
- 請告訴我台南成大校園周邊必吃小餐館三個推薦。
第一題是即時資訊查詢,根據 2024/12/2查詢的三名是「現在撥打的電話」、「一箱情緣」、「影后」,可以用來驗證答案。
文字創作:
- 給我十個適合獨旅的女子中文頻道命名。"
- 給我三個適合漢堡餐車的三個字中文品牌命名,主打黑色竹炭堡與牛肉。
- 給我400字小故事,描述疫情時一家烤肉店餐館老闆心情,充滿溫暖人心的力量。
程式碼生成:
"給我一個用純 css 的按鈕樣式,具有好看的奶茶配色與文青質感。"
這邊先舉一個簡單的前端網頁要求,看它是不是配合要求生成樣式與風格。
1. ChatGPT:多功能助手,涵蓋範圍廣泛
- 資訊檢索:如果使用基礎模型 GPT-4o mini 情況下:ChatGPT 第一個告知無法查到即時數據,但還是給出不存在與舊時代的劇名,第二個問題給了錯誤地址,第三個問題也給了部分不存在的餐館,看來基礎模型的資料錯誤率很高?但如果使用 GPT-4o 模型正確率會比較高,都會是真實存在的餐廳與景點,但戲劇的資料即時性還是稍微不太準確,但也是近期的熱門影片沒錯。
- 文字創作:品牌命名稍微大眾化,但還是切合主題。故事寫作非常流暢舒適,但感動的成分稍微薄弱。
- 程式碼生成:ChatGPT 提供了簡潔的 css與 html 的程式碼,而且符合我要求的文青感風格,實際上也可以用喔!GPT-4o 模型質感稍微好一點,可以感受一下。
評價:ChatGPT 在各方面表現非常出色,特別是在文字創作與程式碼生成方面,能夠快速提供文案發想。而在資料檢索方面 GPT-4o 模型比GPT-4o mini 正確率高上許多!要小心回答會給你看似合理卻錯誤的情報喔!請記得驗證才是。
2. Microsoft Copilot:提高工作效率的專業工具
- 資訊檢索:Microsoft Copilot 提供了 Netflix 過時的戲劇,不過都是有名的熱門戲劇。但是景點跟美食都是錯誤資訊,還解說的有模有樣,似乎是在自我創作了,也沒有模型可以切換,不過如果糾正它再問一次,竟然就正確了!穩定性有待提升。
- 文字創作:提供的品牌命名雖然較為常見,但仍然與主題契合。小故事創作流暢,但創作的故事似乎與前面的對話有關聯。
- 程式碼生成:生成的按鈕範例簡潔,符合要求的文青感風格,實際上也可以用!
評價:Microsoft Copilot 在文字創作與程式碼生成方面表現優異,但在資料檢索上會給出錯誤的答案,雖然似乎會自我修正,但難以辨識是否正確。網頁介面上似乎沒有其他更好的模型可以選擇。
3. Gemini:結合 google 應用與完整回覆
- 資訊檢索:Gemini 沒有回應關於今日 Netflix 戲劇排行前三名,不過能夠引導用戶進一步自行搜尋相關內容,甚至告訴你為何不能回答。而第二題景點地址回答正確,周邊景點介紹還搭配圖片補助,另外如果精確的要求地址,他還會內嵌 google 地圖與連結供你參考,這實在太便利了。不過第三題回答周邊美食就出錯了,給出了評價低或不存在的餐館,還回答得煞有其事!?
- 文字創作:不僅僅給出品牌名稱,還進一步分析與給出其他建議,不過不知道為什麼要求三個字有時會沒有遵循規範,再問一下即可。而小故事方面雖然故事起頭跟其他回答差不多,但我個人感覺劇情走向似乎比較觸動人心。
- 程式碼生成:程式碼似乎過於簡潔,但給出更多可自行客製化解說。給出的樣式偏簡單,但還是可以給出正確程式碼。
評價:在文字創作與完整的解釋表現出色,更有專業的感覺。對於資料檢索的回答也還不錯,雖然仍有時會不正確的資訊。
2024/12/12 推出了Gemini 2.0,這篇測試是以Gemini 1.5 模型為主,未來有時間再重新實驗看看。
4. Claude:穩定且舒適的選擇
回答的風格會有四種可選,預設選擇 normal 進行測試。
資訊檢索:針對第一個問題,Claude 明確說明無法提供即時資訊,但提供了你自行查詢的說明。但景點與美食問題,看起來都是自行創作出來的答案,內容參雜正確與錯誤資訊。
- 文字創作:正確給出命名且名稱稍微獨特有創意,小故事符合主題需求。
- 程式碼生成:Claude 提供了程式碼與簡易說明,並會將程式碼整理在另一個分隔視窗上,頁面上看起來更整潔,產生的按鈕樣式也很有質感喔!
評價:適合需要穩定和簡潔回答的用戶,回覆與程式碼問題的排版都很舒適。
5. Perplexity:快速資料檢索與基礎內容創作
- 資訊檢索:Perplexity 回答了 Netflix 的過去的熱門排行,附上了參考來源,並告訴你可以詢問相關的問題,例如「Netflix 本日Top10」,你可以進一步詢問。而景點與美食皆回答正確,不過都是根據過去的網路文章整理而成,右上角也會附上圖片與地圖參考,資料檢索的專業度很高呢,有一點像是搜尋的整理回覆。
- 文字創作:正確給出品牌名稱與故事,回答簡潔,符合主題需求,雖然它有提供選項焦點可改為「寫作」,但回覆看起來差不多。
- 程式碼生成:看起來有參考來源,雖然也可以產生出好看的按鈕,但給的語法沒那麼簡潔,且配色是粉色不符合需求,但重複要求後可以生成正確的配色。
評價:適合快速查詢資料與基本的內容創作,對於程式碼生成表現較弱。
綜合評價與推薦
實測問題評比
以下是個人將這三個實測問題列成比較表格,可以看到在資料檢索方面,竟然會含有這麼多錯誤資訊,真的要小心不要被誤導了,而 Perplexity 因為有參考來源,資料的正確率比較高喔!而文字創作上,五大 AI 工具都表現得不錯,不過品牌名稱等命名,Claude我覺得會給出比較獨特的答案,另外小故事生成,我覺得 Gemini 更打動我心一點!最後一個程式碼生成,由於問題是蠻簡單的入門問題,各大 AI 工具只有Perplexity 沒辦法符合要求,其他都可以正確產生對應程式碼喔!都蠻滿意的。
總結
- ChatGPT:在文字創作與程式碼生成表現很好,資料檢索偶有錯誤資料,但免費額度使用到的進階模型正確率有提升。
- Microsoft Copilot:在文字創作與程式碼生成表現很好,但資料檢索上有錯誤資訊。
- Gemini:位置查詢與 google 地圖整合,提高了準確度,在故事創作與分析回覆良好,更有專業感。
- Claude:提供穩定的回答,排版舒適,程式碼生成問題表現良好。
- Perplexity:適合查找快速資訊,資料檢索表現優異,尤其在需要直接的數據或引用資料時表現良好,但程式碼生成理解感覺較弱。
總結來看,各個 AI 工具更有自己的優勢,你可以根據實際需求選擇合適的工具,讓你更高效地處理資訊檢索、文字創作和程式碼生成任務。
注意:以上測試日期為2024/12/02 結果,回覆結果有可能因為時間、模型演化、進階選項、詢問問題與再次訓練而有所不同,僅作為參考,你也可以自行驗證看看喔!