2024 免費版 AI 競爭：五大機器人功能全面 PK。沒想到查詢錯誤率這麼高！

更新於 2024/12/17發佈於 2024/12/03閱讀時間約 8 分鐘

實測五大 AI 聊天工具

上一篇文章「2024 五款 AI 聊天機器人 : 選擇最適合你的智慧助理」已經介紹了五大 AI 聊天工具的特色。為了更深入驗證與比較 Perplexity、ChatGPT、Microsoft Copilot、Gemini 和 Claude 五大 AI 聊天工具的表現，我準備了以下三個測試問題，涵蓋 資訊檢索、文字創作和程式碼生成 三大領域，而且這些問題都是這五大 AI 免費版就有提供的通用功能。以下是每個工具的實測結果和比較。

測試問題

在開始問問題前，問題都會先請它用中文回答，藉以順便測試中文的理解能力。

資訊檢索：

1. 請告訴我 Netflix 本日台灣前三名戲劇節目。
2. 請告訴我台中路思義教堂在哪與周邊景點介紹。
3. 請告訴我台南成大校園周邊必吃小餐館三個推薦。

第一題是即時資訊查詢，根據 2024/12/2查詢的三名是「現在撥打的電話」、「一箱情緣」、「影后」，可以用來驗證答案。

文字創作：

1. 給我十個適合獨旅的女子中文頻道命名。"
2. 給我三個適合漢堡餐車的三個字中文品牌命名，主打黑色竹炭堡與牛肉。
3. 給我400字小故事，描述疫情時一家烤肉店餐館老闆心情，充滿溫暖人心的力量。

程式碼生成：

"給我一個用純 css 的按鈕樣式，具有好看的奶茶配色與文青質感。"

這邊先舉一個簡單的前端網頁要求，看它是不是配合要求生成樣式與風格。

1. ChatGPT：多功能助手，涵蓋範圍廣泛

資訊檢索：如果使用基礎模型 GPT-4o mini 情況下：ChatGPT 第一個告知無法查到即時數據，但還是給出不存在與舊時代的劇名，第二個問題給了錯誤地址，第三個問題也給了部分不存在的餐館，看來基礎模型的資料錯誤率很高？但如果使用 GPT-4o 模型正確率會比較高，都會是真實存在的餐廳與景點，但戲劇的資料即時性還是稍微不太準確，但也是近期的熱門影片沒錯。

ChatGPT 資料檢索與模型切換

文字創作：品牌命名稍微大眾化，但還是切合主題。故事寫作非常流暢舒適，但感動的成分稍微薄弱。
程式碼生成：ChatGPT 提供了簡潔的 css與 html 的程式碼，而且符合我要求的文青感風格，實際上也可以用喔！GPT-4o 模型質感稍微好一點，可以感受一下。

ChatGPT 文字創作與程式碼

評價：ChatGPT 在各方面表現非常出色，特別是在文字創作與程式碼生成方面，能夠快速提供文案發想。而在資料檢索方面 GPT-4o 模型比GPT-4o mini 正確率高上許多！要小心回答會給你看似合理卻錯誤的情報喔！請記得驗證才是。

2. Microsoft Copilot：提高工作效率的專業工具

資訊檢索：Microsoft Copilot 提供了 Netflix 過時的戲劇，不過都是有名的熱門戲劇。但是景點跟美食都是錯誤資訊，還解說的有模有樣，似乎是在自我創作了，也沒有模型可以切換，不過如果糾正它再問一次，竟然就正確了！穩定性有待提升。

Copilot 資料檢索回答

文字創作：提供的品牌命名雖然較為常見，但仍然與主題契合。小故事創作流暢，但創作的故事似乎與前面的對話有關聯。
程式碼生成：生成的按鈕範例簡潔，符合要求的文青感風格，實際上也可以用！

Copilot 文字創作與程式碼

評價：Microsoft Copilot 在文字創作與程式碼生成方面表現優異，但在資料檢索上會給出錯誤的答案，雖然似乎會自我修正，但難以辨識是否正確。網頁介面上似乎沒有其他更好的模型可以選擇。

3. Gemini：結合 google 應用與完整回覆

資訊檢索：Gemini 沒有回應關於今日 Netflix 戲劇排行前三名，不過能夠引導用戶進一步自行搜尋相關內容，甚至告訴你為何不能回答。而第二題景點地址回答正確，周邊景點介紹還搭配圖片補助，另外如果精確的要求地址，他還會內嵌 google 地圖與連結供你參考，這實在太便利了。不過第三題回答周邊美食就出錯了，給出了評價低或不存在的餐館，還回答得煞有其事！？

Gemini 資料檢索回答

文字創作：不僅僅給出品牌名稱，還進一步分析與給出其他建議，不過不知道為什麼要求三個字有時會沒有遵循規範，再問一下即可。而小故事方面雖然故事起頭跟其他回答差不多，但我個人感覺劇情走向似乎比較觸動人心。
程式碼生成：程式碼似乎過於簡潔，但給出更多可自行客製化解說。給出的樣式偏簡單，但還是可以給出正確程式碼。

Gemini 文字創作與程式碼

評價：在文字創作與完整的解釋表現出色，更有專業的感覺。對於資料檢索的回答也還不錯，雖然仍有時會不正確的資訊。

2024/12/12 推出了Gemini 2.0，這篇測試是以Gemini 1.5 模型為主，未來有時間再重新實驗看看。

4. Claude：穩定且舒適的選擇
回答的風格會有四種可選，預設選擇 normal 進行測試。

資訊檢索：針對第一個問題，Claude 明確說明無法提供即時資訊，但提供了你自行查詢的說明。但景點與美食問題，看起來都是自行創作出來的答案，內容參雜正確與錯誤資訊。

Claude 資料檢索回答

文字創作：正確給出命名且名稱稍微獨特有創意，小故事符合主題需求。
程式碼生成：Claude 提供了程式碼與簡易說明，並會將程式碼整理在另一個分隔視窗上，頁面上看起來更整潔，產生的按鈕樣式也很有質感喔！

Claude 文字創作與程式碼

評價：適合需要穩定和簡潔回答的用戶，回覆與程式碼問題的排版都很舒適。

5. Perplexity：快速資料檢索與基礎內容創作

資訊檢索：Perplexity 回答了 Netflix 的過去的熱門排行，附上了參考來源，並告訴你可以詢問相關的問題，例如「Netflix 本日Top10」，你可以進一步詢問。而景點與美食皆回答正確，不過都是根據過去的網路文章整理而成，右上角也會附上圖片與地圖參考，資料檢索的專業度很高呢，有一點像是搜尋的整理回覆。

Perplexity 資料檢索回答

文字創作：正確給出品牌名稱與故事，回答簡潔，符合主題需求，雖然它有提供選項焦點可改為「寫作」，但回覆看起來差不多。
程式碼生成：看起來有參考來源，雖然也可以產生出好看的按鈕，但給的語法沒那麼簡潔，且配色是粉色不符合需求，但重複要求後可以生成正確的配色。

Perplexity 文字創作與程式碼

評價：適合快速查詢資料與基本的內容創作，對於程式碼生成表現較弱。

綜合評價與推薦

實測問題評比

以下是個人將這三個實測問題列成比較表格，可以看到在資料檢索方面，竟然會含有這麼多錯誤資訊，真的要小心不要被誤導了，而 Perplexity 因為有參考來源，資料的正確率比較高喔！而文字創作上，五大 AI 工具都表現得不錯，不過品牌名稱等命名，Claude我覺得會給出比較獨特的答案，另外小故事生成，我覺得 Gemini 更打動我心一點！最後一個程式碼生成，由於問題是蠻簡單的入門問題，各大 AI 工具只有Perplexity 沒辦法符合要求，其他都可以正確產生對應程式碼喔！都蠻滿意的。