2024 免費版 AI 競爭:五大機器人功能全面 PK。沒想到查詢錯誤率這麼高!

更新 發佈閱讀 8 分鐘

實測五大 AI 聊天工具

上一篇文章「2024 五款 AI 聊天機器人 : 選擇最適合你的智慧助理」已經介紹了五大 AI 聊天工具的特色。為了更深入驗證與比較 Perplexity、ChatGPT、Microsoft Copilot、Gemini 和 Claude 五大 AI 聊天工具的表現,我準備了以下三個測試問題,涵蓋 資訊檢索、文字創作和程式碼生成 三大領域,而且這些問題都是這五大 AI 免費版就有提供的通用功能。以下是每個工具的實測結果和比較。


測試問題

在開始問問題前,問題都會先請它用中文回答,藉以順便測試中文的理解能力。


資訊檢索:

    1. 請告訴我 Netflix 本日台灣前三名戲劇節目。
    2. 請告訴我台中路思義教堂在哪與周邊景點介紹。
    3. 請告訴我台南成大校園周邊必吃小餐館三個推薦。

第一題是即時資訊查詢,根據 2024/12/2查詢的三名是「現在撥打的電話」、「一箱情緣」、「影后」,可以用來驗證答案。

文字創作:

    1. 給我十個適合獨旅的女子中文頻道命名。"
    2. 給我三個適合漢堡餐車的三個字中文品牌命名,主打黑色竹炭堡與牛肉。
    3. 給我400字小故事,描述疫情時一家烤肉店餐館老闆心情,充滿溫暖人心的力量。


程式碼生成:

"給我一個用純 css 的按鈕樣式,具有好看的奶茶配色與文青質感。"

這邊先舉一個簡單的前端網頁要求,看它是不是配合要求生成樣式與風格。



1. ChatGPT:多功能助手,涵蓋範圍廣泛

  • 資訊檢索:如果使用基礎模型 GPT-4o mini 情況下:ChatGPT 第一個告知無法查到即時數據,但還是給出不存在與舊時代的劇名,第二個問題給了錯誤地址,第三個問題也給了部分不存在的餐館,看來基礎模型的資料錯誤率很高?但如果使用 GPT-4o 模型正確率會比較高,都會是真實存在的餐廳與景點,但戲劇的資料即時性還是稍微不太準確,但也是近期的熱門影片沒錯。


ChatGPT 資料檢索與模型切換

ChatGPT 資料檢索與模型切換


  • 文字創作:品牌命名稍微大眾化,但還是切合主題。故事寫作非常流暢舒適,但感動的成分稍微薄弱。
  • 程式碼生成:ChatGPT 提供了簡潔的 css與 html 的程式碼,而且符合我要求的文青感風格,實際上也可以用喔!GPT-4o 模型質感稍微好一點,可以感受一下。
ChatGPT 文字創作與程式碼

ChatGPT 文字創作與程式碼


評價:ChatGPT 在各方面表現非常出色,特別是在文字創作與程式碼生成方面,能夠快速提供文案發想。而在資料檢索方面 GPT-4o 模型比GPT-4o mini 正確率高上許多!要小心回答會給你看似合理卻錯誤的情報喔!請記得驗證才是。



2. Microsoft Copilot:提高工作效率的專業工具

  • 資訊檢索:Microsoft Copilot 提供了 Netflix 過時的戲劇,不過都是有名的熱門戲劇。但是景點跟美食都是錯誤資訊,還解說的有模有樣,似乎是在自我創作了,也沒有模型可以切換,不過如果糾正它再問一次,竟然就正確了!穩定性有待提升。
Copilot 資料檢索回答

Copilot 資料檢索回答


  • 文字創作:提供的品牌命名雖然較為常見,但仍然與主題契合。小故事創作流暢,但創作的故事似乎與前面的對話有關聯。
  • 程式碼生成:生成的按鈕範例簡潔,符合要求的文青感風格,實際上也可以用!


Copilot 文字創作與程式碼

Copilot 文字創作與程式碼


評價:Microsoft Copilot 在文字創作程式碼生成方面表現優異,但在資料檢索上會給出錯誤的答案,雖然似乎會自我修正,但難以辨識是否正確。網頁介面上似乎沒有其他更好的模型可以選擇。


3. Gemini:結合 google 應用與完整回覆

  • 資訊檢索:Gemini 沒有回應關於今日 Netflix 戲劇排行前三名,不過能夠引導用戶進一步自行搜尋相關內容,甚至告訴你為何不能回答。而第二題景點地址回答正確,周邊景點介紹還搭配圖片補助,另外如果精確的要求地址,他還會內嵌 google 地圖與連結供你參考,這實在太便利了。不過第三題回答周邊美食就出錯了,給出了評價低或不存在的餐館,還回答得煞有其事!?
Gemini 資料檢索回答

Gemini 資料檢索回答


  • 文字創作:不僅僅給出品牌名稱,還進一步分析與給出其他建議,不過不知道為什麼要求三個字有時會沒有遵循規範,再問一下即可。而小故事方面雖然故事起頭跟其他回答差不多,但我個人感覺劇情走向似乎比較觸動人心。
  • 程式碼生成:程式碼似乎過於簡潔,但給出更多可自行客製化解說。給出的樣式偏簡單,但還是可以給出正確程式碼。



Gemini 文字創作與程式碼

Gemini 文字創作與程式碼


評價:在文字創作與完整的解釋表現出色,更有專業的感覺。對於資料檢索的回答也還不錯,雖然仍有時會不正確的資訊。

2024/12/12 推出了Gemini 2.0,這篇測試是以Gemini 1.5 模型為主,未來有時間再重新實驗看看。



4. Claude:穩定且舒適的選擇
回答的風格會有四種可選,預設選擇 normal 進行測試。

資訊檢索:針對第一個問題,Claude 明確說明無法提供即時資訊,但提供了你自行查詢的說明。但景點與美食問題,看起來都是自行創作出來的答案,內容參雜正確與錯誤資訊。

Claude 資料檢索回答

Claude 資料檢索回答


  • 文字創作:正確給出命名且名稱稍微獨特有創意,小故事符合主題需求。
  • 程式碼生成:Claude 提供了程式碼與簡易說明,並會將程式碼整理在另一個分隔視窗上,頁面上看起來更整潔,產生的按鈕樣式也很有質感喔!
Claude 文字創作與程式碼

Claude 文字創作與程式碼


評價:適合需要穩定和簡潔回答的用戶,回覆與程式碼問題的排版都很舒適。



5. Perplexity:快速資料檢索與基礎內容創作

  • 資訊檢索:Perplexity 回答了 Netflix 的過去的熱門排行,附上了參考來源,並告訴你可以詢問相關的問題,例如「Netflix 本日Top10」,你可以進一步詢問。而景點與美食皆回答正確,不過都是根據過去的網路文章整理而成,右上角也會附上圖片與地圖參考,資料檢索的專業度很高呢,有一點像是搜尋的整理回覆。
Perplexity 資料檢索回答

Perplexity 資料檢索回答


  • 文字創作:正確給出品牌名稱與故事,回答簡潔,符合主題需求,雖然它有提供選項焦點可改為「寫作」,但回覆看起來差不多。
  • 程式碼生成:看起來有參考來源,雖然也可以產生出好看的按鈕,但給的語法沒那麼簡潔,且配色是粉色不符合需求,但重複要求後可以生成正確的配色。


Perplexity 文字創作與程式碼

Perplexity 文字創作與程式碼


評價:適合快速查詢資料與基本的內容創作,對於程式碼生成表現較弱。


綜合評價與推薦

實測問題評比

以下是個人將這三個實測問題列成比較表格,可以看到在資料檢索方面,竟然會含有這麼多錯誤資訊,真的要小心不要被誤導了,而 Perplexity 因為有參考來源,資料的正確率比較高喔!而文字創作上,五大 AI 工具都表現得不錯,不過品牌名稱等命名,Claude我覺得會給出比較獨特的答案,另外小故事生成,我覺得 Gemini 更打動我心一點!最後一個程式碼生成,由於問題是蠻簡單的入門問題,各大 AI 工具只有Perplexity 沒辦法符合要求,其他都可以正確產生對應程式碼喔!都蠻滿意的。

2024 免費版 AI 功能 PK 整理表格

2024 免費版 AI 功能 PK 整理表格

總結

  • ChatGPT在文字創作與程式碼生成表現很好,資料檢索偶有錯誤資料,但免費額度使用到的進階模型正確率有提升。
  • Microsoft Copilot在文字創作與程式碼生成表現很好,但資料檢索上有錯誤資訊。
  • Gemini:位置查詢與 google 地圖整合,提高了準確度,在故事創作與分析回覆良好,更有專業感
  • Claude:提供穩定的回答,排版舒適,程式碼生成問題表現良好
  • Perplexity:適合查找快速資訊,資料檢索表現優異,尤其在需要直接的數據或引用資料時表現良好,但程式碼生成理解感覺較弱。

總結來看,各個 AI 工具更有自己的優勢,你可以根據實際需求選擇合適的工具,讓你更高效地處理資訊檢索、文字創作和程式碼生成任務。


注意:以上測試日期為2024/12/02 結果,回覆結果有可能因為時間、模型演化、進階選項、詢問問題與再次訓練而有所不同,僅作為參考,你也可以自行驗證看看喔!



留言
avatar-img
留言分享你的想法!
avatar-img
App Lab 數位研究室
46會員
32內容數
嗨!I'm Rin 梨子,喜好研究各種數位科技,同時又愛好看劇、偶爾看看書,這裡會不定期分享實用的數位工具與資訊、溫暖且動人的作品與各種生活新知(如果有的話)。
2025/04/17
下載 Memo AI 2.填寫信箱獲取邀請碼 開始使用👏 功能一:輕鬆將 YouTube 視頻、播客等轉為文字稿。 在 folder 下新增一個專案後,貼上要語音偵測文字的 YouTube 影片網址,開始進行模型設定,按下語音轉文字即可。 注意:如何出現“模型未下載”的錯
Thumbnail
2025/04/17
下載 Memo AI 2.填寫信箱獲取邀請碼 開始使用👏 功能一:輕鬆將 YouTube 視頻、播客等轉為文字稿。 在 folder 下新增一個專案後,貼上要語音偵測文字的 YouTube 影片網址,開始進行模型設定,按下語音轉文字即可。 注意:如何出現“模型未下載”的錯
Thumbnail
2025/04/12
🧠 DeepSeek:從中國出發的潛力 AI 新星 近年來,全球 AI 聊天機器人競爭激烈,除了大家熟悉的 ChatGPT、Claude、Gemini 等選手,一個來自中國的名字——DeepSeek,也悄悄引起了廣泛關注。那麼,DeepSeek 是誰?為什麼能快速竄紅?讓我們來簡單認識這位新進的
Thumbnail
2025/04/12
🧠 DeepSeek:從中國出發的潛力 AI 新星 近年來,全球 AI 聊天機器人競爭激烈,除了大家熟悉的 ChatGPT、Claude、Gemini 等選手,一個來自中國的名字——DeepSeek,也悄悄引起了廣泛關注。那麼,DeepSeek 是誰?為什麼能快速竄紅?讓我們來簡單認識這位新進的
Thumbnail
2024/12/24
想把文字變成夢幻般的藝術作品嗎?Ideogram 是一個輕鬆上手的 AI 創作工具,幫助你將文字轉換為個性化的圖像。無論你是設計師、創作者,還是對藝術有興趣的朋友,這個工具都能讓你輕鬆創作出不一樣的視覺效果,展現無限創意! 🛠️ 特色功能: 輕鬆套用 Ideogram 讓任何人都能輕鬆上手!只
Thumbnail
2024/12/24
想把文字變成夢幻般的藝術作品嗎?Ideogram 是一個輕鬆上手的 AI 創作工具,幫助你將文字轉換為個性化的圖像。無論你是設計師、創作者,還是對藝術有興趣的朋友,這個工具都能讓你輕鬆創作出不一樣的視覺效果,展現無限創意! 🛠️ 特色功能: 輕鬆套用 Ideogram 讓任何人都能輕鬆上手!只
Thumbnail
看更多
你可能也想看
Thumbnail
實測五大 AI 聊天工具 上一篇文章「2024 五款 AI 聊天機器人 : 選擇最適合你的智慧助理」已經介紹了五大 AI 聊天工具的特色。為了更深入驗證與比較 Perplexity、ChatGPT、Microsoft Copilot、Gemini 和 Claude 五大 AI 聊天工具的表現,我準
Thumbnail
實測五大 AI 聊天工具 上一篇文章「2024 五款 AI 聊天機器人 : 選擇最適合你的智慧助理」已經介紹了五大 AI 聊天工具的特色。為了更深入驗證與比較 Perplexity、ChatGPT、Microsoft Copilot、Gemini 和 Claude 五大 AI 聊天工具的表現,我準
Thumbnail
前幾天OpenAI舉行開發者大會,最大亮點是執行長Sam Altman宣布,ChatGPT將開放客製化「聊天機器人」功能,任何聊天機器人都能自製。 雖然他舉的例子是孩子的玩伴、線上家教、企業顧問、資料分析師等,但是身為台灣「虛擬情人研究」第一人的我,當然迫不及待測試這方面的表現囉!
Thumbnail
前幾天OpenAI舉行開發者大會,最大亮點是執行長Sam Altman宣布,ChatGPT將開放客製化「聊天機器人」功能,任何聊天機器人都能自製。 雖然他舉的例子是孩子的玩伴、線上家教、企業顧問、資料分析師等,但是身為台灣「虛擬情人研究」第一人的我,當然迫不及待測試這方面的表現囉!
Thumbnail
大家好! 這次來綜合我常用四種的人工智能工具,根據我之前的測評過的內容,來進行比對與建議。 ChatGPT 簡介: 簡單,快捷,好操作,可查詢,方便的生產工具。 使用建議: 文案創作,日常對話,語音輸出
Thumbnail
大家好! 這次來綜合我常用四種的人工智能工具,根據我之前的測評過的內容,來進行比對與建議。 ChatGPT 簡介: 簡單,快捷,好操作,可查詢,方便的生產工具。 使用建議: 文案創作,日常對話,語音輸出
Thumbnail
相比之前使用過的的SIRI或是小愛同學等語音助理,主要就是問問天氣如何,幫忙搜尋某個明星資料等。而ChatGPT的使用層面更廣了,不僅是幫忙搜尋資料而已,雖然它的資料庫僅更新到2021年為止,問今日天氣肯定是不行的。但就算不能問今日的天氣如何,問一下2021年的天氣倒是可以,當然就沒有真正滿足想要知
Thumbnail
相比之前使用過的的SIRI或是小愛同學等語音助理,主要就是問問天氣如何,幫忙搜尋某個明星資料等。而ChatGPT的使用層面更廣了,不僅是幫忙搜尋資料而已,雖然它的資料庫僅更新到2021年為止,問今日天氣肯定是不行的。但就算不能問今日的天氣如何,問一下2021年的天氣倒是可以,當然就沒有真正滿足想要知
Thumbnail
「AI 會不會取代人類」這個議題甚囂塵上。我認為問題永遠在於如何善用工具解題,而不是擔心工具會不會做得比自己好。此篇將以目前最火紅的 chatGPT 舉例,分析服務優劣以及運用技巧。
Thumbnail
「AI 會不會取代人類」這個議題甚囂塵上。我認為問題永遠在於如何善用工具解題,而不是擔心工具會不會做得比自己好。此篇將以目前最火紅的 chatGPT 舉例,分析服務優劣以及運用技巧。
Thumbnail
(本文附圖皆截圖自ChatGPT) 廢話不多說,直接上圖。 第二個問法只比第一個問法多了一個「問號」,但是ChatGPT就會耗費比較多的運算力來處理,也就是說會比較「認真」去找答案。 第三個問法就更不用說了,他必須花費好幾倍的運算力,更加「認真」才能回答。 當然,它還是採取最安全、最制式化的方式回答
Thumbnail
(本文附圖皆截圖自ChatGPT) 廢話不多說,直接上圖。 第二個問法只比第一個問法多了一個「問號」,但是ChatGPT就會耗費比較多的運算力來處理,也就是說會比較「認真」去找答案。 第三個問法就更不用說了,他必須花費好幾倍的運算力,更加「認真」才能回答。 當然,它還是採取最安全、最制式化的方式回答
Thumbnail
Chat GPT全球爆紅,開放大眾使用才兩個月,用戶人數已經超過1億。將來可能威脅到Google Search的地位。這麼有趣的工具,當然要來試試看了。 請Chat GPT安排台北半日遊 問錯也能正確回答?居然也有情商? AI讓我們重新思考,學習的意義和人的價值
Thumbnail
Chat GPT全球爆紅,開放大眾使用才兩個月,用戶人數已經超過1億。將來可能威脅到Google Search的地位。這麼有趣的工具,當然要來試試看了。 請Chat GPT安排台北半日遊 問錯也能正確回答?居然也有情商? AI讓我們重新思考,學習的意義和人的價值
Thumbnail
這段時間進行了一連串測試,也和幾位「真人」進行討論(不過仍然是透過網路,所以我並不確定傳給我的文字是對方寫的,或是ChatGPT寫的)。截至目前最大的感想就是「過猶不及」: 有一部份人將ChatGPT視為無所不能的工具,什麼都想讓它試試能不能做到;有些人則將ChatGPT視為炒作、趕流行,只是湊個熱
Thumbnail
這段時間進行了一連串測試,也和幾位「真人」進行討論(不過仍然是透過網路,所以我並不確定傳給我的文字是對方寫的,或是ChatGPT寫的)。截至目前最大的感想就是「過猶不及」: 有一部份人將ChatGPT視為無所不能的工具,什麼都想讓它試試能不能做到;有些人則將ChatGPT視為炒作、趕流行,只是湊個熱
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News