OpenAI在今天馬不停蹄地又推出了一款名為「Deep Research」的工具,專為複雜的多步驟研究任務而設計:
- Deep Research能夠通過網路瀏覽、解讀和整合資訊,使用經過最佳化的o3模型進行網路瀏覽和數據分析。它可以在5至30分鐘內完成人類可能需要數分鐘到數天的研究任務。
- 該功能主打的目標族群可能面向金融、科學、政策和工程等知識密集型領域的專業人士,以及針對需要進行汽車或家電等消費決策的消費者,畢竟挑選家電可是一件很費工夫的事情。
- Deep Research目前暫時僅限ChatGPT Pro用戶使用,每月100次查詢。OpenAI計劃未來擴大至其他用戶。
- Deep Research在最近熱門的測試項目「人類最後考試(Humanity's Last Exam)」基準測試中得分26.6%,在各學術領域的專家級問題上表現優異,是現階段競爭對手的兩倍。但也承認目前依然存在侷限性,可能出現「幻覺」、生成不正確資訊、難以區分可靠來源以及報告格式問題。
- OpenAI也計劃在後續增加嵌入圖像、數據可視化和連結專業領域資訊等功能。
我們也試著將 OpenAI「Deep Research」與DeepSeek-R1在網路搜尋任務中的表現結果來做個比較:
- OpenAI「Deep Research」:專為網路搜尋任務而設計,能瀏覽、解讀和總結網路內容。包括處理可能涉及多個來源的複雜查詢、資訊整合和報告生成。其性能針對專業和消費者研究需求,注重準確性和深度。
- DeepSeek-R1:雖然不是專門的網路搜尋任務工具,但其推理能力也可應用於研究任務。模型的開源性質和推理基準表現如果進行微調或整合到網路搜尋結果的分析中,可能具有相當程度的適用性,目前已有多個單位在嘗試使用不同方式將DeepSeek-R1整合到網路搜尋任務中,感覺仍然未來可期。
- 成本和可訪問性:
- OpenAI「Deep Research」:僅對ChatGPT Pro用戶開放,設有每月查詢限制,採用更受控的高級服務模式。
- DeepSeek-R1:在API使用成本上較OpenAI的o1模型低90-95%,開源性質意味著更廣泛的可訪問性和社區驅動的潛在增強。
以上就網路搜尋任務來說,OpenAI的「Deep Research」具有針對網路瀏覽和報告生成功能,可能有較好的表現結果,只是目前僅對ChatGPT Pro用戶開放,並設有每月查詢限制,相對不方便。而DeepSeek R1的優勢在於其推理能力有整合到網路搜尋系統的潛力及相對便宜的使用成本,端看個人的選擇取向。
以下提供OpenAI影片連結,有興趣深入了解的朋友可以自行觀看:
https://www.youtube.com/watch?v=YkCDVn3_wiw
我是TN科技筆記,如果喜歡這篇文章,歡迎留言或轉發給朋友給我支持鼓勵!!