vocus logo

方格子 vocus

AI CUP 2024 玉山人工智慧公開挑戰賽參賽紀錄

更新 發佈閱讀 5 分鐘

前言

今年我參加了 2024 玉山 AI Cup,總算在年尾前寫出這篇文章。之前雖然就有聽過 AI Cup,但沒有機會親自參加。今年的題目剛好是文件檢索 / RAG,決定給平常就有在接觸 NLP 的自己一次機會挑戰看看。雖然很可惜在初賽止步,還是想把我們團隊這次開發的「Hybrid 模型」解法和參賽經驗與大家分享,也當作留下奮鬥的紀錄,讓這次的經驗成為未來的養分!(有關我在做的 NLP 可以讀這篇:2023暑期實習心得@卓騰語言科技)

先放結果 (排名 67/222,最終正確率約 87%)

raw-image


解題手法:混合式 (Hybrid) 模型

所謂「混合式模型」,可以理解為結合符號式 AI和機器學習特質的模型。在我們的解法中,我們用語言學知識制定特徵選擇的規則,再用 cosine similarity 讓模型做出最終判斷,算出最可能包含正解的文件。

前處理

前處理主要是使用 REGEX 和原生字串處理,做移除標點符號、斷句等工作。比較特殊的是在財務資料我們使用 OCRmyPDF 套件將檔案轉成文字,而沒能轉換成功的幾篇篇幅不長,我們便用手工編寫成 .txt。

特徵選擇

由於每個題目皆為一個問題 + 一個文件列表 (可能為正解的文件編號的 list,例: [123,321,555] )。我們使用卓騰語言科技的 Articut 斷詞系統,用語言學方法對每個 query 和文件的句子斷詞並打上詞性標籤 (動詞、名詞、自定義...等等),再根據檢索文件的類別,初步制定選擇詞類/詞彙作為特徵的策略,例如抓 客服 Q&A 題目裡的動詞,若沒有動詞則找名詞。原因是動詞能代表一個句子中的事件,因此當問題和答案的動詞很像時,那它們便很可能是在講同一件事情。

模型算分

選擇好特徵之後,我們計算問題和可能解之間的 cosine similarity 分數(和) 並傳回分數最高的文件編號。若所有分數為皆為 0,可以選擇顯示「答案疑似不在提供文件中」。


解題思維 & 特點

Why does it work?

簡單來說,我們的模型可以分成「規則」(Rule) 和 「模型」(Model) 兩部分。有別於純 ML/DL 方法將文字轉成數值,透過 feature selection 或是訓練本身,試圖從訓練資料中學習能夠預測目標的特徵及對應的權重;我們是先從語言的本質著手制定規則,選擇從語言層面上可能帶有關鍵資訊的特定詞類/詞彙作為特徵,再交給 model 的部分計算結果。

重點在我們試圖從語言本身的底層邏輯做推論,而非從資料的表層現象做收斂。掌握共通的底層邏輯,便能從少量資料推廣到大量現象,這就是現代語言學「以少馭多」的特點;反過來,當我們捨棄語言的結構和規則,用詞嵌入等方式試圖捕捉「語意」時,本質上終究是在逼近訓練資料中文字的機率分佈,而非真正的語意資訊。語言的表現是無限的,用大量資料和運算依然不見得能捕捉到真正重要的資訊。在實務上,以我們的模型來說,我們僅透過觀察 raw data 就能建立初步的模型,跑完後再逐步 trace 錯誤並修正,僅用主辦方提供的資料集和練習題目,最後也產出了具有相當預測能力的模型。

除此之外,我們的小模型同時具備​高度可解釋性。我們能夠解釋「選用的特徵是什麼」、「為什麼選用這些特徵」;當模型回答錯誤時,也能夠藉由觀察來推論「模型可能抓到了哪些資訊」,再進一步改善前處理或是特徵選擇,甚至提出「因為問題和文件都完全不像,所以我們懷疑目標不在搜尋範圍內」這樣的結論。


感想 & 致謝

第一次參加這樣的比賽,首先得感謝玉山提供這樣的機會,我在過程中學到很多,也發現許多有待加強之處,獲益良多、感謝指教!

感謝我的隊友 Jenny 在碩班繁重的事務之餘與我一同挑戰,除了分擔工作量,也好幾次在討論中給予提點、提出質疑,幫了原本要單打獨鬥的我很大的忙,感謝你!

同時,也感謝過程中給予我們幫助的師長和伙伴們,感謝你們!


這篇文章在 Medium 同步上傳。喜歡的話,歡迎幫我按個讚或是追蹤我~

留言
avatar-img
Simon 蕭煦宸的沙龍
6會員
3內容數
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
嗨 我是CCChen 已通過3/22 iPAS AI應用規劃師 初級 第一場測試 預計參加5/17 iPAS AI應用規劃師 中級 第一場測試 先將相關考試資料確認清楚
Thumbnail
嗨 我是CCChen 已通過3/22 iPAS AI應用規劃師 初級 第一場測試 預計參加5/17 iPAS AI應用規劃師 中級 第一場測試 先將相關考試資料確認清楚
Thumbnail
知己知彼,百戰百勝,一起看看有什麼新發表! 介紹本週海選的三篇 AI paper,包括量化 AI 在「工程層級的研究重現能力」、AI 人機協作及專供企業內部部署的企業級大型語言模型,適用於多語言環境。。 PaperBench—AI 能從零重現最前沿機器學習研究嗎? OpenAI 團隊
Thumbnail
知己知彼,百戰百勝,一起看看有什麼新發表! 介紹本週海選的三篇 AI paper,包括量化 AI 在「工程層級的研究重現能力」、AI 人機協作及專供企業內部部署的企業級大型語言模型,適用於多語言環境。。 PaperBench—AI 能從零重現最前沿機器學習研究嗎? OpenAI 團隊
Thumbnail
最近去參加了AI應用規劃師的初級鑑定考試 我整理了官方2025年3月公布的最新《AI應用規劃師的初級鑑定考試》30題樣題,加上簡單的解析,分享給也有興趣考這張證照或想了解AI基礎知識的朋友。 這些題目涵蓋AI概念、機器學習、生成式AI、No Code/Low Code平台等,很適合當作複
Thumbnail
最近去參加了AI應用規劃師的初級鑑定考試 我整理了官方2025年3月公布的最新《AI應用規劃師的初級鑑定考試》30題樣題,加上簡單的解析,分享給也有興趣考這張證照或想了解AI基礎知識的朋友。 這些題目涵蓋AI概念、機器學習、生成式AI、No Code/Low Code平台等,很適合當作複
Thumbnail
介紹本週海選的五篇 AI paper(2024 年 3 月17~23 日),包括大模型推理優化、強化學習改進、記憶系統創新、3D 生成技術突破,以及 LLM 訓練策略的新發現。
Thumbnail
介紹本週海選的五篇 AI paper(2024 年 3 月17~23 日),包括大模型推理優化、強化學習改進、記憶系統創新、3D 生成技術突破,以及 LLM 訓練策略的新發現。
Thumbnail
記錄了在開發撲克牌AI時,從機器學習到大型語言模型的技術選擇過程,以及對各種可能解決方案的思考與權衡。
Thumbnail
記錄了在開發撲克牌AI時,從機器學習到大型語言模型的技術選擇過程,以及對各種可能解決方案的思考與權衡。
Thumbnail
本文分享個人參加資策會《生成式AI美術設計能力認證-中級》考試經驗,涵蓋術科、學科準備及考題類型,並提供備考建議及相關資源連結,期盼幫助未來考生順利應試。
Thumbnail
本文分享個人參加資策會《生成式AI美術設計能力認證-中級》考試經驗,涵蓋術科、學科準備及考題類型,並提供備考建議及相關資源連結,期盼幫助未來考生順利應試。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News