AI CUP 2024 玉山人工智慧公開挑戰賽參賽紀錄

閱讀時間約 5 分鐘

前言

今年我參加了 2024 玉山 AI Cup,總算在年尾前寫出這篇文章。之前雖然就有聽過 AI Cup,但沒有機會親自參加。今年的題目剛好是文件檢索 / RAG,決定給平常就有在接觸 NLP 的自己一次機會挑戰看看。雖然很可惜在初賽止步,還是想把我們團隊這次開發的「Hybrid 模型」解法和參賽經驗與大家分享,也當作留下奮鬥的紀錄,讓這次的經驗成為未來的養分!(有關我在做的 NLP 可以讀這篇:2023暑期實習心得@卓騰語言科技)

先放結果 (排名 67/222,最終正確率約 87%)

raw-image


解題手法:混合式 (Hybrid) 模型

所謂「混合式模型」,可以理解為結合符號式 AI和機器學習特質的模型。在我們的解法中,我們用語言學知識制定特徵選擇的規則,再用 cosine similarity 讓模型做出最終判斷,算出最可能包含正解的文件。

前處理

前處理主要是使用 REGEX 和原生字串處理,做移除標點符號、斷句等工作。比較特殊的是在財務資料我們使用 OCRmyPDF 套件將檔案轉成文字,而沒能轉換成功的幾篇篇幅不長,我們便用手工編寫成 .txt。

特徵選擇

由於每個題目皆為一個問題 + 一個文件列表 (可能為正解的文件編號的 list,例: [123,321,555] )。我們使用卓騰語言科技的 Articut 斷詞系統,用語言學方法對每個 query 和文件的句子斷詞並打上詞性標籤 (動詞、名詞、自定義...等等),再根據檢索文件的類別,初步制定選擇詞類/詞彙作為特徵的策略,例如抓 客服 Q&A 題目裡的動詞,若沒有動詞則找名詞。原因是動詞能代表一個句子中的事件,因此當問題和答案的動詞很像時,那它們便很可能是在講同一件事情。

模型算分

選擇好特徵之後,我們計算問題和可能解之間的 cosine similarity 分數(和) 並傳回分數最高的文件編號。若所有分數為皆為 0,可以選擇顯示「答案疑似不在提供文件中」。


解題思維 & 特點

Why does it work?

簡單來說,我們的模型可以分成「規則」(Rule) 和 「模型」(Model) 兩部分。有別於純 ML/DL 方法將文字轉成數值,透過 feature selection 或是訓練本身,試圖從訓練資料中學習能夠預測目標的特徵及對應的權重;我們是先從語言的本質著手制定規則,選擇從語言層面上可能帶有關鍵資訊的特定詞類/詞彙作為特徵,再交給 model 的部分計算結果。

重點在我們試圖從語言本身的底層邏輯做推論,而非從資料的表層現象做收斂。掌握共通的底層邏輯,便能從少量資料推廣到大量現象,這就是現代語言學「以少馭多」的特點;反過來,當我們捨棄語言的結構和規則,用詞嵌入等方式試圖捕捉「語意」時,本質上終究是在逼近訓練資料中文字的機率分佈,而非真正的語意資訊。語言的表現是無限的,用大量資料和運算依然不見得能捕捉到真正重要的資訊。在實務上,以我們的模型來說,我們僅透過觀察 raw data 就能建立初步的模型,跑完後再逐步 trace 錯誤並修正,僅用主辦方提供的資料集和練習題目,最後也產出了具有相當預測能力的模型。

除此之外,我們的小模型同時具備​高度可解釋性。我們能夠解釋「選用的特徵是什麼」、「為什麼選用這些特徵」;當模型回答錯誤時,也能夠藉由觀察來推論「模型可能抓到了哪些資訊」,再進一步改善前處理或是特徵選擇,甚至提出「因為問題和文件都完全不像,所以我們懷疑目標不在搜尋範圍內」這樣的結論。


感想 & 致謝

第一次參加這樣的比賽,首先得感謝玉山提供這樣的機會,我在過程中學到很多,也發現許多有待加強之處,獲益良多、感謝指教!

感謝我的隊友 Jenny 在碩班繁重的事務之餘與我一同挑戰,除了分擔工作量,也好幾次在討論中給予提點、提出質疑,幫了原本要單打獨鬥的我很大的忙,感謝你!

同時,也感謝過程中給予我們幫助的師長和伙伴們,感謝你們!


這篇文章在 Medium 同步上傳。喜歡的話,歡迎幫我按個讚或是追蹤我~

留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Simon 蕭煦宸的沙龍 的其他內容
今年暑假在師長同學的鼓勵下,我帶著現有的語言學知識和為數不多的coding經驗,參與了卓騰語言科技(Droidtown Linguistic Tech. Co.)的暑期實習生企劃。在這裡我不只看到語言學的實際應用,還獲得許多未曾想像過的知識和體驗,與各位分享。
「語言學? 是學很多語言嗎?」「生成式AI來襲,電腦也看得懂人話?」 身為即將進入外文系的新鮮人,除了以後要讀很多文學作品、還有「英文要好、工作難找、總之快逃」之外,在外文系的相關介紹常常看到「語言學」這三個字,但你真的知道它在學什麼嗎?
今年暑假在師長同學的鼓勵下,我帶著現有的語言學知識和為數不多的coding經驗,參與了卓騰語言科技(Droidtown Linguistic Tech. Co.)的暑期實習生企劃。在這裡我不只看到語言學的實際應用,還獲得許多未曾想像過的知識和體驗,與各位分享。
「語言學? 是學很多語言嗎?」「生成式AI來襲,電腦也看得懂人話?」 身為即將進入外文系的新鮮人,除了以後要讀很多文學作品、還有「英文要好、工作難找、總之快逃」之外,在外文系的相關介紹常常看到「語言學」這三個字,但你真的知道它在學什麼嗎?
你可能也想看
Google News 追蹤
Thumbnail
參加者探討AI在教育領域的廣泛應用及其面臨的挑戰,強調如何與AI共存並提升自我能力,李明峰的分享啟發參與者自我潛力的認識,並在AI圖像生成遊戲環節中,助教幫助學生理解生成過程,展現AI在教學上的無限可能性,這篇文章探討了有效的教學方式和學習者的不同經驗,鼓勵更多人關注生成式AI的應用。
Thumbnail
用 AI 製作一張專屬巴黎奧運的紀念海報吧~
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
TAAA攜手Meta舉辦AI Camp系列課程,透過從平台的基礎行銷最佳方案到結合進階的AI自動化產品,乃至於在迎來Cookieless時代後,作為廣告主以及行銷顧問該如何掌握第一方資料再運用,成為行銷成效再進化的關鍵,課程中將一一剖析。
Thumbnail
Hi 我是 VK~ 上週六,參加了《2024 Generative AI 年會》聽完九場演講,聽到蠻多深入的趨勢見解、組織導入 AI 的困難,實際達到的成效等。這也是這期的重點。 去年寫過兩篇 GAI 年會特輯(創作的偶然性與本質、科技的無限與有限),之中討論比較多生成式 AI 的嘗試與應用可能
Thumbnail
我在昨天參加了鳥巢AI舉辦的複賽活動,並在比賽中取得了很大的收穫。這次比賽給了我很多啟發和收穫,也讓我更加明白平時的累積作品很重要,交流過程中讓大家更認識你,也有可能幫助到他。我會繼續努力學習和提高自己的技能,期待與更多志同道合的人一起交流和學習。
Thumbnail
史丹佛大學的AI指數2024報告(2024 AI Index Report)歸納了10大重點: 人工智慧(AI 在某些任務上擊敗了人類,但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準,包括圖像分類、視覺推理和英語理解方面的一些基準。。。。
Thumbnail
前言 在AI經歷數個冰河期後,終於在後疫情時代來到了一個技術高峰,而這個破冰者就是OPen AI(ChatGPT),對於這個話題不管你是是正在接觸AI,對AI技術有些了解的人,抑或是專業領域上對於AI介入感到焦慮的人都希望可以文中得到收穫。 本文想分享一些個人對於AI的理解及對於LLM模型的一些
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
大家最近從AI AlphaGo打敗棋王, 開始陸續新聞一直報導, 到最近不管是AI繪圖,AI Chatgpt,AI coplit...
Thumbnail
參加者探討AI在教育領域的廣泛應用及其面臨的挑戰,強調如何與AI共存並提升自我能力,李明峰的分享啟發參與者自我潛力的認識,並在AI圖像生成遊戲環節中,助教幫助學生理解生成過程,展現AI在教學上的無限可能性,這篇文章探討了有效的教學方式和學習者的不同經驗,鼓勵更多人關注生成式AI的應用。
Thumbnail
用 AI 製作一張專屬巴黎奧運的紀念海報吧~
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
TAAA攜手Meta舉辦AI Camp系列課程,透過從平台的基礎行銷最佳方案到結合進階的AI自動化產品,乃至於在迎來Cookieless時代後,作為廣告主以及行銷顧問該如何掌握第一方資料再運用,成為行銷成效再進化的關鍵,課程中將一一剖析。
Thumbnail
Hi 我是 VK~ 上週六,參加了《2024 Generative AI 年會》聽完九場演講,聽到蠻多深入的趨勢見解、組織導入 AI 的困難,實際達到的成效等。這也是這期的重點。 去年寫過兩篇 GAI 年會特輯(創作的偶然性與本質、科技的無限與有限),之中討論比較多生成式 AI 的嘗試與應用可能
Thumbnail
我在昨天參加了鳥巢AI舉辦的複賽活動,並在比賽中取得了很大的收穫。這次比賽給了我很多啟發和收穫,也讓我更加明白平時的累積作品很重要,交流過程中讓大家更認識你,也有可能幫助到他。我會繼續努力學習和提高自己的技能,期待與更多志同道合的人一起交流和學習。
Thumbnail
史丹佛大學的AI指數2024報告(2024 AI Index Report)歸納了10大重點: 人工智慧(AI 在某些任務上擊敗了人類,但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準,包括圖像分類、視覺推理和英語理解方面的一些基準。。。。
Thumbnail
前言 在AI經歷數個冰河期後,終於在後疫情時代來到了一個技術高峰,而這個破冰者就是OPen AI(ChatGPT),對於這個話題不管你是是正在接觸AI,對AI技術有些了解的人,抑或是專業領域上對於AI介入感到焦慮的人都希望可以文中得到收穫。 本文想分享一些個人對於AI的理解及對於LLM模型的一些
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
大家最近從AI AlphaGo打敗棋王, 開始陸續新聞一直報導, 到最近不管是AI繪圖,AI Chatgpt,AI coplit...