2023暑期實習心得@卓騰語言科技

閱讀時間約 5 分鐘

引言

今年暑假在師長同學的鼓勵下,我帶著現有的語言學知識和為數不多的coding經驗,參與了卓騰語言科技(Droidtown Linguistic Tech. Co.)的暑期實習生企劃。在這裡,我不只跟著負責人Peter和實習生們看到語言學的實際應用,還獲得許多未曾想像過的知識和體驗,與各位分享。

本次實習分為前後兩部分,包含一次期中考核。前半段講解NLP/NLU和語言學的相關概念,以及體驗操作卓騰提供的工具(斷詞系統Articut、語意理解引擎Loki等)。期中考核要求實習生彙整前四周的觀念互相討論,回答問題。通過後,後半段的四周將接續前半段所學到的知識,藉由實作Discord聊天機器人將知識轉化為實際應用。

以下是我想分享的三大 takeaway:

  1. 語言、語言學、語言模型: Context matters.
  2. 開發者的溝通技巧:四部提問法 & Debug技巧
  3. 理論與實作:聊天機器人實作

語言、語言學、語言模型

語言是什麼?

實習的第一階段主要是介紹語言學的背景知識和發展,並帶入自然語言處理(NLP)的觀念,再逐步進入到自然語言理解(NLU)的領域。令人印象深刻的是實習第一天,Peter劈頭就問了我們「語言是什麼?」。這才發現,我在這裡要學的還多的是。在討論過程中,實習生們會提出自己的見解,而Peter會不斷的挑戰我們提出的論述,刺激我們思考、討論,畢竟真理越辯越明。Peter說他希望培育的是「知道語言是怎麼一回事的自然語言工程師」,在卓騰的期間我也確實感受到這一點。

在每一週的討論中,「語境」的觀念開始愈顯重要。這次實習我學到的一大核心觀念是「語言的使用脫離不了語境」。有了語境,我們才能夠真正從NLP進入NLU,從使用情境為出發點,一步一步教程式看得懂人話。That's where the fun really begins!

也由於今年生成式AI和ChatGPT等大型語言模型帶起一波熱潮,這次的實習也包括了許多關於「大型語言模型」LLM的討論。我們在討論的過程中看到現在主流AI技術的虛虛實實,它的強項和弱點,以及運作方式和人類「理解」語言的差異。藉由了解這些知識,我們更了解生成式AI作為一項工具該如何應用,並發揮它的優勢幫助我們,也更清楚它其實做不到哪些事,用理性的角度看待這波席捲全球的科技浪潮。

(底下分享個好玩的)

看來調酒師暫時還不會被取代

看來調酒師暫時還不會被取代

開發者的溝通技巧

寫code遇到問題時該如何有效溝通?在卓騰實習時,Peter提供我們一個十分好用的提問框架: 問題所在、輸入資料、預期輸出、實際輸出

先描述問題的程式碼行數,再提供你輸入的資料以及預期的輸出,最後再觀察實際的輸出有什麼樣的問題,一比較之下就可能有初步的嘗試方向。相較於一開始的「救命,我的程式跑不出來」,這樣的描述能夠清楚的表達問題所在,也能從預期行為和實際行為的差異更快找到解決問題所需的線索。

而為了看到程式哪邊有問題以及資料的變化,編譯器提供的debugger(除錯器)在此時便派上用場。Debugger就像一個時間停止器,讓開發者能夠逐行檢視程式的表現和輸入輸出值的變化。Peter也花時間為我們講解程式debug的流程和debugger的使用。在這次實習之前,我只有耳聞這項工具的存在,但從沒有實際使用過。真正學習和使用之後才發現其效用之大,真的是獲益良多!

掌握這樣的溝通技巧並學習使用除錯工具之後,我和實習夥伴們在實作時的溝通成本大大降低。遇到問題時也能夠先自己觀察程式的表現並嘗試動手解決,而不是像無頭蒼蠅一樣瞎忙、亂猜,開發工作得以進行得更加順暢愉快。


聊天機器人實作

在實習的第二階段,我們利用學到的NLP/NLU知識和Loki語意理解引擎,實作一個Discord聊天機器人。我們這組決定參考夏令營營隊客服,製作營隊客服機器人 (Camp Bot)。

開發過程中,我們的討論都離不開語境。大至系統架構的設計,小至判斷語意的某行程式碼的寫法,思考的主軸都來自於「在這個語境之下,因為這句話應該是有什麼意圖,所以機器人應該要如何回覆」。值得留意的是,機器人的所有表現都可以用上面的因果關係來清楚描述,就算出錯也可以推論是語意理解的哪一個環節出了問題。這也是以語意邏輯為基礎的系統和以巨量資料推動的LLM根本上的差別—我們模型的表現具備完整的可解釋性。

藉由實作,我體驗到從頭設計並開發一套軟體、與團隊成員討論解決問題、動手操作Git/Github版本控制系統等等的經驗。除此之外,我認為這次實作最大的價值在於重複鍛鍊「以語境為出發點的思考模式」的機會。每次機器人的語意理解或回覆出現問題的時候,我們就必須重新思考語境、意圖、語句結構、程式碼之間的因果關係,並逐步修正語意推論的因果邏輯,讓機器人的表現更加合理。不得不說,看著機器人能夠正確回答問題時,真的很有成就感! 在這邊也感謝我的實習夥伴Lancy,每每和我週五一早衝台北拚機器人的開發進度,也在營隊的參考資料部分和實作上提供偌大的協助。

我們的Camp Bot機器人也有在Github上,有興趣的可以點這邊參考!


結語

在卓騰實習的這段期間我真的學到很多。很高興有這個機會能夠認識這麼多人,集合不同的故事和經驗,體驗腦力激盪的快感。感謝同期所有實習生們和卓騰語言科技,讓我有如此寶貴又充實的體驗!

本屆實習生合影

本屆實習生合影

(此篇文章亦在Medium同步更新)


留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Simon 蕭煦宸的沙龍 的其他內容
「語言學? 是學很多語言嗎?」「生成式AI來襲,電腦也看得懂人話?」 身為即將進入外文系的新鮮人,除了以後要讀很多文學作品、還有「英文要好、工作難找、總之快逃」之外,在外文系的相關介紹常常看到「語言學」這三個字,但你真的知道它在學什麼嗎?
「語言學? 是學很多語言嗎?」「生成式AI來襲,電腦也看得懂人話?」 身為即將進入外文系的新鮮人,除了以後要讀很多文學作品、還有「英文要好、工作難找、總之快逃」之外,在外文系的相關介紹常常看到「語言學」這三個字,但你真的知道它在學什麼嗎?
你可能也想看
Google News 追蹤
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
從頭開始寫大語言模型的程式碼, 是最好理解大語言模型的機制與限制的方風。 從頭開始寫大語言模型的程式碼,可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識,並應用到特定領域的數據及以及任務。 客製化大語言模型一般來說比起通用大語言模型有更好的表現。 一個具體的例子是
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
溝通的目的不是僅僅提供信息,而是讓對方接收並理解信息。 NLP的兩個假設前提:溝通的意義決定於對方的回饋、沒有失敗,只有回饋。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
DLC-PAI系統+教練課+英文課 九月份開始上Notion訓練營,一開始我真的是小小白,只會非常基本的使用。加入之後跟著課程節奏,竟然也產出了好幾份作業,成果是我一開始想不到的。其實工具的技巧固然重要,但是底層邏輯才是核心,為了什麼而做?如何做?有什麼學習點?這些都是需要不停思考,自問自答慢慢找
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
從頭開始寫大語言模型的程式碼, 是最好理解大語言模型的機制與限制的方風。 從頭開始寫大語言模型的程式碼,可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識,並應用到特定領域的數據及以及任務。 客製化大語言模型一般來說比起通用大語言模型有更好的表現。 一個具體的例子是
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
溝通的目的不是僅僅提供信息,而是讓對方接收並理解信息。 NLP的兩個假設前提:溝通的意義決定於對方的回饋、沒有失敗,只有回饋。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
DLC-PAI系統+教練課+英文課 九月份開始上Notion訓練營,一開始我真的是小小白,只會非常基本的使用。加入之後跟著課程節奏,竟然也產出了好幾份作業,成果是我一開始想不到的。其實工具的技巧固然重要,但是底層邏輯才是核心,為了什麼而做?如何做?有什麼學習點?這些都是需要不停思考,自問自答慢慢找