2023暑期實習心得@卓騰語言科技

閱讀時間約 5 分鐘

引言

今年暑假在師長同學的鼓勵下,我帶著現有的語言學知識和為數不多的coding經驗,參與了卓騰語言科技(Droidtown Linguistic Tech. Co.)的暑期實習生企劃。在這裡,我不只跟著負責人Peter和實習生們看到語言學的實際應用,還獲得許多未曾想像過的知識和體驗,與各位分享。

本次實習分為前後兩部分,包含一次期中考核。前半段講解NLP/NLU和語言學的相關概念,以及體驗操作卓騰提供的工具(斷詞系統Articut、語意理解引擎Loki等)。期中考核要求實習生彙整前四周的觀念互相討論,回答問題。通過後,後半段的四周將接續前半段所學到的知識,藉由實作Discord聊天機器人將知識轉化為實際應用。

以下是我想分享的三大 takeaway:

  1. 語言、語言學、語言模型: Context matters.
  2. 開發者的溝通技巧:四部提問法 & Debug技巧
  3. 理論與實作:聊天機器人實作

語言、語言學、語言模型

語言是什麼?

實習的第一階段主要是介紹語言學的背景知識和發展,並帶入自然語言處理(NLP)的觀念,再逐步進入到自然語言理解(NLU)的領域。令人印象深刻的是實習第一天,Peter劈頭就問了我們「語言是什麼?」。這才發現,我在這裡要學的還多的是。在討論過程中,實習生們會提出自己的見解,而Peter會不斷的挑戰我們提出的論述,刺激我們思考、討論,畢竟真理越辯越明。Peter說他希望培育的是「知道語言是怎麼一回事的自然語言工程師」,在卓騰的期間我也確實感受到這一點。

在每一週的討論中,「語境」的觀念開始愈顯重要。這次實習我學到的一大核心觀念是「語言的使用脫離不了語境」。有了語境,我們才能夠真正從NLP進入NLU,從使用情境為出發點,一步一步教程式看得懂人話。That's where the fun really begins!

也由於今年生成式AI和ChatGPT等大型語言模型帶起一波熱潮,這次的實習也包括了許多關於「大型語言模型」LLM的討論。我們在討論的過程中看到現在主流AI技術的虛虛實實,它的強項和弱點,以及運作方式和人類「理解」語言的差異。藉由了解這些知識,我們更了解生成式AI作為一項工具該如何應用,並發揮它的優勢幫助我們,也更清楚它其實做不到哪些事,用理性的角度看待這波席捲全球的科技浪潮。

(底下分享個好玩的)

看來調酒師暫時還不會被取代

看來調酒師暫時還不會被取代

開發者的溝通技巧

寫code遇到問題時該如何有效溝通?在卓騰實習時,Peter提供我們一個十分好用的提問框架: 問題所在、輸入資料、預期輸出、實際輸出

先描述問題的程式碼行數,再提供你輸入的資料以及預期的輸出,最後再觀察實際的輸出有什麼樣的問題,一比較之下就可能有初步的嘗試方向。相較於一開始的「救命,我的程式跑不出來」,這樣的描述能夠清楚的表達問題所在,也能從預期行為和實際行為的差異更快找到解決問題所需的線索。

而為了看到程式哪邊有問題以及資料的變化,編譯器提供的debugger(除錯器)在此時便派上用場。Debugger就像一個時間停止器,讓開發者能夠逐行檢視程式的表現和輸入輸出值的變化。Peter也花時間為我們講解程式debug的流程和debugger的使用。在這次實習之前,我只有耳聞這項工具的存在,但從沒有實際使用過。真正學習和使用之後才發現其效用之大,真的是獲益良多!

掌握這樣的溝通技巧並學習使用除錯工具之後,我和實習夥伴們在實作時的溝通成本大大降低。遇到問題時也能夠先自己觀察程式的表現並嘗試動手解決,而不是像無頭蒼蠅一樣瞎忙、亂猜,開發工作得以進行得更加順暢愉快。


聊天機器人實作

在實習的第二階段,我們利用學到的NLP/NLU知識和Loki語意理解引擎,實作一個Discord聊天機器人。我們這組決定參考夏令營營隊客服,製作營隊客服機器人 (Camp Bot)。

開發過程中,我們的討論都離不開語境。大至系統架構的設計,小至判斷語意的某行程式碼的寫法,思考的主軸都來自於「在這個語境之下,因為這句話應該是有什麼意圖,所以機器人應該要如何回覆」。值得留意的是,機器人的所有表現都可以用上面的因果關係來清楚描述,就算出錯也可以推論是語意理解的哪一個環節出了問題。這也是以語意邏輯為基礎的系統和以巨量資料推動的LLM根本上的差別—我們模型的表現具備完整的可解釋性。

藉由實作,我體驗到從頭設計並開發一套軟體、與團隊成員討論解決問題、動手操作Git/Github版本控制系統等等的經驗。除此之外,我認為這次實作最大的價值在於重複鍛鍊「以語境為出發點的思考模式」的機會。每次機器人的語意理解或回覆出現問題的時候,我們就必須重新思考語境、意圖、語句結構、程式碼之間的因果關係,並逐步修正語意推論的因果邏輯,讓機器人的表現更加合理。不得不說,看著機器人能夠正確回答問題時,真的很有成就感! 在這邊也感謝我的實習夥伴Lancy,每每和我週五一早衝台北拚機器人的開發進度,也在營隊的參考資料部分和實作上提供偌大的協助。

我們的Camp Bot機器人也有在Github上,有興趣的可以點這邊參考!


結語

在卓騰實習的這段期間我真的學到很多。很高興有這個機會能夠認識這麼多人,集合不同的故事和經驗,體驗腦力激盪的快感。感謝同期所有實習生們和卓騰語言科技,讓我有如此寶貴又充實的體驗!

本屆實習生合影

本屆實習生合影

(此篇文章亦在Medium同步更新)


留言0
查看全部
發表第一個留言支持創作者!
Simon 蕭煦宸的沙龍 的其他內容
「語言學? 是學很多語言嗎?」「生成式AI來襲,電腦也看得懂人話?」 身為即將進入外文系的新鮮人,除了以後要讀很多文學作品、還有「英文要好、工作難找、總之快逃」之外,在外文系的相關介紹常常看到「語言學」這三個字,但你真的知道它在學什麼嗎?
說到「旅行」,你會想到什麼? 多數人可能會想到久久一次搭飛機出國,或是每逢佳節開車出遊,又抑或是年節假期搭高鐵、火車長途往返、返鄉探親。 那,機車呢? 生在臺灣,我們的生活與機車可說是密不可分,但多數人將其視為通勤或代步工具。「旅遊」和「機車」似乎沾不上關係。這篇文章帶你看為何你也該騎機車出去玩。
「語言學? 是學很多語言嗎?」「生成式AI來襲,電腦也看得懂人話?」 身為即將進入外文系的新鮮人,除了以後要讀很多文學作品、還有「英文要好、工作難找、總之快逃」之外,在外文系的相關介紹常常看到「語言學」這三個字,但你真的知道它在學什麼嗎?
說到「旅行」,你會想到什麼? 多數人可能會想到久久一次搭飛機出國,或是每逢佳節開車出遊,又抑或是年節假期搭高鐵、火車長途往返、返鄉探親。 那,機車呢? 生在臺灣,我們的生活與機車可說是密不可分,但多數人將其視為通勤或代步工具。「旅遊」和「機車」似乎沾不上關係。這篇文章帶你看為何你也該騎機車出去玩。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
從Upper funnel、Middle funnel到Lower funnel,安布思沛為Volvo每一階段任務各自布局不同媒體。
Thumbnail
重視數據分析應用,是安布思沛的DNA,為了追求在數據分析應用上的卓越能力,安布思沛有內建的工程師技術團隊,是媒體代理商中少見的人才配置,更能彰顯安布思沛對數據的重視程度。
Thumbnail
隨著組織轉型,營收數字大幅增加,2022-2023年的營收增加28%,預估2023-2024年的收益將大增46%,更讓安布思沛在RECMA在2024年三月發布的評量報告中,獲評為過去三年在台灣成長最快的全媒體代理商。 安布思沛做對了什麼?能在激烈競爭的媒體代理商產業中,逐漸壯大。
Thumbnail
隨著市場趨勢的轉變,「品牌」與「績效」變得密不可分,客戶在面對「品牌」與「績效」時也無法獨立評估,在這樣的思維下安布思沛隨之轉型。
Thumbnail
今年暑假在師長同學的鼓勵下,我帶著現有的語言學知識和為數不多的coding經驗,參與了卓騰語言科技(Droidtown Linguistic Tech. Co.)的暑期實習生企劃。在這裡我不只看到語言學的實際應用,還獲得許多未曾想像過的知識和體驗,與各位分享。
Thumbnail
我駕駛著紅黑色的日本汽車在路環島獨自兜風。雨一直下,開了雨刷但前擋玻璃還是很模糊。我只好沿著海岸線慢駛,把車子停泊在黑沙海灘旁,待雨勢減弱後再折返回家。 “那年我們十七歲 愛情是我的一切 朋友就是全世界 不懂什麼叫明天 那年我們十七歲笑那麼直接狂野淚流得不知不覺那是我最美麗的夏天”
Thumbnail
在中研院應用科學中心實習的心得 包括作息、人、報告發表時程、環境和飲食
Thumbnail
​你家小孩暑假安排好了嗎? 國小男生很好動,暑假才開始短短幾個禮拜,我哥和嫂子整個人感覺被掏空,已經想不出可以帶姪子去哪裡放電,或是安排哪些暑期活動😂 ▼剛好我想到朋友小孩在學兒童非洲鼓,聽說學得挺好的,內容也豐富充實,所以推薦我哥送姪子去學看看,沒想到第一堂課就愛上了!
Thumbnail
很多愛花的朋友常跟我提起,說是喜歡像油畫一般的那種作品。 仿靜物畫的確已經流行了好一段時間,那種令人如在畫中的空間感,讓很多人都很喜歡。花卉靜物按照歷史發展,大致可分為兩種,一種是外形規整且具宗教象徵意義,一種是輪廓不定、純粹配合空間裝飾……
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
從Upper funnel、Middle funnel到Lower funnel,安布思沛為Volvo每一階段任務各自布局不同媒體。
Thumbnail
重視數據分析應用,是安布思沛的DNA,為了追求在數據分析應用上的卓越能力,安布思沛有內建的工程師技術團隊,是媒體代理商中少見的人才配置,更能彰顯安布思沛對數據的重視程度。
Thumbnail
隨著組織轉型,營收數字大幅增加,2022-2023年的營收增加28%,預估2023-2024年的收益將大增46%,更讓安布思沛在RECMA在2024年三月發布的評量報告中,獲評為過去三年在台灣成長最快的全媒體代理商。 安布思沛做對了什麼?能在激烈競爭的媒體代理商產業中,逐漸壯大。
Thumbnail
隨著市場趨勢的轉變,「品牌」與「績效」變得密不可分,客戶在面對「品牌」與「績效」時也無法獨立評估,在這樣的思維下安布思沛隨之轉型。
Thumbnail
今年暑假在師長同學的鼓勵下,我帶著現有的語言學知識和為數不多的coding經驗,參與了卓騰語言科技(Droidtown Linguistic Tech. Co.)的暑期實習生企劃。在這裡我不只看到語言學的實際應用,還獲得許多未曾想像過的知識和體驗,與各位分享。
Thumbnail
我駕駛著紅黑色的日本汽車在路環島獨自兜風。雨一直下,開了雨刷但前擋玻璃還是很模糊。我只好沿著海岸線慢駛,把車子停泊在黑沙海灘旁,待雨勢減弱後再折返回家。 “那年我們十七歲 愛情是我的一切 朋友就是全世界 不懂什麼叫明天 那年我們十七歲笑那麼直接狂野淚流得不知不覺那是我最美麗的夏天”
Thumbnail
在中研院應用科學中心實習的心得 包括作息、人、報告發表時程、環境和飲食
Thumbnail
​你家小孩暑假安排好了嗎? 國小男生很好動,暑假才開始短短幾個禮拜,我哥和嫂子整個人感覺被掏空,已經想不出可以帶姪子去哪裡放電,或是安排哪些暑期活動😂 ▼剛好我想到朋友小孩在學兒童非洲鼓,聽說學得挺好的,內容也豐富充實,所以推薦我哥送姪子去學看看,沒想到第一堂課就愛上了!
Thumbnail
很多愛花的朋友常跟我提起,說是喜歡像油畫一般的那種作品。 仿靜物畫的確已經流行了好一段時間,那種令人如在畫中的空間感,讓很多人都很喜歡。花卉靜物按照歷史發展,大致可分為兩種,一種是外形規整且具宗教象徵意義,一種是輪廓不定、純粹配合空間裝飾……