2023暑期實習心得@卓騰語言科技

閱讀時間約 5 分鐘

引言

今年暑假在師長同學的鼓勵下,我帶著現有的語言學知識和為數不多的coding經驗,參與了卓騰語言科技(Droidtown Linguistic Tech. Co.)的暑期實習生企劃。在這裡,我不只跟著負責人Peter和實習生們看到語言學的實際應用,還獲得許多未曾想像過的知識和體驗,與各位分享。

本次實習分為前後兩部分,包含一次期中考核。前半段講解NLP/NLU和語言學的相關概念,以及體驗操作卓騰提供的工具(斷詞系統Articut、語意理解引擎Loki等)。期中考核要求實習生彙整前四周的觀念互相討論,回答問題。通過後,後半段的四周將接續前半段所學到的知識,藉由實作Discord聊天機器人將知識轉化為實際應用。

以下是我想分享的三大 takeaway:

  1. 語言、語言學、語言模型: Context matters.
  2. 開發者的溝通技巧:四部提問法 & Debug技巧
  3. 理論與實作:聊天機器人實作

語言、語言學、語言模型

語言是什麼?

實習的第一階段主要是介紹語言學的背景知識和發展,並帶入自然語言處理(NLP)的觀念,再逐步進入到自然語言理解(NLU)的領域。令人印象深刻的是實習第一天,Peter劈頭就問了我們「語言是什麼?」。這才發現,我在這裡要學的還多的是。在討論過程中,實習生們會提出自己的見解,而Peter會不斷的挑戰我們提出的論述,刺激我們思考、討論,畢竟真理越辯越明。Peter說他希望培育的是「知道語言是怎麼一回事的自然語言工程師」,在卓騰的期間我也確實感受到這一點。

在每一週的討論中,「語境」的觀念開始愈顯重要。這次實習我學到的一大核心觀念是「語言的使用脫離不了語境」。有了語境,我們才能夠真正從NLP進入NLU,從使用情境為出發點,一步一步教程式看得懂人話。That's where the fun really begins!

也由於今年生成式AI和ChatGPT等大型語言模型帶起一波熱潮,這次的實習也包括了許多關於「大型語言模型」LLM的討論。我們在討論的過程中看到現在主流AI技術的虛虛實實,它的強項和弱點,以及運作方式和人類「理解」語言的差異。藉由了解這些知識,我們更了解生成式AI作為一項工具該如何應用,並發揮它的優勢幫助我們,也更清楚它其實做不到哪些事,用理性的角度看待這波席捲全球的科技浪潮。

(底下分享個好玩的)

看來調酒師暫時還不會被取代

看來調酒師暫時還不會被取代

開發者的溝通技巧

寫code遇到問題時該如何有效溝通?在卓騰實習時,Peter提供我們一個十分好用的提問框架: 問題所在、輸入資料、預期輸出、實際輸出

先描述問題的程式碼行數,再提供你輸入的資料以及預期的輸出,最後再觀察實際的輸出有什麼樣的問題,一比較之下就可能有初步的嘗試方向。相較於一開始的「救命,我的程式跑不出來」,這樣的描述能夠清楚的表達問題所在,也能從預期行為和實際行為的差異更快找到解決問題所需的線索。

而為了看到程式哪邊有問題以及資料的變化,編譯器提供的debugger(除錯器)在此時便派上用場。Debugger就像一個時間停止器,讓開發者能夠逐行檢視程式的表現和輸入輸出值的變化。Peter也花時間為我們講解程式debug的流程和debugger的使用。在這次實習之前,我只有耳聞這項工具的存在,但從沒有實際使用過。真正學習和使用之後才發現其效用之大,真的是獲益良多!

掌握這樣的溝通技巧並學習使用除錯工具之後,我和實習夥伴們在實作時的溝通成本大大降低。遇到問題時也能夠先自己觀察程式的表現並嘗試動手解決,而不是像無頭蒼蠅一樣瞎忙、亂猜,開發工作得以進行得更加順暢愉快。


聊天機器人實作

在實習的第二階段,我們利用學到的NLP/NLU知識和Loki語意理解引擎,實作一個Discord聊天機器人。我們這組決定參考夏令營營隊客服,製作營隊客服機器人 (Camp Bot)。

開發過程中,我們的討論都離不開語境。大至系統架構的設計,小至判斷語意的某行程式碼的寫法,思考的主軸都來自於「在這個語境之下,因為這句話應該是有什麼意圖,所以機器人應該要如何回覆」。值得留意的是,機器人的所有表現都可以用上面的因果關係來清楚描述,就算出錯也可以推論是語意理解的哪一個環節出了問題。這也是以語意邏輯為基礎的系統和以巨量資料推動的LLM根本上的差別—我們模型的表現具備完整的可解釋性。

藉由實作,我體驗到從頭設計並開發一套軟體、與團隊成員討論解決問題、動手操作Git/Github版本控制系統等等的經驗。除此之外,我認為這次實作最大的價值在於重複鍛鍊「以語境為出發點的思考模式」的機會。每次機器人的語意理解或回覆出現問題的時候,我們就必須重新思考語境、意圖、語句結構、程式碼之間的因果關係,並逐步修正語意推論的因果邏輯,讓機器人的表現更加合理。不得不說,看著機器人能夠正確回答問題時,真的很有成就感! 在這邊也感謝我的實習夥伴Lancy,每每和我週五一早衝台北拚機器人的開發進度,也在營隊的參考資料部分和實作上提供偌大的協助。

我們的Camp Bot機器人也有在Github上,有興趣的可以點這邊參考!


結語

在卓騰實習的這段期間我真的學到很多。很高興有這個機會能夠認識這麼多人,集合不同的故事和經驗,體驗腦力激盪的快感。感謝同期所有實習生們和卓騰語言科技,讓我有如此寶貴又充實的體驗!

本屆實習生合影

本屆實習生合影

(此篇文章亦在Medium同步更新)


留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
【時光膠囊】那年我們十七歲我駕駛著紅黑色的日本汽車在路環島獨自兜風。雨一直下,開了雨刷但前擋玻璃還是很模糊。我只好沿著海岸線慢駛,把車子停泊在黑沙海灘旁,待雨勢減弱後再折返回家。 “那年我們十七歲 愛情是我的一切 朋友就是全世界 不懂什麼叫明天 那年我們十七歲笑那麼直接狂野淚流得不知不覺那是我最美麗的夏天”
Thumbnail
avatar
加奧·安娜
2023-10-24
小品石朴改造換土洗根整理記錄系列之十七小品石朴改造換土洗根整理記錄系列之十七
Thumbnail
avatar
天湖承嚴
2023-09-25
2023中研院暑期實習計劃_心得紀錄 在中研院應用科學中心實習的心得 包括作息、人、報告發表時程、環境和飲食
Thumbnail
avatar
大四生的心情隨筆
2023-09-07
台南音樂教室【琴芸韻音樂中心】兒童非洲鼓課程│大家一起玩音樂交朋友│暑期才藝班│豐富多彩音樂教學│培養興趣充實暑期時光​你家小孩暑假安排好了嗎? 國小男生很好動,暑假才開始短短幾個禮拜,我哥和嫂子整個人感覺被掏空,已經想不出可以帶姪子去哪裡放電,或是安排哪些暑期活動😂 ▼剛好我想到朋友小孩在學兒童非洲鼓,聽說學得挺好的,內容也豐富充實,所以推薦我哥送姪子去學看看,沒想到第一堂課就愛上了!
Thumbnail
avatar
走跳台南人
2023-08-13
2023 暑期「花卉靜物」研習課很多愛花的朋友常跟我提起,說是喜歡像油畫一般的那種作品。 仿靜物畫的確已經流行了好一段時間,那種令人如在畫中的空間感,讓很多人都很喜歡。花卉靜物按照歷史發展,大致可分為兩種,一種是外形規整且具宗教象徵意義,一種是輪廓不定、純粹配合空間裝飾……
Thumbnail
avatar
寧曦花苑
2023-08-02
百年世紀的「圖坦卡門:出土百年紀念特展」讓金色流沙畫出法老時代~國立臺灣科學教育館「暑期開展」掀開法老文物的沉醉影像臺灣黃姓藝人~昨日出席圖坦卡門的展示會,表示藝壇界的狀況!此展覽開放至9月3日,替許多民眾增加不同的世界觀。
Thumbnail
avatar
Fish fish
2023-06-28
【行銷實習】非商管背景申請 2023 Acer 暑期實習面試心得與過程分享(上)趁暑期實習的求職季差不多結束了,想把前陣子在 Acer 面試的過程記錄下來,剛好發現網路上有關 Acer 面試的資訊也不是很多,希望這篇文能幫助到需要的人。本文將針對團體面試及個人面試過程分享,並提供一些自己覺得有幫助的 tips!
Thumbnail
avatar
黃弈軒 Yi Hsuan Huang
2023-06-12
當看見他人成功時,你會心存忌妒生氣嗎? 如果會,你正在毀滅自己的成功!---太上感應(十七)※但凡是人,或多或少都會有忌妒心。因為從小在家中、學校中,耳聽目染。相信大部分父母、老師都不在意這種被西方文化稱之為[正常情緒]的心裡想法。 但忌妒是惡念。太上教誨我們,見人之得如己之得,遇見他人成功時,常有歡喜感恩心,祝福成就他人,種下如此善念善因,日後人神襄助,事事順遂,自己事業如何會不成就呢?
Thumbnail
avatar
妙音
2023-04-17
身而為神 12 三天一次的十歲十七歲未成年小夫妻本書主要風格:西式奇幻 本質上,這是一本非常希臘神話的書 本書的主角是神,古希臘神話那樣充滿七情六欲,愛恨情仇的眾神 不是血肉凡人修煉成神 是神靈降生母胎出生成為血氣凡人,再生活在血肉凡人之間的神 本書講述一名十歲小男孩,因為經歷的各種事,逐漸長大 最後成長為一名成熟,有擔當,有責任感,扛得起,頂天
Thumbnail
avatar
文以載道>身而為人,我很抱歉,真的很抱歉
2023-03-03
身而為神 11 成為十歲和十七歲的未成年小夫妻移克大聲的公開控訴百合公主已經是有自己這個正式丈夫的非處女,所有觀禮者開始騷動! 百合公主趕緊蹲下來面對我,握起我的雙手 「尊貴我主,相信你一定會知道真相,不會冤枉百合,不過現在百合還是要說,百合是認識那位移克,雙方曾經有一些往來,不過大多只是交際往來聊天吃點心的一般程度,百合絕對是純潔清白的,百合
Thumbnail
avatar
文以載道>身而為人,我很抱歉,真的很抱歉
2023-03-02