入門NLP思維

更新於 發佈於 閱讀時間約 4 分鐘
Google已經是現代人疑難雜症的好幫手,任何事情都能在網路上找到答案,對於入門NLP這件事也是,如果在GOOGLE搜尋”NLP入門”相關的關鍵字,檢索回來的結果大概可以分成兩種,一種是羅列各種NLP技能樹文章介紹,另一種則是介紹NLP書籍,不管是哪一種看到的都是彷彿學不完的知識,瞬間澆熄初學者想入門的熱情,主要原因是我們可以支配的空閑時間不夠用。
因為時間不夠,所以更要了解適合自己的入門方法
如果我們把學習量和可支配空閑時間兩個維度交叉來看如下圖,可以發現當要學習的知識量較大時需要更多時間來消化,通常是學生角色才比較符合這些條件,而一般朝九晚五上班族可支配空閑時間是相對大幅減少的,尤其是有家庭需要照顧的下班後幾乎沒有空閑時間,所以要將NLP技能樹全部點過一次是不切實際的。
既然全部都學學不完,那就隨便選一項有興趣的技能來學吧?
選擇一項看起來有興趣的來切入學習或許也不失為一種好方法,我們常說AI是透過模仿人類的學習行為來學習新事物,在訓練AI模型的方法中,確實有一種就是回饋式學習,具體作法是一開始會讓模型胡亂預測,再由預測結果正確與否回饋給模型,藉由回饋修正模型預測規則來提升準確率,當練習的資料量夠多,模型就能夠收斂到一定的準度。
回到選擇學習技能這件事上,或許我們也能借鏡AI學習法,選擇一項子領域深入研究,在練習過程中自然會遇到需要解決的問題或他人回饋而習得額外的知識,最終提升到能夠在該領域獨立解決問題的能力。
還有其他的選擇方向嗎?
除了選擇一樣有興趣的子領域來學,還有方向可以更簡單的入門嗎,我想可以從學NLP的目的來得到解答,一般來說學習一個技能不外乎是想要用來解決工作上或生活上其他問題,因此如果在練習過程中就能夠學到最有價值、廣泛實用的知識,就不用繞遠路也能夠持續保有熱情學習。
因此我們可以把選擇技能問題轉化為優先學習泛用性高的技能就可以做到現學現賣,除了強化NLP跨領域知識,也能立即提升工作上的生產力。
如果要說明NLP領域廣泛實用的技能,那我想第一個應該是爬蟲,再來是資料探索,最後是語言模型。
資料爬蟲
如果AI模型是身體,那資料應該是身體裡的血液,沒有了血液身體也無法運作,所以一般在入門AI領域時,最先學習的就是資料檢索也就是爬蟲。尤其在資訊爆炸的世代裡,能夠用有邏輯、自動化方式擷取出我們想要的資料是很重要的事情,不僅限文本的爬蟲,包括圖片、影音都是。
資料探索
資料探索是一種透過資料整理方式來認識資料本身的過程,具體的手段有統計、資料視覺化檢視資料分佈,並實際檢查資料內容,釐清問題本身可否透過資料來得到解答,有利於後續的資料分析和建模,但因為過程冗長經常被跳過,不過卻是建模前的重要前哨站。
模型常被當作黑盒子存在且無法解釋預測結果,也比較難以除錯,而資料探索能夠得到更貼近生活語言的解釋,在一些場域中可解釋知識甚至價值更高,像是醫療領域,因為無法解釋的預測不只醫生不敢採納,病人也不會相信。
練習資料探索技巧除了能以各種角度了解資料各種變數關聯之外,學習透過資料來解惑其他人的問題也更有說服力。
語言建模
語言模型子領域有非常多種,在入門中可以從比較簡單常用的應用下手,像是文本分類、輿情分析、文本自動摘要、關鍵字擷取任務。
在具體操作上可以從使用開源軟體並選擇非深度學習模型入門,這個階段是體驗模型實際運用流程,了解資料輸入格式和模型輸出格式,所以可以先以範例文本訓練,並觀察實際輸出的內容是否接近預期的結果,再將訓練資料替換成實際的訓練資料重新訓練,再觀察一次輸出結果是否接近問題的答案。
通常沒有精調的模型準確度會偏低,後續就需要了解演算法內容,並調整合理的參數讓模型更好的學習直到收斂。
NLP領域雖然有看似學不完的技術,但只要根據適合自己的準則來拆解,就能找到能夠持續往前推進的道路,希望這篇能讓你有不一樣的思維方式來踏入NLP。
avatar-img
3會員
3內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
7J的沙龍 的其他內容
在撰寫此篇文章前兩天,知名去中心化金融交易平台wormhole才剛發生了史上第四大加密貨幣洗劫案,共被竊走三億兩千多萬美金。去中心化交易平台帶來新的金融交易模式,也帶走了交易的安全...
如果要用一句話來說的話,那應該是『技術有限,價值無限』
在撰寫此篇文章前兩天,知名去中心化金融交易平台wormhole才剛發生了史上第四大加密貨幣洗劫案,共被竊走三億兩千多萬美金。去中心化交易平台帶來新的金融交易模式,也帶走了交易的安全...
如果要用一句話來說的話,那應該是『技術有限,價值無限』
你可能也想看
Google News 追蹤
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
在現代 Android 開發中,依賴注入(Dependency Injection, DI)是構建可維護、可測試程式碼的關鍵技術。Dagger 作為 Google 推出的依賴注入框架,透過編譯時代碼生成大幅提升效能。本文將以 Kotlin 示範 Dagger 的實際應用。 一、導入 Dagger
申請指標:家庭總收入平均、不動產、動產 家庭總收入平均:每人每月應低於當年度地區公告之最低生活費,共分為三類 (最低生活費訂定以前年每人可支配所得中位數作為依據) 113年低收入所得標準公告如下:(最低生活費) 直轄市(6都): (北部)臺北市 19649元、新北市 16400元、桃園市
Thumbnail
隨著網路威脅不斷增加,虛擬私人網路 (VPN) 已成為保護個人資訊和線上活動的重要工具。 ExitVPN 是一種強大的解決方案,旨在滿足這些日益增長的安全需求,提供強大且用戶友好的體驗,確保為您的所有線上互動提供全面保護。
是否想看動畫,但不知道選擇哪些平台比較好呢? 那我來介紹我自己常用的以下平台!!
1. 錯誤地將「Idea」簡單化為「靈感」: - 許多碩博士生在研究初期,常常將「Idea」僅僅理解為靈感或創意點子,這導致他們忽視了「溯因推理」(Abduction)這一重要的研究思維方式。「溯因推理」是指根據觀察到的事實,推測可能的原因,從而提出有潛力的假說。當學生將「Idea」簡化為靈
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Thumbnail
因為 AI 領域的技術不斷地迭代更新,無法避免的是需要一直去追新的技術 並且需要在一個有限的時間學會,或是實作應用導入到專案之中。 那我覺得在學習新技術可通過以下步驟: 1. 找一個讀得懂的教學資源 現在網路上的教學資源很多,或是書籍的資源也很豐富, 同時也有像是 chatgpt 的 AI
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
學習是三個階段的循環: - 具體階段:情報收集,紀錄體驗 - 抽象階段:抽象化,模型化,發現模式 - 應用階段:實踐,檢證 西尾泰和這一套學習的三階段循環:具體,抽象,應用, 是一個很好的起始框架。 嘗試實踐它,然後持續修改, 你就能逐漸找到自己學習新事物的獨門心法。
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
在現代 Android 開發中,依賴注入(Dependency Injection, DI)是構建可維護、可測試程式碼的關鍵技術。Dagger 作為 Google 推出的依賴注入框架,透過編譯時代碼生成大幅提升效能。本文將以 Kotlin 示範 Dagger 的實際應用。 一、導入 Dagger
申請指標:家庭總收入平均、不動產、動產 家庭總收入平均:每人每月應低於當年度地區公告之最低生活費,共分為三類 (最低生活費訂定以前年每人可支配所得中位數作為依據) 113年低收入所得標準公告如下:(最低生活費) 直轄市(6都): (北部)臺北市 19649元、新北市 16400元、桃園市
Thumbnail
隨著網路威脅不斷增加,虛擬私人網路 (VPN) 已成為保護個人資訊和線上活動的重要工具。 ExitVPN 是一種強大的解決方案,旨在滿足這些日益增長的安全需求,提供強大且用戶友好的體驗,確保為您的所有線上互動提供全面保護。
是否想看動畫,但不知道選擇哪些平台比較好呢? 那我來介紹我自己常用的以下平台!!
1. 錯誤地將「Idea」簡單化為「靈感」: - 許多碩博士生在研究初期,常常將「Idea」僅僅理解為靈感或創意點子,這導致他們忽視了「溯因推理」(Abduction)這一重要的研究思維方式。「溯因推理」是指根據觀察到的事實,推測可能的原因,從而提出有潛力的假說。當學生將「Idea」簡化為靈
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Thumbnail
因為 AI 領域的技術不斷地迭代更新,無法避免的是需要一直去追新的技術 並且需要在一個有限的時間學會,或是實作應用導入到專案之中。 那我覺得在學習新技術可通過以下步驟: 1. 找一個讀得懂的教學資源 現在網路上的教學資源很多,或是書籍的資源也很豐富, 同時也有像是 chatgpt 的 AI
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
學習是三個階段的循環: - 具體階段:情報收集,紀錄體驗 - 抽象階段:抽象化,模型化,發現模式 - 應用階段:實踐,檢證 西尾泰和這一套學習的三階段循環:具體,抽象,應用, 是一個很好的起始框架。 嘗試實踐它,然後持續修改, 你就能逐漸找到自己學習新事物的獨門心法。