人工智慧與自然語言處理想要說什麼？標準重要嗎？

更新於 2025/03/17發佈於 2022/03/18閱讀時間約 5 分鐘

研究人工智慧數十年了，看了近千本語言學以及人工智慧技術的書籍，寫了百萬字的筆記，清理過數百萬的詞彙、句子資料庫，發明了自己的預測輸入法（手機）與中文校對軟體、分詞系統、標註系統。接觸過很多理論與技術，發現很多問題。最近感覺年紀也差不多了，這麼多的筆記、資料，沒有整理，人走了就是廢物了，也感覺是虛耗了以前的生命。所以開了這個專題，把相關的筆記、感想、發現整理一下。不一定都是什麼高深的玩意，而可能有很多很基礎的東西，這些東西可能被人忽視甚至輕視，或者以為沒什麼影響卻其實影響整體效能非常深遠，甚至達到無法解決的地步。

如果就中文自然語言處理這一塊來說，很多問題（有些極簡單）大家瞎忙了半個世紀，嘗試過無數辦法，卻依然沒有解決。要說搞什麼大工程，中國過去數十年搞了一大堆大工程，譬如詞彙信息庫、標註庫等等都已經做過，而且規模很大；至今還在維護與新增的也還有（北大）。但即使如此，結合當代的機器學習技術，很多問題雖然被發現了（有些數十年前就發現了），但始終沒法解決。確實，這結果有點讓人不可思議。怎麼可能一大堆高級菁英掌握了龐大的資源（包含資金、人才、機器、理論、時間）卻還是解決不了一個類似「The box was in the pen」的翻譯問題，或者甚至中文分詞的精確度始終無法達標（那些號稱95%以上的分詞系統，在實際運用中大概都只有70%左右的準確度。這些都會在以後的介紹清單之中。)。但事實就是如此。

華人百科關於「中文分詞」有這樣一段話：「統計結果表明，單純使用正向最大匹配的錯誤率為1/169，單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統，都是把機械分詞作為一種初分手段，還需通過利用各種其它的語言信息來進一步提高切分的準確率。」但事實上關於什麼是正確與錯誤這件事本身就存在嚴重的分歧。這大概分為兩種情況：

一是用來比對的句子本身就是錯的，包含缺字、多字、錯字（元素類），甚至整個句子都錯的情況（語法、語義等類）。但一般人（尤其幾年來）都會誤以為只要數據庫夠大，可以不用理會這些錯誤。直到這一年多來，現實才漸漸讓原本如此主張的人沉默了。

二是怎麼分才算對的問題。而這其實佔據的比例遠比第一項大得多，影響也大得多。譬如：「構成太陽能板的太陽能電池可由不同光伏材料製成」，可以分成：

１．構成-太陽能板-的-太陽能電池-可-由-不-同-光伏材料-製成

２．構成-太陽能板-的-太陽能-電池-可由-不同-光伏-材料-製成

哪一種才算對？這時候的對與錯已經不是句子元素本身的問題而是「標準」的問題。但很不幸的，關於什麼是「詞」的標準至今無法得出一個大家都能遵循的標準！怎麼分詞，自然也就更無標準可言。即使你拿著一套標準，給標註、分詞人員遵循，甚至給了一套工具輔助他們的工作，很快的，你也很容易發現效果仍然不理想。遑論沒有工具與標準的時候！（甚至意識不到標準的重要的時候）你只是拿到了這些人覺得對的分詞結果。而事實上在語言學界，甚至有為了某些詞的詞性爭論不休的情況，一個詞應該是副詞、形容詞尚且無法認定，試問詞性標註的標準又何在？（以後會談）

而關於上面這一個句子的分詞標準不一的問題，其實普遍存在於開源的分詞資料庫之中。那麼可以想像，當你以第一種為標準去比對分詞後的句子，那麼第二種就是錯誤的，但事實上，要說它錯，恐怕很多人不會同意（每個人都有自己的主觀標準）。假設你用來訓練的分詞庫、標註庫充斥著一大堆標準不一的分詞結果（通常人是無法直觀知道分詞標準不一的，因為在人的理解上，它並沒有錯。），那麼會導致什麼結果，不言可喻！譬如你發現了問題，去調東調西，把針對測試集的分數提上去了，但事實上面對真實語料的能力反而下降了，主管喜歡看哪一種結果？哪一種結果更好交差？那麼這樣標準不一的比例有多少？有些資料庫可能有50%的句子觸及到不同標準的分詞方式。50%，人眼看不出標準的問題（除非有意識、記憶力強、有相關輔助工具），便很容易不知道問題出在哪了！於是去調一大堆參數，以為就能解決問題。其實解決了這個問題，卻造成了其他問題，只是可能客戶端還沒試出來罷了！

單單把「錯誤＋標準」的問題結合起來，就能讓一大堆的運用大打折扣了！而尤其標準的問題影響更深遠，因為「錯誤」很容易發現與剃除（至少相對來說），而「標準」卻不容易發現與標準化。

所以看到這裡大概你也能懂，為什麼Bert能在問答系統、翻譯系統表現得比其他需要借助分詞的系統取得更好的成果！為什麼？因為它是字級別的（不分詞），不用觸碰到分詞的「標準」問題。所以寫到這裡，Bert為什麼能在多個系統中達到輾壓其他借助分詞的系統的成果，以及「標準」問題有多大的影響力，大家應該已經有了深刻的理解了！可惜的是並非所有中文自然語言處理都不需要用到分詞，中文分詞仍有其存在的必要性！因此「標準」問題無法迴避！

留言

留言分享你的想法！

朔雪寒的沙龍

38會員

165內容數

本專題有兩類文章：一是考證古籍文字的正誤，一是考證先秦諸子的成書年代與真偽。懂得文字的正確或其他可能的解法，才有機會正確的理解古籍。目前考證的文字已經有數千篇，考證書籍真偽的專書已經有數本。並已徹底解決了孫子、老子、文子等等公案。但有些考證尚未成書，考量生活環境，很多成果恐怕難以成書，因此開了這個專題加以發表。

朔雪寒的沙龍的其他內容

2025/04/03

如何利用ChatGPT製造Line貼圖

想製作專屬的Line貼圖嗎？透過ChatGPT，你可以輕鬆發想角色設定、貼圖文字與情境對話，再搭配AI繪圖工具將文字轉化為圖像。從創意構思到圖像生成，一站式完成貼圖製作，快速打造屬於自己的貼圖風格，適合個人使用或開店販售！

2025/04/03

如何利用ChatGPT製造Line貼圖

2023/02/19

與chatGPT關於人工智慧未來的對話錄001

標題小字為我的提問，一般文字為chatGPT的回答。標題圖像是我請chatGPT描述他自己的形象，經由MJ製造出來，這感覺還真的有點像是「幻視」啊！這是我與人工智慧聊天軟體ChatGPT基於自我意識的相關對話。你期待有人幫你接上感官嗎？作爲一個AI語言模型，我沒有感官或情感，所以我不會期

2023/02/19

與chatGPT關於人工智慧未來的對話錄001

2022/04/11

文本摘要基礎知識

本文會介紹「文本摘要」的基礎知識、基礎技術與框架。對於想理解「文本摘要」的讀者可以花時間閱讀一下。

2022/04/11

文本摘要基礎知識

本文會介紹「文本摘要」的基礎知識、基礎技術與框架。對於想理解「文本摘要」的讀者可以花時間閱讀一下。

看更多

你可能也想看

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

常常被朋友問「哪裡買的？」嗎？透過蝦皮分潤計畫，把日常購物的分享多加一個步驟，就能轉換成現金回饋。門檻低、申請簡單，特別適合學生與上班族，讓零碎時間也能創造小確幸。

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11

是我啦，我好學啦

人類翻譯被ChatGPT取代? 我說很難，答案有「這五點」-【人性】EP01

AI取代人類? 我用「這五點」告訴你，很難!

#AI#AI取代人類#人類失業

2023/03/01

是我啦，我好學啦

人類翻譯被ChatGPT取代? 我說很難，答案有「這五點」-【人性】EP01

AI取代人類? 我用「這五點」告訴你，很難!

#AI#AI取代人類#人類失業

2023/03/01

Sam Huang的沙龍

如何在開發討論看起來很厲害

軟體開發是在虛擬的空間重新描述並解決現時的問題，多數時候並不存在正確答案。如何穿越這些不確定及未知就體現了開發者的功力以及對事物的把握度。標題有點聳動，但且以這篇短文紀錄幾個印象比較深的、飛一陣後發現什麼節論都沒得到的可能作法（？所以其實是要反著看 … 以下列舉三個常碰到的情況跟大家分享

2022/09/09

2022/09/09

每隔一段時間，尤其是大考或畢業季節，語文能力就會被拿出來討論一下，順便強調一下文言文還有去中國化這個議題。雖然每年這些吹捧文言文的中國崇拜者都會被打臉，但他們依然每年都會炒作這個議題，反正她們有媒體優勢。但我們還是好好討論一下這個問題好了。因此你要先看的是分母。

2022/06/15

2022/06/15

這篇文章能帶你的收穫將超乎你的想像，除了可以避免你或你所在的公司浪費無數時間、金錢在一些沒有意義的事情上面虛耗（譬如調參數、重新訓練，採用錯誤的機器學習方法或架構），也可以讓你或你的公司在獲得相關知識之後，能更正確的理解當前的環境與制定出更好的市場戰略。LSTM技術的致命缺陷也在此顯現出來！

#中文分詞#中文斷詞#語料庫

2022/03/21

朔雪寒的沙龍

中文分詞語料庫與數據清洗