無意義的句子
無意義的句子,有可能正確有可能不正確,屬於雜訊。
他 一點 也 不 懷疑 她 是 賺門 而 如 的 假貨 。
LibraryandInformationTechnologyAssociation
--------------------------------------------
類似以上的整句都是全型英文或者符號的句子,也不該放入語料庫之中。
標準類
關於「標準」的影響有多大,上一篇文章已經提到。這裡可以用實例來說明。
就跟錯誤類一樣,標準也是多層次存在的問題,既存在於詞彙的判斷本身,也存在於句子的分詞標準之中。詞彙的判斷標準不一,自然導致分詞的標準不一。
譬如:
而 從 以上 這 些 觀點 分析 ,
更 別 說 有 哪些 主流 的 流行 色彩 了 。
協議 那些 事 要 做 那些 事 不要 做 ,
「這些、哪些、那些」明顯是一類的東西,卻有不同的分類標準。其他例子如:
而是 應該 要 與 同學 們 好好 相處 ,
同學們 還 在 學習 基礎 識圖 、 製圖 時 ,
經 法務部長 陳定南 多次 要求 停工 ,
他 在 那裡 潛水 多 次 從 沒 發現 此 現象 ,
那麼當我們已經知道了這個訓練集分詞不一的結果之後,我們自然好奇中研院中文分詞系統究竟會選擇哪一個來分詞,因此下面除了給出這種分詞標準不一的句子,也給出一些CKIP自己的分詞結果。讀者一比對就知道貓膩所在!
譬如「還要」這種類型的字串根本沒有詞性「兼類」的問題。以下是CKIP的實際分詞案例:前三例是「還要」、後三例是「還+要」,請問標準在哪?一般使用者怎麼知道什麼時候會拆成「還要」?什麼時候又會拆成「還+要」?不知道,怎麼運用?
比 郭子乾 等 人 加起來 約莫 25萬 還要 多 。
母親 每 天 還要 帶 三 餐 ,
她 還要 勞累 到 什麼 時候 才 能 休息 ?
還 要 包括 一 群 喜愛 小說 的 該 刊 讀者群 。
還 要 招收 外國 學生 來 台 學習 漢語 文化 ,
還 要 再 加上 抗生素 的 使用 。
CKIP相關解法:CKIP的解法完全就是測試集的解法,一一對應。
比(P) 郭子乾(Nb) 等(Cab) 人(Na) 加起來(VB) 約莫(Da) 25萬(Neu) 還要(Dfa) 多(VH) 。(PERIODCATEGORY)
母親(Na) 每(Nes) 天(Nf) 還要(Dfa) 帶(VC) 三(Neu) 餐(Nf) ,(COMMACATEGORY)
她(Nh) 還要(Dfa) 勞累(VH) 到(P) 什麼(Nep) 時候(Na) 才(Da) 能(D) 休息(VA) ?(QUESTIONCATEGORY)
還(D) 要(D) 包括(VK) 一(Neu) 群(Nf) 喜愛(VL) 小說(Na) 的(DE) 該(Nes) 刊(Na) 讀者群(Na) 。(PERIODCATEGORY)
還(D) 要(D) 招收(VC) 外國(Nc) 學生(Na) 來(VA) 台(Nc) 學習(VC) 漢語(Na) 文化(Na) ,(COMMACATEGORY)
還(D) 要(D) 再(D) 加上(VC) 抗生素(Na) 的(DE) 使用(VC) 。(PERIODCATEGORY)
又如「共有」也不屬於「才能、都會」一類的字串。但CKIP有如下分歧的分法。試問其標準何在?
(87) 水 污染 防治 台灣 地區 共有 河川 129 條 ,
過去 共有 七十八 次 的 發射 經過 ,
今年 學測 共有 八十七 名 身心 障礙 生 報考 ,
共 有 七五 人 入選 ,
共 有 三千五百卅八 人 感染 愛滋 ,
他們 的 成員 共 有 四十多 位 ,
CKIP:CKIP再次一一對應測試集。
(87)(Neu) 水(Na) 污染(VC) 防治(VC) 台灣(Nc) 地區(Nc) 共有(VJ) 河川(Na) 129(Neu) 條(Nf) ,(COMMACATEGORY)
過去(Nd) 共有(VJ) 七十八(Neu) 次(Nf) 的(DE) 發射(VC) 經過(Na) ,(COMMACATEGORY)
今年(Nd) 學測(Na) 共有(VJ) 八十七(Neu) 名(Nf) 身心(Na) 障礙(Na) 生(Na) 報考(VC) ,(COMMACATEGORY)
共(Da) 有(V_2) 七五(Neu) 人(Na) 入選(VJ) ,(COMMACATEGORY)
共(Da) 有(V_2) 三千五百卅八(Neu) 人(Na) 感染(VJ) 愛滋(Na) ,(COMMACATEGORY)
他們(Nh) 的(DE) 成員(Na) 共(Da) 有(V_2) 四十多(Neu) 位(Nf) ,(COMMACATEGORY)
又如「年、年代、年度、年次」前面的數字是接續還是斷開,標準不一,以至於使用者不可能知道其規律究竟何在!嚴格說來,這種失誤完全可以用「正則表達式」掃出。不過測試集沒有做到,而CKIP的分詞也是標準不一,參考以下CKIP分詞:
一九五O 年 後 大陸 及 北半球 氣溫 略 有 下降 ,
從 一九九○年 波斯灣 戰爭 結束 以來 ,
厲莉 與 其 夫婿 在 一九九一年 到 澳洲 另外 開 了 一 家 厲家菜 餐廳 ,
CKIP:完全一一對應測試集,錯的也解出一樣的。
一九五O(Neu) 年(Nf) 後(Ng) 大陸(Nc) 及(Caa) 北半球(Nc) 氣溫(Na) 略(D) 有(V_2) 下降(VA) ,(COMMACATEGORY)
從(P) 一九九○年(Nd) 波斯灣(Nc) 戰爭(Na) 結束(VHC) 以來(Ng) ,(COMMACATEGORY)
厲莉(Nb) 與(Caa) 其(Nep) 夫婿(Na) 在(P) 一九九一年(Nd) 到(VCL) 澳洲(Nc) 另外(Da) 開(VC) 了(Di) 一(Neu) 家(Nf) 厲家菜(Nb) 餐廳(Nc) ,(COMMACATEGORY)
CKIP以及測試集有「很多、很少、更多、更少」,但沒有「更低、更高」,後者都是拆開的。試問前者結合的標準何在?使用頻率比較高?「更高」使用兩次,「更少」也使用兩次,顯然說是依靠頻率顯然不對。說是純粹主觀判斷是比較可信的。於是一個本來簡單的規則,因為這些字串的存在而變得複雜起來,不利於統計(譬如對於「很、更」等的統計,難以得出客觀的語言現象數據以供分析),也難以依靠這個達到很好的精確度,要往問答系統上運用,那也是自找麻煩的一種做法。以下都是一些相關的標準不一的例子。
同 路段 之 客運 有 很多 家 ,
同(Nes) 路段(Na) 之(DE) 客運(Na) 有(V_2) 很多(Neqa) 家(Nc) ,(COMMACATEGORY)
中央政府 資源 及 人才 較 多 ,
以 木材 材料 較多 ,
較少 爆炒 的 菜 ;
就 意味 著 會 有 人 獲得 較少 的 資源 ,
CKIP:這裡沒有一一對應。
中央(Nc) 政府(Na) 資源(Na) 及(Caa) 人才(Na) 較多(VH) ,(COMMACATEGORY)
以(P) 木材(Na) 材料(Na) 較多(VH) ,(COMMACATEGORY)
較少(D) 爆炒(VC) 的(DE) 菜(Na) ;(SEMICOLONCATEGORY)
就(D) 意味(VK) 著(Di) 會(D) 有(V_2) 人(Na) 獲得(VJ) 較少(VH) 的(DE) 資源(Na) ,(COMMACATEGORY)
為什麼 夜晚 還是 那麼 冷 呢 ?
」 「 你 穿 的 那麼少 ,
CKIP:這裡又一一對應了。
為什麼(D) 夜晚(Nd) 還是(D) 那麼(D) 冷(VH) 呢(T) ?
」(PARENTHESISCATEGORY) 「(PARENTHESISCATEGORY) 你(Nh) 穿(VC) 的(DE) 那麼少(VH) ,(COMMACATEGORY)
不可避免的詞彙
有些詞,我們是能避免收入詞彙庫之中的,譬如「技術人員、太陽能電池」,但有些詞,它本身就存在多種可能,是無法從詞彙庫「收與不收」來加以解決的,譬如「才能、都會、國中」,其分開與合併的形式都各有意義,因此詞彙庫收詞無法避免收入「才能、都會」。如此一來,單純使用字典分詞法的最大匹配就永遠無法正確對牽涉到「才能、都會」的句子進行分詞,而類似「才能、都會」都是極高頻率的常見字串,如此一來,錯誤率必然大增!
語料庫收詞標準不一,起因於分詞標準不一,如「二 月、十幾 號」有分開的也有合併的,應採用一致的標準。從語料庫提取的十四萬多組之中,共有九千多組(9027組)在實際分詞中呈現標準不一的詞彙,這些詞彙所牽涉到的句子多達四十五萬句左右(總數六十幾萬句,由原七十幾萬句刪除重複而得。)。換句話說,當分詞系統分到這些詞卻採用統一的標準來分時,會得到很低的分數。以「技術人員」為例,分合幾乎各佔一半。
技術人員 22 24
令 人 感受到 一 種 屬於 技術人員 的 無華 風采 。
並 很 快 成為 該 所 的 技術人員 。
研究 與 技術人員 雙方 在 此 一 合作 過程 中 ,
其 主要 目的 係 讓 所有 美國 科學家 及 工程 技術人員 能 共享 資料 ,
行政 或 技術人員 ,
由於 沒 能 正確 的 認識 技術 人員 與 支援 學術 工作 的 人 在 學術 機構 扮演 重要 角色 ,
即 需要 許多 何 先生 型 的 技術 人員 協助 ;
此外 也 獲得 物理所 訓練有素 之 多 位 技術 人員 的 支持 。
合理 地 納入 支援 研究 的 技術 人員 ,
在 編制 內 合理 地 納入 支援 研究 的 技術 人員 ,
結論
結論是中研院中文分詞語料庫充滿難以修復且為數眾多的雜訊與弊端,其中包括重複句子、不同分詞結果的重複句子、分詞標準不一的詞彙、錯誤的詞彙、未規範的中文標點符號、一大堆的錯字、漏字、簡體字、不能理解的句子等等等。
中研院的分詞系統之所以能對語料庫中的錯誤做出正確分詞,那是因為這些都是其「訓練集」的一部分。那麼當我們回過頭來看一下中研院相關的宣稱:「CkipTagger表現遠高於中國的結巴,中研院在中文斷詞準確度可達到97.49%,相較之下,中國的結巴只有90.51%。」(新聞出處:https://www.ithome.com.tw/news/132838)各位能想到什麼?一大堆分詞標準不一的東西,為什麼準確度能達到「97.49%」?也就是說,遇到A句就用A分法、遇到B句就用B分法,說穿了不僅僅是過擬合的問題,還是把「測試集」與「訓練集」一起訓練的結果!不管有沒有分「測試集」與「訓練集」,這些都是其語料庫以及其用來給出準確度的根據。
最後一個需要特別提醒的地方,當你或你的公司拿這樣的語料庫來測試自己的分詞系統,你覺得會如何?可能的其中一種結果是,其實你的分詞系統面對真實語料的表現比實際還好,但因為你不知道你所用來比對的分詞結果存在這麼多問題,於是你或你的老闆以為不好,然後你就去調東調西,然後在與這個語料庫比對的過程中得出了比較好的結果,卻不知道可能在面對真實語料時,你反而把好的給調糟了!確實,你永遠不可能知道!
可惜的是中研院的名頭太大,以至於跟我合作過的組織,甚至還有主張一定要用這個充滿各式各樣錯誤的語料庫的分詞結果來衡量我的分詞系統的準確度的。說實在話,只要把這個語料庫中的重複語料全部刪除,個人的初代技術就能很好的達到100%的準確率(也就是每一句都分出一模一樣的分詞)以及很好的泛化效果(也就是改動其中某些等類詞彙,效果不變。)。不過當然,那種意義是不大的。只是告訴個位從業者,針對這種充滿謬誤的語料庫所得出的分詞準確率幾乎是毫無意義可言的!當前的中文分詞系統面對真實語料的一般水平就是70%左右而已,遇到特殊領域的語料,自然就更低了。
當然,錯誤、標準問題不是中研院中文語料庫所特有的問題,而是當前學界與業界普遍無法解決的問題,也就是說當前各位所能接觸到的語料庫都存在這些問題。只是或多或少的問題而已。所以當有什麼研究論文或者什麼企業又說他們在這些語料庫的分詞中得出了多高的準確率,幾乎可以一笑置之了。
有了以上的認知,相信各位所控管的語料庫中的錯誤率可以降到歷史新低了。但標準問題,只能說當前台面上的理論是無法解決的。這一點以後講到語言學的部分會再詳細介紹。
以上只是淺淺而論,上面講到的很多問題,其實也早就有解法了(有些上面已經提到),也早就被設計到個人的分詞系統之中。只是這篇文章已經太長,這個坑以後有機會再填吧!
看完以上的文章,我估計很多從業人員應該能清楚意識到,以上的問題以及其所導致的後果遠遠不是「調參數」就能解決的!