人工智慧與自然語言處理想要說什麼?標準重要嗎?

更新於 發佈於 閱讀時間約 4 分鐘
研究人工智慧數十年了,看了近千本語言學以及人工智慧技術的書籍,寫了百萬字的筆記,清理過數百萬的詞彙、句子資料庫,發明了自己的預測輸入法(手機)與中文校對軟體、分詞系統、標註系統。接觸過很多理論與技術,發現很多問題。最近感覺年紀也差不多了,這麼多的筆記、資料,沒有整理,人走了就是廢物了,也感覺是虛耗了以前的生命。所以開了這個專題,把相關的筆記、感想、發現整理一下。不一定都是什麼高深的玩意,而可能有很多很基礎的東西,這些東西可能被人忽視甚至輕視,或者以為沒什麼影響卻其實影響整體效能非常深遠,甚至達到無法解決的地步。
如果就中文自然語言處理這一塊來說,很多問題(有些極簡單)大家瞎忙了半個世紀,嘗試過無數辦法,卻依然沒有解決。要說搞什麼大工程,中國過去數十年搞了一大堆大工程,譬如詞彙信息庫、標註庫等等都已經做過,而且規模很大;至今還在維護與新增的也還有(北大)。但即使如此,結合當代的機器學習技術,很多問題雖然被發現了(有些數十年前就發現了),但始終沒法解決。確實,這結果有點讓人不可思議。怎麼可能一大堆高級菁英掌握了龐大的資源(包含資金、人才、機器、理論、時間)卻還是解決不了一個類似「The box was in the pen」的翻譯問題,或者甚至中文分詞的精確度始終無法達標(那些號稱95%以上的分詞系統,在實際運用中大概都只有70%左右的準確度。這些都會在以後的介紹清單之中。)。但事實就是如此。
華人百科關於「中文分詞」有這樣一段話:「統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。」但事實上關於什麼是正確與錯誤這件事本身就存在嚴重的分歧。這大概分為兩種情況:
一是用來比對的句子本身就是錯的,包含缺字、多字、錯字(元素類),甚至整個句子都錯的情況(語法、語義等類)。但一般人(尤其幾年來)都會誤以為只要數據庫夠大,可以不用理會這些錯誤。直到這一年多來,現實才漸漸讓原本如此主張的人沉默了。
二是怎麼分才算對的問題。而這其實佔據的比例遠比第一項大得多,影響也大得多。譬如:「構成太陽能板的太陽能電池可由不同光伏材料製成」,可以分成:
1.構成-太陽能板-的-太陽能電池-可-由-不-同-光伏材料-製成
2.構成-太陽能板-的-太陽能-電池-可由-不同-光伏-材料-製成
哪一種才算對?這時候的對與錯已經不是句子元素本身的問題而是「標準」的問題。但很不幸的,關於什麼是「詞」的標準至今無法得出一個大家都能遵循的標準!怎麼分詞,自然也就更無標準可言。即使你拿著一套標準,給標註、分詞人員遵循,甚至給了一套工具輔助他們的工作,很快的,你也很容易發現效果仍然不理想。遑論沒有工具與標準的時候!(甚至意識不到標準的重要的時候)你只是拿到了這些人覺得對的分詞結果。而事實上在語言學界,甚至有為了某些詞的詞性爭論不休的情況,一個詞應該是副詞、形容詞尚且無法認定,試問詞性標註的標準又何在?(以後會談)
而關於上面這一個句子的分詞標準不一的問題,其實普遍存在於開源的分詞資料庫之中。那麼可以想像,當你以第一種為標準去比對分詞後的句子,那麼第二種就是錯誤的,但事實上,要說它錯,恐怕很多人不會同意(每個人都有自己的主觀標準)。假設你用來訓練的分詞庫、標註庫充斥著一大堆標準不一的分詞結果(通常人是無法直觀知道分詞標準不一的,因為在人的理解上,它並沒有錯。),那麼會導致什麼結果,不言可喻!譬如你發現了問題,去調東調西,把針對測試集的分數提上去了,但事實上面對真實語料的能力反而下降了,主管喜歡看哪一種結果?哪一種結果更好交差?那麼這樣標準不一的比例有多少?有些資料庫可能有50%的句子觸及到不同標準的分詞方式。50%,人眼看不出標準的問題(除非有意識、記憶力強、有相關輔助工具),便很容易不知道問題出在哪了!於是去調一大堆參數,以為就能解決問題。其實解決了這個問題,卻造成了其他問題,只是可能客戶端還沒試出來罷了!
單單把「錯誤+標準」的問題結合起來,就能讓一大堆的運用大打折扣了!而尤其標準的問題影響更深遠,因為「錯誤」很容易發現與剃除(至少相對來說),而「標準」卻不容易發現與標準化。
所以看到這裡大概你也能懂,為什麼Bert能在問答系統、翻譯系統表現得比其他需要借助分詞的系統取得更好的成果!為什麼?因為它是字級別的(不分詞),不用觸碰到分詞的「標準」問題。所以寫到這裡,Bert為什麼能在多個系統中達到輾壓其他借助分詞的系統的成果,以及「標準」問題有多大的影響力,大家應該已經有了深刻的理解了!可惜的是並非所有中文自然語言處理都不需要用到分詞,中文分詞仍有其存在的必要性!因此「標準」問題無法迴避!
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
36會員
133內容數
本專題有兩類文章:一是考證古籍文字的正誤,一是考證先秦諸子的成書年代與真偽。懂得文字的正確或其他可能的解法,才有機會正確的理解古籍。目前考證的文字已經有數千篇,考證書籍真偽的專書已經有數本。並已徹底解決了孫子、老子、文子等等公案。但有些考證尚未成書,考量生活環境,很多成果恐怕難以成書,因此開了這個專題加以發表。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
「直覺和生活常識非常有用,但缺乏知識的直覺會欺騙你。」 「Google對產品經理的要求是,在沒有數據之前不要輕易給出結論。」 「有些事情讓你放棄掉生活中獲得的直覺,是千難萬難。」 「有一點經驗的工程師都知道,任何產品的性能都有一個物理上無法突破的極限, 這個極限並不需要等到工
  今天來閒聊一下標準這件事。由於這裡畢竟是個以小說為主的網站,因此本篇就聚焦在寫作與閱讀這兩方面來討論。   「標準」這個東西其實是最不標準的了,每個人都有自己的標準,會受到喜好、興趣、環境等等的影響而有所不同,而且別說人與人之間,就連同一個人,在不同的時間或人生階段,對同一件事都可能會有不同的
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
當我們太常過於傾向於使用標準制
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
因為特價才買的書,因為我跟另一本「精準思考」搞混了,然後這本書算很標準的日本人科普書,也就是說,會有大量的重複內容……總之,日本科普書我通常評價不會太好…… 這本也是如此,我是說,就內文編輯或呈現方式,不過資訊內容又是另一回事,基本上這本書有其實用性,或者說,正好符合我的需要。 簡單說,因問年紀
Thumbnail
本文探討使用人工智能寫作中文教材時可能遇到的語言錯誤。透過例子指出常見的語病,包括誤解詞語、詞類誤用、前文後理不通和累贅表述。建議使用者在檢查由AI生成的教材時,應特別注意可能出現的語言錯誤,以確保教材的品質和邏輯連貫性。
服務建議書的格式和排版瑕疵, 在評審委員觀點或許不是重大缺失, 但在非專業人士的觀感上, 卻容易變成嚴重的放大缺失   服務建議書雖然不是正式報告或出版品, 仍需接受評審委員審視, 除了盡量避免低級錯誤外, 在排版上,也應追求整齊及美觀   為何會有低級錯誤及排版缺陷?  
前幾天教小朋友功課,看到了幾個錯字,唸了幾句後順便叫他訂正。回頭想想,為什麼我們會說「錯」字呢?錯有不對的意思嗎? 於是立刻和小朋友一起想「錯」的造詞,有錯誤、錯失、過錯、認錯等等,上述都有不正確的意思。但我又想到交錯、錯身而過、錯落有致,甚至連「他山之石,可以攻錯」都想出來了,可是這
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
「直覺和生活常識非常有用,但缺乏知識的直覺會欺騙你。」 「Google對產品經理的要求是,在沒有數據之前不要輕易給出結論。」 「有些事情讓你放棄掉生活中獲得的直覺,是千難萬難。」 「有一點經驗的工程師都知道,任何產品的性能都有一個物理上無法突破的極限, 這個極限並不需要等到工
  今天來閒聊一下標準這件事。由於這裡畢竟是個以小說為主的網站,因此本篇就聚焦在寫作與閱讀這兩方面來討論。   「標準」這個東西其實是最不標準的了,每個人都有自己的標準,會受到喜好、興趣、環境等等的影響而有所不同,而且別說人與人之間,就連同一個人,在不同的時間或人生階段,對同一件事都可能會有不同的
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
當我們太常過於傾向於使用標準制
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
因為特價才買的書,因為我跟另一本「精準思考」搞混了,然後這本書算很標準的日本人科普書,也就是說,會有大量的重複內容……總之,日本科普書我通常評價不會太好…… 這本也是如此,我是說,就內文編輯或呈現方式,不過資訊內容又是另一回事,基本上這本書有其實用性,或者說,正好符合我的需要。 簡單說,因問年紀
Thumbnail
本文探討使用人工智能寫作中文教材時可能遇到的語言錯誤。透過例子指出常見的語病,包括誤解詞語、詞類誤用、前文後理不通和累贅表述。建議使用者在檢查由AI生成的教材時,應特別注意可能出現的語言錯誤,以確保教材的品質和邏輯連貫性。
服務建議書的格式和排版瑕疵, 在評審委員觀點或許不是重大缺失, 但在非專業人士的觀感上, 卻容易變成嚴重的放大缺失   服務建議書雖然不是正式報告或出版品, 仍需接受評審委員審視, 除了盡量避免低級錯誤外, 在排版上,也應追求整齊及美觀   為何會有低級錯誤及排版缺陷?  
前幾天教小朋友功課,看到了幾個錯字,唸了幾句後順便叫他訂正。回頭想想,為什麼我們會說「錯」字呢?錯有不對的意思嗎? 於是立刻和小朋友一起想「錯」的造詞,有錯誤、錯失、過錯、認錯等等,上述都有不正確的意思。但我又想到交錯、錯身而過、錯落有致,甚至連「他山之石,可以攻錯」都想出來了,可是這