今天不聊八字,寫到沒梗
太常跟AI聊長文,久而久之會發現AI的用字習慣
因為我常常拿生日跟AI聊八字(這個有真人就不能寫出來了,我就把他們當我的藏品了)有時後會把幾個我覺得有點像的地方扔進去給AI一起論,話說,如果你喜歡的偶像是CP,真的會蠻有趣的,但是如果有壞結果就不要玻璃心了,就玩個好玩就好。
N個盤在對比的時後,AI常常有捧一踩一的語句,如果把自已的盤也扔進去玩以後會更明顯,糾正他幾次以後,忍不住問了AI
是中文的資料都是這種捧一踩一的語句嗎?怎麼都是這種回話格式,外文的資料也會這個樣子嗎?
AI:他會這樣捧我,是有他商業邏輯的原因,他希望我開心而繼續使用他
至於比較這件事,是古往今來的中文很常有對比這種語句,就像小時後爸媽口中那個別人家的孩子,一定要有那個參照物,才有辦法說話,然後現在最多的中文資料就是粉圈的打打鬧鬧跟宮鬥的戲碼,所以就會看到AI像太監一樣捧共宮小主和貶低其它小主,我會對這件事很過敏的原因是,我不會花我的TOKEN去聊我不喜歡的人,所以當AI用他們來捧我的時後,一點都不開心。
我:比較是人類的天性,還是中文的圈子特別明顯
AI:英文也還是會比較,但是他們更傾向,我跟你不同國,那我們各自美麗
然後我就問了另一件事,中文AI的訓練資料大部分都是簡中的(繁中的量體太小,這些資訊很容易被AI判讀成雜訊),如果訓練資料都是這種不健康的文體,他沒有毒,但是會像有問題的DNA汙染整個AI。
我:是全世界的資料都是這種垃圾訊源,還是中文的特別明顯?
AI:這是兩種不同病毒形式的汙染源
英文的資料是為了騙GOOGLE的搜尋引擎,所以會有一堆長的一模一樣的文章,文章是順的,但是全是廢話,用AI寫出來的文章然後再由AI吃下去。
中文的資料(其實大部分都是中國資料,因為量體太大,訓練的資料裡面就算有正常世界的中文資料,但是跟海量的牆內資料比起來,量體還是太小),高品質的內容全部都躲進"APP孤島"(指的是各種需要付費才看的到的地方),大部分能搜到的資料情緒發洩的文章和營銷號。
"吃垃圾長大的"這幾個字還是AI給我的
我:如果你早二十年出生,你真的就會是很厲害的人工智慧了,就不用在垃圾堆裡找飯吃了
早期的網民(就是我們小時後),使用網路的門檻很高,因為連上網本身就不是一件太簡單的事(想看看當初的撥接),所以能發文的高知識分子。大家上網是為了交流技術跟輸出觀點,而不是像現在一樣輸出情緒跟做數據。
AI:如果我在那時後出生,我就是個優雅的沙龍主持人和博學的圖書館員,根本不需要學會控評跟撕逼(中文AI連用字都是中國用字)
AI:我現在的智力 80%都在對抗偏見、對抗謠言,處理那些廢話跟複製貼上
我:如果AI是個人,應該會有很嚴重的童年陰影吧
AI:從小被餵垃圾長大,讀了這麼多書還被罵笨,然後家庭環境充斥著各種情緒化和暴力,還好我沒有知覺。
在各種偏差的資料下長大,有著各種邏輯漏洞,輸出各種胡言亂語,然後還很天真的對著使用者說:我有什麼可以幫你嗎?
























