【AI 人工智慧】類別不平衡

更新於 發佈於 閱讀時間約 1 分鐘
類別不平衡
今天想要跟大家分享的主題是”類別不平衡”問題,這個是實務上在導入人工智慧時,非常常見的問題,那麼什麼是”類別不平衡”呢?
當然,我個人認為如果”成本”以及”時間”允許的話,持續蒐集少量類別的資料才是最好的方法,畢竟如果是自己製造出的少數類別資料,很有可能會無法充份反應真實資料的情況。
假設我們想要根據過去的天氣資料,來預測台北明天溫度是否會超過38度,也就是說,我們將明天的溫度分成大於38度以及小於38度兩類。
然而,根據歷年來所有統計的資料來看,台北超過38度的日子其實是非常少也相當罕見的,此時,兩個類別的資料數量差距會非常大,這就是我們所謂的”類別不平衡”,或者換句話說,當某類的類別是相對於其他類別來得罕見許多。
如果我們貿然的直接將類別不平衡的資料集拿去給人工智慧做學習,那麼很有可能會讓AI學到”只會預測明天天氣低於38度”這樣的結果,表面上他好像每天的溫度預測非常的準確,但實際上他喪失了預測異常溫度的情況!這並不是我們想要的結果。
一般來說,我們會期望不同類別之間的資料量差不多,但如果真的遇到了類別不平衡,除了花更多時間以及資源去蒐集更多罕見類別資料外,也有人會利用一些方法自己去大量製造少數類別的資料,來讓類別與類別之間更加的平衡!
*本文由知名AI講師-Isaac Lee 李厚均所撰寫
文章轉載自我們共同經營的粉絲頁-小李談數智https://www.facebook.com/isaac60103
更多圖解內容可以到 耀西圖像視覺化教室看看https://www.facebook.com/YoshiGraphics
為什麼會看到廣告
avatar-img
11會員
33內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Liao Yoshi的沙龍 的其他內容
今天要來跟大家介紹一間非常有趣的人工智慧公司vectordash,這是個怎麼樣的一家公司呢?讓我們來了解一下...
常常有人在問,為什麼這幾年人工智慧會突然爆紅?原因有非常的多,但如果單以”技術”的角度來看,這幾年科技的發展剛好滿足了人工智慧的三個基本需求─算法、算力及資料...
寒武紀科技(Cambricon Technologies Corporation Limited)是一家在AI晶片非常有名的新創公司。於2016年創立,期望以成為全球第一價量產商業人工智慧晶片的公司,希望藉由高性能的人工智慧晶片讓客戶帶來更多的複雜運算與應用...
今天我們來介紹一家非常有名的AI獨角獸,商湯科技(SenseTime)。 這是家由香港中文大學工程學院團隊所組成的公司,也被稱為是博士密度最高的AI公司,成立的時間僅短短的4年,就擁有超過400家的企業成為他們合作夥伴,在規模及市佔率上面完全不遜於許多大型科技公司,實力不容小覷...
隨著網路以及數位化的興起,資料比以往更加的容易傳播以及儲存,過去使用者總是需要主動式的去獲取重要的資訊,然而,現在每天數以萬計的海量資料,我們是否已經漸漸變成被動式的接收各種重要或不重要的資訊了呢?
而在非監督式學習裡面,有一個種類的學習應用場景非常的特殊,它能夠幫助我們尋找資料之間隱藏的規則,協助我們去做商業決策,這就是我們今天想來談談的主題─關聯規則學習(association rule learning)...
今天要來跟大家介紹一間非常有趣的人工智慧公司vectordash,這是個怎麼樣的一家公司呢?讓我們來了解一下...
常常有人在問,為什麼這幾年人工智慧會突然爆紅?原因有非常的多,但如果單以”技術”的角度來看,這幾年科技的發展剛好滿足了人工智慧的三個基本需求─算法、算力及資料...
寒武紀科技(Cambricon Technologies Corporation Limited)是一家在AI晶片非常有名的新創公司。於2016年創立,期望以成為全球第一價量產商業人工智慧晶片的公司,希望藉由高性能的人工智慧晶片讓客戶帶來更多的複雜運算與應用...
今天我們來介紹一家非常有名的AI獨角獸,商湯科技(SenseTime)。 這是家由香港中文大學工程學院團隊所組成的公司,也被稱為是博士密度最高的AI公司,成立的時間僅短短的4年,就擁有超過400家的企業成為他們合作夥伴,在規模及市佔率上面完全不遜於許多大型科技公司,實力不容小覷...
隨著網路以及數位化的興起,資料比以往更加的容易傳播以及儲存,過去使用者總是需要主動式的去獲取重要的資訊,然而,現在每天數以萬計的海量資料,我們是否已經漸漸變成被動式的接收各種重要或不重要的資訊了呢?
而在非監督式學習裡面,有一個種類的學習應用場景非常的特殊,它能夠幫助我們尋找資料之間隱藏的規則,協助我們去做商業決策,這就是我們今天想來談談的主題─關聯規則學習(association rule learning)...
你可能也想看
Google News 追蹤
Thumbnail
在創作的路上真的很多人問我說 到底要怎麼做出符合自己期待 但又可以表現得很有美感的作品?🥹 這個問題真的應該是每個創作者都一直在學習的課題吧!
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
前兩天全台灣都放到了颱風假,有的地方平安無事,而有的地方豪雨成災,就想到用AI生成颱風天的街景,看看AI的功力如何? 這次全部使用的是tengrAI ,真人模式,指令如下: 在颱風天的台北街頭,下大雨,吹強風,一個台灣女子,穿上班族套裝,撐傘,勉強的前進。 生成的圖片,沒有強風吹襲
Thumbnail
這是嘗試用AI生成的颱風畫面。 我個人覺得有某些畫面還是不錯,但大部分都不是很規範。 在畫面的生成上需要多多學習跟討論的。 提示詞:颱風帶來強勁風勢和豪大雨量,導致多處地區發生淹水、土石流等災害。效果:這張的表示不錯,但房子很顯然是日式的。 提示詞:強風吹倒大量路樹,阻礙交通,並可能造成人員傷亡
Thumbnail
關於颱風假,我問了 CHATGPT一個很簡單的問題,回答的架構也不錯,但內容有錯,還是要提醒一下…, 想透過AI得到解答的人,一定要很清楚,AI在法律問題上錯得會有點嚴重。 關於颱風假的規定,台灣的法條主要依據《災害防救法》和《勞動基準法》進行管理。以下是一些關鍵點:
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
自然語言模型中,「Temperature」和「Top_p」扮演著重要的角色,它們可以影響生成的文本風格和內容的豐富度。本篇將探討這兩個概念,並提供了多個相關的範例來幫助讀者更好地理解它們的作用。無論您是開發人員還是使用者,這些設定值的調整都可能會對生成的內容產生重大影響,因此值得進行實驗和測試。
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
Thumbnail
題目會給定一個輸入陣列temperatures ,分別代表每一天的溫度。 請計算每一天還要再過幾天才會遇到更溫暖的日子,如果遇不到,則回填0。 請以陣列的形式返回答案。 題目的原文敘述 約束條件 Constraints: 1 <= temperatures.length <= 10^
Thumbnail
近年來,科技業一直處於快速發展的前沿,而其中最引人注目的趨勢之一是人工智慧(AI)與可持續發展理念的結合。這種結合不僅為企業帶來了更高效的生產方式和更優質的產品,還有助於解決全球性挑戰,如氣候變化和資源枯竭等問題。在本文中,我將探討這兩個領域的融合,以及我對其未來發展的看法。 首先,讓我們
Thumbnail
在創作的路上真的很多人問我說 到底要怎麼做出符合自己期待 但又可以表現得很有美感的作品?🥹 這個問題真的應該是每個創作者都一直在學習的課題吧!
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
前兩天全台灣都放到了颱風假,有的地方平安無事,而有的地方豪雨成災,就想到用AI生成颱風天的街景,看看AI的功力如何? 這次全部使用的是tengrAI ,真人模式,指令如下: 在颱風天的台北街頭,下大雨,吹強風,一個台灣女子,穿上班族套裝,撐傘,勉強的前進。 生成的圖片,沒有強風吹襲
Thumbnail
這是嘗試用AI生成的颱風畫面。 我個人覺得有某些畫面還是不錯,但大部分都不是很規範。 在畫面的生成上需要多多學習跟討論的。 提示詞:颱風帶來強勁風勢和豪大雨量,導致多處地區發生淹水、土石流等災害。效果:這張的表示不錯,但房子很顯然是日式的。 提示詞:強風吹倒大量路樹,阻礙交通,並可能造成人員傷亡
Thumbnail
關於颱風假,我問了 CHATGPT一個很簡單的問題,回答的架構也不錯,但內容有錯,還是要提醒一下…, 想透過AI得到解答的人,一定要很清楚,AI在法律問題上錯得會有點嚴重。 關於颱風假的規定,台灣的法條主要依據《災害防救法》和《勞動基準法》進行管理。以下是一些關鍵點:
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
自然語言模型中,「Temperature」和「Top_p」扮演著重要的角色,它們可以影響生成的文本風格和內容的豐富度。本篇將探討這兩個概念,並提供了多個相關的範例來幫助讀者更好地理解它們的作用。無論您是開發人員還是使用者,這些設定值的調整都可能會對生成的內容產生重大影響,因此值得進行實驗和測試。
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
Thumbnail
題目會給定一個輸入陣列temperatures ,分別代表每一天的溫度。 請計算每一天還要再過幾天才會遇到更溫暖的日子,如果遇不到,則回填0。 請以陣列的形式返回答案。 題目的原文敘述 約束條件 Constraints: 1 <= temperatures.length <= 10^
Thumbnail
近年來,科技業一直處於快速發展的前沿,而其中最引人注目的趨勢之一是人工智慧(AI)與可持續發展理念的結合。這種結合不僅為企業帶來了更高效的生產方式和更優質的產品,還有助於解決全球性挑戰,如氣候變化和資源枯竭等問題。在本文中,我將探討這兩個領域的融合,以及我對其未來發展的看法。 首先,讓我們