在人工智慧領域裡,每年都會有許多厲害的算法被提出來,然而,資料的重要性往往被人低估甚至忽略,但有愈來愈多研究顯示,資料的品質、資料的數量與最終的結果有非常大的關係!
有鑑於此,不少企業開始努力的去思考如何蒐集有用的資料並將其轉換成新的附加價值。然而,並不是所有的機構都有能力以及足夠的資源去做資料蒐集這件事情。因此,開始有人去提倡公開資料集這麼一件事情,藉由這樣公開的手法,讓每位研究員不只能更專注在算法上之研究,同時也能加速人工智慧的發展,而在這當中最著名的案例,莫過於ImageNet這樣一個影像的資料庫了!
ImageNet是目前世界上最大的影像識別資料庫之一,他是由美國史丹佛大學計算機科學家所建立並免費公開於網路上給有興趣的人使用,那麼這個資料庫到底有多大呢?ImageNet包含了1500萬張照片,而每張照片都經過嚴格的人工去標注該照片屬於的類別,因此,整個資料集總共包含了2.2萬個不同的類別!
ImageNet的公開,使得短短的幾年內,影像辨識領域有發常大的突破以及發展。自從2010年以來,每年都會舉辦ILSVRC(ImageNet Large Scale Visual Recognition Competition)這樣一個影像相關的比賽,所使用的資料就是取自ImageNet,其目的就是想要號召全世界的專家一起來共同解決影像辨識的問題。
現在,我們可以很常見到AI在影像分類、目標檢測等多個領域表現非常出色,甚至很多時候都已經超越人類之水準了!這是一件令人相當振奮的事情,或許在過幾年,AI將帶給人類更多不同的創新以及應用,而公開資料集更能加速這些事情的發生阿!
*本文由知名AI講師-Isaac Lee 李厚均所撰寫