以我的在機器學習領域工作7年的經驗,
追求更大的數據集以及更大的模型以達到更好的表現,
這件事已經持續存在15年以上。
這方面的歷史可以讀讀ImageNet的歷史故事。
你會了解到從2009年開始的 ImageNet ,
如何逐步讓許多機器學習的技術民主化,
讓更多的人力投入機器學習的研究之中。
機器學習作為決策自動化重要的一環,只要做得好,
就能為企業節省大量人力成本,並且讓服務的規模更上一層,
所以各種資本都會投入機器學習的研究,追求更好的表現。
而要在具體的任務上獲得更佳的表現,基本上就是兩條路:
改善模型,以及改善數據的品質。
改善模型這條路,你可以看到從2014年起,
「深度學習 Deep Learning」蓬勃發展的歷史;
而改善數據品質這條路,
你可以看從2020開始蓬勃發展的「數據中心機器學習 Data-Centric Machine Learning」,
以及人們正在2024年書寫的歷史。
很多科技進展以及技術猛一看感覺很厲害,
但其實你只要一步一步順著歷史往前推,
了解每年的突破,其實都能預測走勢。