01/18 2021

AWS 機器學習首部曲:四大類型

基礎觀念

隨著雲端產業趨於成熟,機器學習(Machine Learning, ML)熱潮持續看漲,科技巨頭亞馬遜的科技長認為,機器學習與雲端科技將會產生加乘效應,將為2021年的重點趨勢之一。許多企業也看準機器學習商機,開始在雲平台上建立專屬企業應用的機器學習模型,並將機器學習整合至各產業的工作場景中,如製造業預測機台故障時間、電商產業的個人化推薦服務、線上智能語音客服等應用。

為了協助企業掌握機器學習的最佳應用,博弘雲端將推出系列文章,深入淺出為您介紹 AWS 上的機器學習。而本篇會先帶您了解機器學習的基礎觀念,並建立正確知識,替未來的商務實踐打下良好基礎!根據一般演算法,機器學習可分為下列四大類型:

監督式學習Supervised learning

監督學習是機器學習的最基本類型之一,在此類型中,演算法需要使用標籤化的資料進行模型訓練。在訓練模型時需提供 ML 演算法部分範例資料集合,為演算法提供問題、解決方案的基本概念。在訓練結束時,該演算法將了解資料如何運作,以及輸入和輸出之間的關係,即使在部署後也會繼續優化,對新資料進行自我訓練時也會發展出新模式。常見的應用為標籤化過後的資料預測,例如:銀行進行核貸給企業時會先調查企業的背景、營收、經營狀況,並透過以上標籤來預測會不會被倒帳?

非監督式學習Unsupervised Learning

雖然標籤化資料可快速進行模型訓練,但由於貼標籤的成本很高,需要依賴經驗豐富的專家來完成。非監督機器學習的優勢即在於能夠處理未標籤的資料,不需要前置作業就可以使資料集是可讀取的狀態,讓程式能處理更大的資料集,最常應用在協助資料進行貼標。與監督式學習演算法相比,非監督學習沒有標籤,需透過演算法自動尋找資料特徵的關聯性,也因為無需定義和設置問題說明,也可以透過動態更改隱藏結構來進行資料調整,提供更多部署後進行開發的選擇。

半監督式學習Semi-supervised Learning

半監督學習介於上述兩者,通常我們拿到的是少部分已標籤的資料,能否透過相較之下更容易取得的未標籤資料來建立精準貼標模型,就是半監督式學習的領域。執行過程中,會將無標籤資料透過有標籤資料的特性,來進行貼標。如此一來,便不需將所有資料都標籤化,可減少機器學習的成本,又能達到效益。

增強式學習Reinforcement Learning

增強式學習是從人類認知心理獲得啟發,該演算法可優化自身條件,並使用試錯法從新情況中學習,「加強」有利的產出,「懲罰」不利的產出,這項特質也使增強式學習會將算法放在具有獎勵系統的運算環境處理。而演算法的每次迭代中,會輸出演算結果給直譯器(Interpreter)判斷結果是否符合需求。若結果不理想,則必須重複執行該演算法,直到找到更好的結果為止。AWS DeepRacer 模型的訓練就是透過增強式學習來進行,利用演算法的加減分,讓模型車找出最快且正確的道路,或是遊戲裡面的 NPC 透過重複問答,最後導引出最正確的回覆。

機器學習最佳使用時機

機器學習並不是所有問題的萬靈丹,也不是唯一解答,在某些情況下,其實不須 ML 技術就能開發可靠的解決方案。那什麼時候適合運用機器學習呢?當問題的規則受到太多因素影響,且許多規則有重疊的現象,或是需要針對每個項目進行非常精細地調整,卻很難準確地找出規則時,則是運用機器學習解決問題的最佳時機。例如:需要大量重複的步驟,且耗費大量人力處理的任務,像是辨識上百封 Email 是否為垃圾郵件等,機器學習便可有效解決此類需求。

在了解機器學習的基礎觀念與四大類型後,下一篇會介紹機器學習的模型訓練步驟,更進一步掌握這個當紅科技的技術關鍵!請持續鎖定博弘雲端,第一手資訊不漏接!