監督式學習(Supervised Learning)的定義為何?

最後更新於:September 10, 2022

定義

監督式學習為何?

監督式學習利用已被標記的數據來訓練模型,想像成老師在一旁指導著學生,告訴他每一個問題的答案,隨著學生問題越做越多,他對於這類型問題的理解也會越來越深,正確性也會變高。完整標記的數據組代表著機器學習模型所收到的數據是有輸入(input)與輸出(output)的。

所以,假設要建立一個圖像識別模型來分辨0~9這十個數字,那麼模型就會收到一堆數字的圖片(input)以及這些圖片分別為什麼數字(output),在模型處理完(學習完)這些數據後,當模型看到新的圖片,它就能利用原本所受的訓練,來推斷新的圖片代表著哪一個數字。

在真實世界中,監督式學習是最頻繁被產業使用的,不僅是因為現在世界所具備的龐大數據量,更是因為其演算法的簡單性。 例如團隊可以從顧客的消費歷史紀錄,來訓練模型,並建立推薦系統或是行銷個人化與自動化等。又或是製造商能通過導入AIoT來取得產線數據,並以此訓練模型讓演算法能夠提前判斷機器失能的可能,以提高整體設備效率(OEE)。

常見的演算法及其商業應用

線性迴歸(Linear Regression)

線性迴歸是最為原始的機器學習模型,也是在找出自變數(Independent variable)與依變數(Dependent variable)之間的關係中,最為最常見的模型。 線性迴歸不僅可以幫助業者建立消費者洞見、理解影響獲利性的因素,迴歸分析更是能讓業者評估市場趨勢,並以此為基準去做商業決策。

  • 預測未來機會以及風險,如需求分析、轉換率分析
  • 優化營運效能,將數據驅動的決策能力導入組織文化當中
  • 優化定價策略、預估價格彈性、以及市場動態
  • 通過迴歸分析發現新的市場洞見
邏輯迴歸(Logistic Regression​​)

相似於線性迴歸,同樣是找出自變數(Independent variable)與依變數(Dependent variable)之間的關係,然而不同於線性迴歸,邏輯迴歸的輸出(output)是二進位的,不是1即是0。邏輯迴歸為最頻繁被使用的分類演算法,時常被應用於風險評估或判斷異常。

  • 基於客戶償還貸款的可能性做客群分類
  • 通過交易行為模式判斷是否詐欺
  • 通過多項數據點判斷腫瘤是否為惡性
  • 通過消費行為以及旅程分析判斷顧客是否會轉換
單純貝氏​​(Naive Bayes​​)

建立於貝氏定理的一種機器學習分類演算法,能夠基於其他因素的影響來計算某個事件的機率。而之所以單純,是因為不同於貝氏統計,單純貝氏在於訓練的數據組裡建立條件獨立(Conditional Independent)的假設。這也讓此演算法的速度非常之快,適合建立實時的預測模型。

  • 通過社群媒體做語法分析來判斷市場對於產品的感知為何
  • 建立垃圾郵件的分類器
  • 通過資料採礦來建立推薦系統以判斷用戶是否會喜歡某種類型的產品
  • 通過迴歸分析發現新的市場洞見
決策樹​​(Decision Tree​)

決策樹利用不同數據特性的值分成不同的分支,像一棵樹上的樹枝一般。 如同銀行在決定是否要貸款給某客戶時,行員會透過一系列的問題以判斷最終決策。決策樹利用同樣的架構,不斷地拆分數據的特性(遞迴區分),直到持續分出分枝將不會提供任何價值為止。此種特性也讓決策樹在面對高維數據時,依然有可觀的正確率。

  • 提供決策框架:讓管理階層能夠利用數據驅動的分法做決策
  • 挖掘消費者洞見:了解消費者購買(或不購買)背後的動機
  • 幫助組織評估替代方案的可行性與風險
隨機森林​​(Random Forest​​)

隨機森林利用建立多個不同的決策樹,並賦予每一顆不同的決策樹其分類選項,並讓各個決策樹自己產生答案,以提高準確性。當在做分類問題時,此演算法的整體輸出即是利用投票方式選出最多票數的決策樹,而在處理迴歸分析時,森林的輸出則是所有決策樹輸出的平均值。

  • 預測整個電網的用量
  • 優化都市計畫的效能
  • 預先判斷產品品質
支援向量機​(Support Vector Machine​​)

SVM大多時候被使用於分類中,然而,其演算法分割的特性讓他能夠被轉換成做迴歸,在高維的空間中構造平面或是超平面集合。假設是二維的情況下,SVM就能夠根據輸出值去尋找區分輸入值的最適線。

  • 判斷照片中臉的位置
  • 預測網站、廣告、以及其他渠道的轉換率
  • 識別字體
自適應增強​​(AdaBoost​​)

通過整合多種不同的模型來做分類或迴歸分析,最後再根據其正確率去判斷每一個不同的輸出所佔的比重為何。AdaBoost以及其他增強(Boosting)模型,在提高準確率上非常有效。

  • 通過交易的行為模式判斷是否詐欺
  • 低成本的方式來做圖片識別(相較於深度學習)
  • 用於預測客戶流失或是品牌黏性
GDBT​​(Gradient Boosting Trees​​)

GDBT能夠序列性的產生出決策樹,並讓每一次的決策樹專注於修復前面的樹所犯的錯,而其輸出則是所有決策樹的結合。對於主要的數據特性非常明確的數據來說,業者能夠過特徵工程來排列最相關的數據特性,並以此作訓練。

  • 預測需求以及存貨來提供供需匹配
  • 根據市場動態與產品特性以判斷定價
  • 提供決策框架,讓管理階層能夠用數據驅動的方法做決策
AI

About DOC

我們團隊追蹤各國經濟、政策、貿易,以及7個主要產業的變化與發展,支撐相關產業的大中華企業,在全球供應鏈中部署策略。而DOC系列的文章則是我們團隊所撰寫,盼能支撐所有夥伴可以有結構性的理解相關議題的重點與概念詮釋。

數據生態小組

我們的數據生態系統小組,從數據獲取、架構、治理、應用等面向,支撐客戶清晰各國規範之限制,以及應用面向的發展與研究。

了解服務
More From Us
More Glossary Terms