監督式學習利用已被標記的數據來訓練模型,想像成老師在一旁指導著學生,告訴他每一個問題的答案,隨著學生問題越做越多,他對於這類型問題的理解也會越來越深,正確性也會變高。完整標記的數據組代表著機器學習模型所收到的數據是有輸入(input)與輸出(output)的。
所以,假設要建立一個圖像識別模型來分辨0~9這十個數字,那麼模型就會收到一堆數字的圖片(input)以及這些圖片分別為什麼數字(output),在模型處理完(學習完)這些數據後,當模型看到新的圖片,它就能利用原本所受的訓練,來推斷新的圖片代表著哪一個數字。
在真實世界中,監督式學習是最頻繁被產業使用的,不僅是因為現在世界所具備的龐大數據量,更是因為其演算法的簡單性。 例如團隊可以從顧客的消費歷史紀錄,來訓練模型,並建立推薦系統或是行銷個人化與自動化等。又或是製造商能通過導入AIoT來取得產線數據,並以此訓練模型讓演算法能夠提前判斷機器失能的可能,以提高整體設備效率(OEE)。
線性迴歸是最為原始的機器學習模型,也是在找出自變數(Independent variable)與依變數(Dependent variable)之間的關係中,最為最常見的模型。 線性迴歸不僅可以幫助業者建立消費者洞見、理解影響獲利性的因素,迴歸分析更是能讓業者評估市場趨勢,並以此為基準去做商業決策。
相似於線性迴歸,同樣是找出自變數(Independent variable)與依變數(Dependent variable)之間的關係,然而不同於線性迴歸,邏輯迴歸的輸出(output)是二進位的,不是1即是0。邏輯迴歸為最頻繁被使用的分類演算法,時常被應用於風險評估或判斷異常。
建立於貝氏定理的一種機器學習分類演算法,能夠基於其他因素的影響來計算某個事件的機率。而之所以單純,是因為不同於貝氏統計,單純貝氏在於訓練的數據組裡建立條件獨立(Conditional Independent)的假設。這也讓此演算法的速度非常之快,適合建立實時的預測模型。
決策樹利用不同數據特性的值分成不同的分支,像一棵樹上的樹枝一般。 如同銀行在決定是否要貸款給某客戶時,行員會透過一系列的問題以判斷最終決策。決策樹利用同樣的架構,不斷地拆分數據的特性(遞迴區分),直到持續分出分枝將不會提供任何價值為止。此種特性也讓決策樹在面對高維數據時,依然有可觀的正確率。
隨機森林利用建立多個不同的決策樹,並賦予每一顆不同的決策樹其分類選項,並讓各個決策樹自己產生答案,以提高準確性。當在做分類問題時,此演算法的整體輸出即是利用投票方式選出最多票數的決策樹,而在處理迴歸分析時,森林的輸出則是所有決策樹輸出的平均值。
SVM大多時候被使用於分類中,然而,其演算法分割的特性讓他能夠被轉換成做迴歸,在高維的空間中構造平面或是超平面集合。假設是二維的情況下,SVM就能夠根據輸出值去尋找區分輸入值的最適線。
通過整合多種不同的模型來做分類或迴歸分析,最後再根據其正確率去判斷每一個不同的輸出所佔的比重為何。AdaBoost以及其他增強(Boosting)模型,在提高準確率上非常有效。
GDBT能夠序列性的產生出決策樹,並讓每一次的決策樹專注於修復前面的樹所犯的錯,而其輸出則是所有決策樹的結合。對於主要的數據特性非常明確的數據來說,業者能夠過特徵工程來排列最相關的數據特性,並以此作訓練。
OOSGA是一家專注於為工業客戶提供東南亞供應鏈拓展、設廠評估,以及市場情資的顧問公司。我們致力於為客戶企業提供最可靠的市場情報和洞見,並與當地工業不動產開發商,以及相關合作夥伴一同推進當地業務的落地。
倘若您對於進入新市場、抑或是對拓展業務有想法,歡迎隨時聯繫我們團隊討論。