監督式學習與非監督式學習的差異、應用、以及案例

EMC研究發現,到2020年,每個人每秒將創造1.7MB的數據,且到那時我們所積累的數據將會從現今的4.4兆GB增長到44兆GB。如何有效的應用如此龐大的數據將是業者未來面臨最大的問題,其中機器學習將會是創造最大價值的技術之一,若能夠善用其技術,我們可以把那虛無飄渺的數據轉化成可視的內容,應用在各個領域上。 

機器學習更是能夠細分為監督式學習與非監督式學習,兩者所應用的數據與執行的方法截然不同,其不同處為何?優勢與劣勢又分別為何? 這篇文章中我們將進一步的討論兩者的不同,並探討產業的實際案例。

監督式學習與非監督式學習的差異為何?

監督與非監督差異在於收集到的資料是否有被標籤(Labeled),也就是說,其數據是否有被定義。然而標籤是需要人工再另外標記的,增加標籤對於公司來講是個費時費力的工程,而且,越是龐大的數據,其耗費的時間及成本越是龐大。面對這些龐大數據,除非必要,大部分的業者並不會一一幫它做標記。

監督式學習所運用的數據就是來自這些被定義(增加標籤)的數據,什麼是被定義呢? 假設今天我們要讓程式學會如何分辨一張照片上的動物是貓還是狗,那我們就必須要先有一系列的貓狗圖片,並且每一張都有明確註明哪個是貓哪個是狗,讓程式可以藉由標籤來分類。

非監督式學習運用的資料無需被定義,而數據裡的資料只有特徵沒有標籤,若是以前面的例子來說,這時候演算法僅能根據特徵區分出兩大類型,然而,我們卻無法得知哪一個類型分別為哪一種動物。

監督式學習可以應用在什麼樣的領域中?

吳恩達(Google Brain的前創始人之一)認為監督式學習是AI會在產業中創造最大價值的技術,而麥肯錫預測,到2030年,AI將會在零售業、CPG、觀光業、以及交通等產業創造出13兆美元的經濟價值。

Netflix如何利用機器學習每年增加十億美金的收益

Netflix一直在同行間保持著領先地位,從1997年創辦以來,就以線上下訂錄影帶的營運模式與傳統出租店百視達角逐影視平台龍頭寶座,不僅將blockbuster擠出了市場,現在更是開始了自己的串流平台,並且產出自家作品。

隨著新穎的創新與服務不斷推出,Netflix的訂閱數不僅突飛猛進,每個月更是擁有著上萬使用者觀看Netflix,且觀看電影節目超過12500部,而Netflix究竟是如何讓觀眾如此熱愛? 其實背後的最大推手即是機器學習,更準確地說是,透過監督式學習所建立的推薦系統。

Netflix主要提取兩種主要類型的用戶數據。一種為透過直接的問答系統讓用戶選擇喜愛的類型頻道,而另一種為通過追蹤並分析用戶行為模式所取得的數據,例如用戶沒有直接表示喜歡某部電視劇,但該用戶卻在一個星期看了七集,那麼這即可代表此用戶可能對於這部電視劇感到很有興趣。

但以上數據僅能顯示用戶喜歡某特定節目的程度,並不能預知用戶喜歡的類似節目,於是Netflix讓影視方面的專家,把電影類型再做更細緻的分類,在這些分類上一一手動的標記標籤,讓這兩種不同類型的數據可以結合並發揮更高的效能。

Caliber Collision讓機器預測員工會不會離職

Caliber Collision作為美國最大的汽車維修公司,在19個州設有650個以上的據點,擁有10000多包括機械、設計、業務等各方面人才,但人才的流動往往造成公司成本的增加,間接的也讓營運成本居高不下。

Caliber發現造成人才流動的主要原因之一是其工廠資源分配不均導致,於是Caliber想到是否可在以上的基礎裡,建置一個預測員工何時會離職並進行干預的系統呢?Caliber與他們的技術顧問團隊Sparkhound合作,並建立了從Caliber的Workday數據庫提取了員工數據並與Microsoft PowerBI融合的系統模型,以回歸模型為基礎,讓該模型能預測員工何時會想離職,主管透過數據分析去做適當的處置。

例:如果員工的工資在這幾週明顯減少,業務部主管就要想方設法讓進廠維修的車輛增加,相反的如果員工工作量暴增,公司就會重新分配適當的工作量平分給該據點的每一位同事,此舉讓Caliber每年可節省100萬美金的人事流動費用,增加了公司的獲利。

非監督式學習可以應用在什麼樣的領域中?

無監督式學習能夠解決各種商業問題,例如銀行可以透過無監督式學習的演算法來評估某比交易是否為詐欺、行銷分析可以利用其技術來更進一步的優化網頁轉換率等。 Ian Goodfellow(Gans之父)更是提出無監督式學習就是不需仰賴任何人工的input即能達成目的的機器學習演算法,其最為人知的發展為Gan(生成對抗網路),讓AI領域有了爆炸性的突破。

摩根大通如何應用非監督去降低業務流程

早期創業家尋求銀行貸款,第一印象通常是最重要的,但是也因為資訊的缺乏造成銀行職員誤判的結果。

為了使日常工作自動化並減少分析業務往來所需的時間及錯誤,摩根大通開發了一種專有的ML算法,稱為Contract Intelligence或COiN。COiN的工作就是自動執行特定類別的文件審查,採用圖像辨識來識別文件中的模式,而背後的演算法即使用了無監督學習。

演算法通過分析各個銀行契約中的數據,並抓出既定模式,再以此識別和分類重複的條款。 摩根大通指出,COiN可以將條款細分為150種不同的信用貸款契約,並從中擷取重要的訊息。 COiN不僅可以在幾秒內處理12,000個信貸協議,更是讓銀行省下了360,000個工時。

旋轉拍賣(Carousell)如何透過圖像分類昇華用戶體驗

在過去幾年中,旋轉拍賣的分類技術一直處於領先地位,且也是東南亞手機APP市場中增長最快的品牌。 旋轉拍賣團隊在大量代售商品和用戶互動的數據上訓練模型,根據賣家上傳的商品圖片增加建議標題及類別,減少錯誤的發生率。 

排名模式的出現也讓消費者能找出最適合他們的產品,常常我們在平台上購物,我們是需要什麼而搜尋什麼,而旋轉拍賣把數據庫裡的照片根據標籤、類別來做排名。 透過消費者所購買的產品來了解其消費取向,適當的推出建議產品,讓顧客回頭率增加,也提高交易量讓更多賣家及買家加入市場成就雙贏局面。

OOSGA Analytics

我們的團隊統合研究、調查以及實務經驗,透過每一次的Insight,分享給台灣決策者相關議題上的思考方式與執行手段。