Computer Vision,中文直譯為電腦視覺,是一種通過不同技術手段去賦能機器處理、分析真實世界的圖像、影像,並將其轉換為機器自己能夠理解的一項AI應用。
那其實電腦視覺這項技術的重點不那麼在於視覺這一部分,而是讓電腦能夠像人腦一樣去理解其所見所聞,那這就相對於僅僅讓電腦看到還困難許多了。
畢竟人類的大腦在處理一個圖像或影像時,我們可以通過分析圍繞在這圖像與影像的情境(Context)來理解它。
以一個沒有那麼清楚的影像為例,假設有一個人正拿著一個黑色長方形形狀的物體,我們希望能判斷出該物體為何,那麼倘若拿著這一物體的人正在用手指頭在滑動該長方體時,人類的大腦就可以進一步的判斷出那個長方體可能是手機;同樣一個黑色長方體倘若放在盤子上的話,就有可能會被理解為巧克力甜點。然而傳統的電腦並沒有那麼聰明,因為它無法有效的分析出圍繞在這一黑色長方體的情境是什麼。
但著產業對於神經網路的理解逐漸的成熟、硬體運算速度的增長與運算成本的降低、再加上能夠用做訓練的數據資源的增長(以及數據增強等技術的成熟),現在電腦視覺在一定程度上已然能夠提供實際的產業價值,並且逐漸的被許多企業導入。
與任何機器學習模型一樣,要落實一個有效的電腦視覺系統,模型首先需要被訓練,並從中學習何為正確、何為錯誤,並在這一過程當中不斷的強化判斷的正確性。
所以這也是為何數據的總量以及運算的成本對於電腦視覺來說至關重要。以通過電腦視覺分析出產線上產品的瑕疵品為例,首先我們就要許多高品質的產品圖像,並讓機器慢慢的通過訓練週期去學會區分出瑕疵品。
那這個所謂的訓練也很重要,過去最為主流的應用就是通過CNN,也就是卷積神經網絡(Convolutional Neural Network),CNN支撐整個機器學習或深度學習演算法,把圖像切割成無數的Pixels,並給予其相應的標籤,並以這些標籤為基礎做判斷,那麼隨著訓練的次數變多,演算法就會對欲分類的類別建立起所謂的Context,以支撐未來的判斷。
CNN本身就是以人類在處理影像的大腦額葉為基礎設計的,同時在處理整體圖像資訊的過程也與人類類似。而CNN一般是用做圖像用途,RNN則是建立在CNN的基礎,用做影像的分析。
不過在這一兩年間,源自於NLP世界的Transformer正在走入影像處理的世界中,Transformer不僅在訓練上更有效率,其時常還能獲得更好的成效。
OOSGA是一家專注於為工業客戶提供東南亞供應鏈拓展、設廠評估,以及市場情資的顧問公司。我們致力於為客戶企業提供最可靠的市場情報和洞見,並與當地工業不動產開發商,以及相關合作夥伴一同推進當地業務的落地。
倘若您對於進入新市場、抑或是對拓展業務有想法,歡迎隨時聯繫我們團隊討論。
電腦視覺在幾乎每一個產業中都承載著龐大的價值,譬如在健康醫療產業中,CV(Computer Vision)就能夠通過X光、超音波圖等方式,分析出病人潛在的健康狀況,其準確度在許多領域更是超過醫生平均能做出的判斷。
在運輸產業中,CV能夠有效分析出當前交通狀況,並且在一定程度上支持駕駛決策,而如此技術也是自動駕駛的基石,也就是成為汽車的眼睛。同樣也在運輸產業中,CV更是能從衛星的角度落實追蹤城市裡每一個變化,並且根據當前的交通狀況,提供城市運營者相關建議,以有效疏通交通顛峰期間的阻塞狀況。
在零售產業中,以行銷與銷售為例,CV更是可以分析前往實體店面的客戶,當前的情緒為何,並以此回饋至整個顧客旅程與客戶體驗中,以優化未來的運營。
在科技面向,電腦視覺隨著機器學習技術的突破、GPU運算能力增長與相應的成本降低、再加上許多數據技巧(數據生成、數據強化等),電腦視覺的技術就會更加成熟。
從資源與基礎建設面向,開源工具、教育資源、以及其他的整體基建整備程度的普及與成熟,也進一步的讓電腦視覺在數據的獲取、架構、治理、以及訓練上更佳有效。
雖然電腦視覺這一項技術,是整個人工智慧當中,科技整備僅次於已然普及的機器學習的科技應用,但是其依然存在在許多科技要素,不論是科技整備還是其他要素。