DOCS

電腦視覺（Computer Vision）的定義為何為何？

最後更新於: April 28, 2024

電腦視覺為何？

Computer Vision，中文直譯為電腦視覺，是一種通過不同技術手段去賦能機器處理、分析真實世界的圖像、影像，並將其轉換為機器自己能夠理解的一項AI應用。

那其實電腦視覺這項技術的重點不那麼在於視覺這一部分，而是讓電腦能夠像人腦一樣去理解其所見所聞，那這就相對於僅僅讓電腦看到還困難許多了。

畢竟人類的大腦在處理一個圖像或影像時，我們可以通過分析圍繞在這圖像與影像的情境（Context）來理解它。

以一個沒有那麼清楚的影像為例，假設有一個人正拿著一個黑色長方形形狀的物體，我們希望能判斷出該物體為何，那麼倘若拿著這一物體的人正在用手指頭在滑動該長方體時，人類的大腦就可以進一步的判斷出那個長方體可能是手機；同樣一個黑色長方體倘若放在盤子上的話，就有可能會被理解為巧克力甜點。然而傳統的電腦並沒有那麼聰明，因為它無法有效的分析出圍繞在這一黑色長方體的情境是什麼。

但著產業對於神經網路的理解逐漸的成熟、硬體運算速度的增長與運算成本的降低、再加上能夠用做訓練的數據資源的增長（以及數據增強等技術的成熟），現在電腦視覺在一定程度上已然能夠提供實際的產業價值，並且逐漸的被許多企業導入。

電腦視覺如何運作的？

與任何機器學習模型一樣，要落實一個��效的電腦視覺系統，模型首先需要被訓練，並從中學習何為正確、何為錯誤，並在這一過程當中不斷的強化判斷的正確性。

所以這也是為何數據的總量以及運算的成本對於電腦視覺來說至關重要。以通過電腦視覺分析出產線上產品的瑕疵品為例，首先我們就要許多高品質的產品圖像，並讓機器慢慢的通過訓練週期去學會區分出瑕疵品。

那這個所謂的訓練也很重要，過去最為主流的應用就是通過CNN，也就是卷積神經網絡（Convolutional Neural Network），CNN支撐整個機器學習或深度學習演算法，把圖像切割成無數的Pixels，並給予其相應的標籤，並以這些標籤為基礎做判斷，那麼隨著訓練的次數變多，演算法就會對欲分類的類別建立起所謂的Context，以支撐未來的判斷。

CNN本身就是以人類在處理影像的大腦額葉為基礎設計的，同時在處理整體圖像資訊的過程也與人類類似。而CNN一般是用做圖像用途，RNN則是建立在CNN的基礎，用做影像的分析。

不過在這一兩年間，源自於NLP世界的Transformer正在走入影像處理的世界中，Transformer不僅在訓練上更有效率，其時常還能獲得更好的成效。

About Us

協助製造業者拓展東南亞市場

OOSGA是一家專注於為工業客戶提供東南亞供應鏈拓展、設廠評估，以及市場情資的顧問公司。我們致力於為客戶企業提供最可靠的市場情報和洞見，並與當地工業不動產開發商，以及相關合作夥伴一同推進當地業務的落地。

倘若您對於進入新市場、抑或是對拓展業務有想法，歡迎隨時聯繫我們團隊討論。

電腦視覺科技Snapshot

電腦視覺的潛在價值為何？

電腦視覺在幾乎每一個產業中都承載著龐大的價值，譬如在健康醫療產業中，CV（Computer Vision）就能夠通過X光、超音波圖等方式，分析出病人潛在的健康狀況，其準確度在許多領域更是超過醫生平均能做出的判斷。

在運輸產業中，CV能夠有效分析出當前交通狀況，並且在一定程度上支持駕駛決策，而如此技術也是自動駕駛的基石，也就是成為汽車的眼睛。同樣也在運輸產業中，CV更是能從衛星的角度落實追蹤城市裡每一個變化，並且根據當前的交通狀況，提供城市運營者相關建議，以有效疏通交通顛峰期間的阻塞狀況。

在零售產業中，以行銷與銷售為例，CV更是可以分析前往實體店面的客戶，當前的情緒為何，並以此回饋至整個顧客旅程與客戶體驗中，以優化未來的運營。

有哪些驅動因素？

在��技面向，電腦視覺隨著機器學習技術的突破、GPU運算能力增長與相應的成本降低、再加上許多數據技巧（數據生成、數據強化等），電腦視覺的技術就會更加成熟。

新的神經元網路架構、演算法、以及模式的效能正在不斷地提高，其研發、運算、以及相關的每單元成本也在相應的降低，驅動電腦視覺技術成熟。譬如孕育出BERT、GPT-3等NLP語言模型的Transformer，也在這幾年走進了電腦視覺中，像是Google開源的Vision Transformer就是一個案例，而這一類型的新硬體架構以及其他層面的提升，正在引領整個電腦視覺發展。
GPU運算能力在過去的五年成長了將近9倍，而新的硬體結構也大幅的提高了運算AI訓練需求的能力，譬如2022年3月，NVIDEA發佈的HOPPER，就是著重在Transformer類型的AI訓練，其產品H100相對於2020年的A100更是出現六倍的增幅。

從資源與基礎建設面向，開源工具、教育資源、以及其他的整體基建整備程度的普及與成熟，也進一步的讓電腦視覺在數據的獲取、架構、治理、以及訓練上更佳有效。

IoT裝置的普及，讓各個領域中的圖像與影像數據出現指數型的成長，而這樣的數據成長也進一步的讓研究與開發人員獲大量且高品質的數據。
運算資源以及服務的普及、運算成本的持續降低、再加上圍繞在邊緣運算的資源與工具的發展，也進一步的驅動了整個在邊緣落實電腦視覺的科技發展。
聚焦在不同領域與應用範疇的服務與解決方案正在不斷的被推出，而其中不乏有許多開源碼工具支撐各個產業的電腦視覺應用。

發展有哪些阻礙？

雖然電腦視覺這一項技術，是整個人工智慧當中，科技整備僅次於已然普及的機器學習的科技應用，但是其依然存在在許多科技要素，不論是科技整備還是其他要素。

在一些應用場景中，電腦視覺在一定程度上會遭遇個資安全與一些消費者隱私權的問題，進而導致相關技術的採納受限。譬如歐盟的個資保護法GDPR就時常被批評阻礙人工智慧的許多創新應用。是否能夠跨越這一段阻礙的重點就在於個資法是否會因此做一定程度的調整。
再者，還有電腦視覺雖然已經走入主流應用，但是仍然對於許多企業來說，缺乏充分的ROI潛能，抑或是尚無法容易的轉換CV投資為充分的價值回饋，故也限制了其進一步普及市場的潛能。
再者，系統整合仍然是一個挑戰，出於缺乏開放架構讓其能有效地讓電腦視覺整合至既有系統中，同時現在雖然越來越多的技術提供商推出自研的解決方案，但是對於各種不同的應用場景與邊緣案例來說，仍然相對較不完善，故此普及率不高。
再者，雖然ImageNet、CIFAR-10等開放的數據庫都提供著龐大的背景資源，但是對於中型與小型企業，也就是無法投資相當成本去擴充個別資源的組織來說，其仍尚不充分。

參考資料

作者：專案小組

我們的專案小組結合了內部團隊、外部專家、合作夥伴，並協助客戶探勘市場機會、落實市場進入與成長。