DOCS

自然語言處理（NLP）的定義為何？有哪些應用？

最後更新於: April 23, 2024

自然語言處理為何？

自然語言處理（Natural language processing）是一種透過複雜的數學模型及演算法來讓機器去認知、理解並運用我們的語言的技術。機器翻譯就是 NLP 應用的一種，我們將需要被翻譯的文本輸入進所謂的 NLP 系統，而背後的演算法以及模型就會處理辨識、理解、以及生成等流程，最後再輸出被翻譯好的目標語言資訊。

早期的 NLP 技術主要基於統計的概念去訓練模型，讓演算法閱讀大量類似字典的文章段落，再讓演算法計算單字、句子出現的機率，然而此種方式無法使系統很好地辨識複雜的文法，同時，這樣子的模型所產生的字句更是生硬且結構錯亂。但隨著深度學習與演算法模型的突破，新的訓練方式已能更好的處理以上所提的問題。

深度學習的出現，改變了過往訓練 NLP 的運作模式，而目前最廣為研究人員使用的演算法模型即是 BERT， BERT 的全名為轉譯器的雙向編碼表述（Bidirectional Encoder Representations from Transformers），是 Google 基於 Transformer 架構上所開源的一套演算法模型。

BERT 的意義性在於它能夠預先訓練演算法，雙向地去查看前後字詞，進而推斷出完整的上下文，如此的做法不同於以往的模型，能夠更全面的連結上下文，有效幫助系統在文本上的理解與生成。 Google 在去年就引入了 BERT 模型來改善自家的搜尋引擎，最近發表的一項評估中， BERT不僅讓搜尋引擎演算法理解英文的能力提升，同時能更好地定義用戶的搜尋意圖。

自然語言理解（NLU）

自然語言理解（Natural Language Understanding）的目的在於讓系統能夠讀懂我們所輸入的資訊，讓其理解��本、語言並提取資訊，以幫助文本分類、語法分析、資訊搜索等下游任務的執行。

進行 NLU 時，最小的資料單位即是字詞了，字詞組成句子，而小句子繼續組成大句子與文章，意味著使用 NLU 進行任何任務時，它最為首要的目標即是辨識字詞，就如同「我喜歡吃蘋果」的這段句子，演算法首先就必須要先區分出各個不同的詞性，再進一步的理解詞與詞之間的關係。其實從數學的角度來看，任何詞彙的組成都可以用數字去連結或標記，可以是詞彙出現的機率，也可以是通過量化詞彙所建立的語言模型。

而詞嵌入（word embedding）是最常見的訓練方式，將字詞本身以不同維度的向量方式去做標記，字意較為相關的字詞，其向量距離也就越接近，反之亦然，如：電腦與計算的向量距離就會比較近些，而電腦與跑步的向量距離則較遠。

上面提到的 BERT 也是基於詞嵌入的概念進行訓練，較為不同的是 BERT 不僅以詞向量去判斷字句結構，而是以更自然的方式去檢查上下全文來做到語言辨識，訓練出來的模型不僅較為泛用，且能更好地解決詞意分歧，舉一個簡單的例子：＂王先生飛去東京了＂，這裡並不會將王先生誤會成一隻鳥，拍動雙臂飛往東京，而是王先生乘坐班機飛往東京了。這樣子層面的理解也是為何 NLU 已經能夠很好地做情緒分析與瞭解話語背後的意圖。

自然語言生成（NLG）

自然語言生成（Natural Language Generation）與自然語言理解（NLU）相反，系統的目標是要通過整合、節錄、以及萃取數據庫中的資料，以將這些機器才能讀懂的數據以自然語言的形式輸出。簡單來說即是將只有機器才能看懂的資料架構，也就是像0101010101的機器語言，轉化成人類能理解的字句，以完成如文本摘要、新聞自動化、機器翻譯等任務。

在過去幾年，語言生成通常使用循環神經網路（RNN）來建立神經語言模型，訓練模型以考慮前文的方式預測下一個生成的單詞機率。然而近幾年，如 Open AI 的 GPT-2、微軟的 Turing-NLG 、或是 Google 的 BERT 等基於 Transformer 上的演算法模型取代了 RNN 的訓練方式，這些演算法的訓練速度不僅比 RNN 更為高效，且雙向上下文的字句預測的精準度更好，使現今 NLG 領域中的機器學習模型基礎大多建立於 Transformer 之上。

About Us

協助製造業者拓展東南亞市場

OOSGA是一家專注於為工業客戶提供東南亞供應鏈拓展、設廠評估，以及市場情資的顧問公司。我們致力於為客戶企業提供最可靠的市場情報和洞見，並與當地工業不動產開發商，以及相關合作夥伴一同推進當地業務的落地。

倘若您對於進入新市場、抑或是對拓展業務有想法，歡迎隨時聯繫我們團隊討論。

NLP有哪些應用？

隨著深度學習的進步， NLP 技術的應用領域已更為廣泛，一篇報告指出，企業對 NLP 的採用率已有著顯著增長。隨著 NLP技術更加的成熟，機器能夠 24 小時不間斷工作且錯誤率極低的特性，將會驅動 NLP 更為廣泛的應用，為市場創造更多價值。

對於企業來說，我們可以將 NLP 所提供的價值層面分為三項，一為運營上的效率以及成本的降低、二為顧客旅程以及體驗的優化、最後則是各個不同產業透過 NLP 所驅動的商業模式。像是情感分析就是一種顧客旅程以及體驗優化的應用，然而我們也看到越來越多新創利用這項技術發展了全新的商業模式。

聊天機器人

在以前，企業為了隨時與消費者互動，需聘請專人全天候在電話或通訊平台前待命，不僅耗費了人力成本，也無法很好地處理龐大的客戶量與資訊，而客服人員的訓練程度更是會第一線的影響客戶體驗。

這也是為何聊天機器人漸漸地走入了主流，不僅是因為它能夠全天候地提供即時服務，它也能更精準地提供產品資訊與個人化的服務。而建立於這兩項優勢，聊天機器人能夠更好的存取消費者的意見與需求，驅動更具效力的消費者回饋，成為企業豐富消費者體驗的強大工具。經甲骨文的一份調查指出， 80% 的受訪者將採用聊天機器人為客戶服務，Maruti Techlabs的一項數據更是指出，聊天機器人能幫助將客戶服務成本降低 30％。

情感分析

情感分析模型是一種挖掘文字或話語意見的方式，設立規則將詞彙量化，由此得知字句背後的情緒、意見或意圖。

隨著這項技術更加成熟，業者能夠應用它去更好的理解用戶或是消費者的真實感受，畢竟傳統的回饋模式常常會基於數據量不足、回饋不真實、或是消費者自己也不清楚他的購買動機等因素，而無法真正的理解消費者洞見。這就是情感分析模型能夠提供龐大價值的層面，畢竟，同樣的消費者也會在社群平台以及論壇上發表想法，只有有效利用這些數據，業者即能更深層的理解消費者洞見，以了解客戶喜歡什麼、討厭什麼，從而改善產品、業務與顧客服務。

Kaggle有個有趣的例子，通過對美國航空公司的 twitter 留言進行情緒分析，將客戶情緒分成正面、中立與負面，並從中自動統計出顧客滿意與否的因素，如：飛行舒適度、行李、航班問題，此類分析將為企業提供更明確的改善方向。

智能助理

一份報告指出，智能助理在未來幾年將會維持著34%的年成長率，如此快速的增長來自智慧裝置上搭載的語音助理，如： Siri 以及 Alexa 等，協助用戶處理個人事務或連結智慧家電，但隨著 NLP 的進步，越來越多企業開始制定智能助理來優化作業流程，也就是說，智能助理不再只為個人與家庭服務，在企業的各個業務中也有許多應用層面。

在前年，一家科技公司推出了一款企業語音平台工具，結合 AI 與 NLU 技術，輔佐企業的會議流程。會議人員只需專注於談話，智能助理就會同步的紀錄相關事宜，並且整理出會議見解。如此的模式不僅使團隊方向更為明確，它更是為團隊減省時間以提高其餘業務的工作效率。

根據 Loupventures 的調查，Google 智能助理已能正確回答近九成的問題，而隨著物聯網裝置的普及，這也意味著未來將會有更多設備能通過書面文字與聲音串聯，在流程優化與商業環境中也會有著更顯著的發展。

文本生成

文本生成是很早被運用的一項 NLG 技術， AI 擅長即時處理並應用大量數據，因此在過去，文本生成常被運用在媒體以及廣告業者的文案中，新聞自動化即是一個很好的例子，機器能不斷瀏覽不同來源的新聞（數據）並編寫文本，使該新聞迅速地出現在網路與電視上，這相較於傳統的流程， AI 的文本生成更為快速、低成本、且客觀。

JP Morgan 在 2016 與一家 AI 新創公司合作，使用 AI 來生成更快速、有效的行銷文本，將廣告或郵件以更加個人化的方式傳達給客戶，最後成效不僅廣告點擊率成長了 450 %，其行銷訊息也顯著地提升信用卡與貸款業務績效，並更好的與現有、潛在客戶交流。

文件處理

在前年，一家合約審查平台公司做了一項研究，研究中 AI 在審查保密條款的準確性已達 94%，而審查經驗豐富的律師平均準確率則是 85 %，且時間上 AI 僅花了 26 秒就完成律師需要耗費 92 分鐘的工作。AI 不僅在文件審查上具有優勢，它更是在其他領域像是文件的分類或是比對等重複性的工作，還是執行更進一步的分析，都能夠提供企業價值。

而在金融產業當中，我們也在保險科技的解析中提到，業者利用NLP演算法完成理賠自動化流程，大幅降低理賠時間進而豐富客戶體驗，在減少人工錯誤的同時，效率化了內部營運流程。

參考資料

作者：專案小組

我們的專案小組結合了內部團隊、外部專家、合作夥伴，並協助客戶探勘市場機會、落實市場進入與成長。