主題:科技

自然語言處理(NLP)的定義為何?有哪些應用?

最後更新於:August 28, 2022

定義

自然語言處理為何?

自然語言處理(Natural language processing)是一種透過複雜的數學模型及演算法來讓機器去認知、理解並運用我們的語言的技術。機器翻譯就是 NLP 應用的一種,我們將需要被翻譯的文本輸入進所謂的 NLP 系統,而背後的演算法以及模型就會處理辨識、理解、以及生成等流程,最後再輸出被翻譯好的目標語言資訊。

早期的 NLP 技術主要基於統計的概念去訓練模型,讓演算法閱讀大量類似字典的文章段落,再讓演算法計算單字、句子出現的機率,然而此種方式無法使系統很好地辨識複雜的文法,同時,這樣子的模型所產生的字句更是生硬且結構錯亂。但隨著深度學習與演算法模型的突破,新的訓練方式已能更好的處理以上所提的問題。

深度學習的出現,改變了過往訓練 NLP 的運作模式,而目前最廣為研究人員使用的演算法模型即是 BERT, BERT 的全名為轉譯器的雙向編碼表述(Bidirectional Encoder Representations from Transformers),是 Google 基於 Transformer 架構上所開源的一套演算法模型。

BERT 的意義性在於它能夠預先訓練演算法,雙向地去查看前後字詞,進而推斷出完整的上下文,如此的做法不同於以往的模型,能夠更全面的連結上下文,有效幫助系統在文本上的理解與生成。 Google 在去年就引入了 BERT 模型來改善自家的搜尋引擎,最近發表的一項評估中, BERT不僅讓搜尋引擎演算法理解英文的能力提升,同時能更好地定義用戶的搜尋意圖。

自然語言理解(NLU)

自然語言理解(Natural Language Understanding)的目的在於讓系統能夠讀懂我們所輸入的資訊,讓其理解文本、語言並提取資訊,以幫助文本分類、語法分析、資訊搜索等下游任務的執行。

進行 NLU 時,最小的資料單位即是字詞了,字詞組成句子,而小句子繼續組成大句子與文章,意味著使用 NLU 進行任何任務時,它最為首要的目標即是辨識字詞,就如同「我喜歡吃蘋果」的這段句子,演算法首先就必須要先區分出各個不同的詞性,再進一步的理解詞與詞之間的關係。其實從數學的角度來看,任何詞彙的組成都可以用數字去連結或標記,可以是詞彙出現的機率,也可以是通過量化詞彙所建立的語言模型。

而詞嵌入(word embedding)是最常見的訓練方式,將字詞本身以不同維度的向量方式去做標記,字意較為相關的字詞,其向量距離也就越接近,反之亦然,如:電腦與計算的向量距離就會比較近些,而電腦與跑步的向量距離則較遠。

上面提到的 BERT 也是基於詞嵌入的概念進行訓練,較為不同的是 BERT 不僅以詞向量去判斷字句結構,而是以更自然的方式去檢查上下全文來做到語言辨識,訓練出來的模型不僅較為泛用,且能更好地解決詞意分歧,舉一個簡單的例子:"王先生飛去東京了",這裡並不會將王先生誤會成一隻鳥,拍動雙臂飛往東京,而是王先生乘坐班機飛往東京了。 這樣子層面的理解也是為何 NLU 已經能夠很好地做情緒分析與瞭解話語背後的意圖。

自然語言生成(NLG)

自然語言生成(Natural Language Generation)與自然語言理解(NLU)相反,系統的目標是要通過整合、節錄、以及萃取數據庫中的資料,以將這些機器才能讀懂的數據以自然語言的形式輸出。簡單來說即是將只有機器才能看懂的資料架構,也就是像0101010101的機器語言,轉化成人類能理解的字句,以完成如文本摘要、新聞自動化、機器翻譯等任務。

在過去幾年,語言生成通常使用循環神經網路(RNN)來建立神經語言模型,訓練模型以考慮前文的方式預測下一個生成的單詞機率。然而近幾年,如 Open AI 的 GPT-2、微軟的 Turing-NLG 、或是 Google 的 BERT 等基於 Transformer 上的演算法模型取代了 RNN 的訓練方式,這些演算法的訓練速度不僅比 RNN 更為高效,且雙向上下文的字句預測的精準度更好,使現今 NLG 領域中的機器學習模型基礎大多建立於 Transformer 之上。

In Detail

NLP有哪些應用?

隨著深度學習的進步, NLP 技術的應用領域已更為廣泛,一篇報告指出,企業對 NLP 的採用率已有著顯著增長。隨著 NLP技術更加的成熟,機器能夠 24 小時不間斷工作且錯誤率極低的特性,將會驅動 NLP 更為廣泛的應用,為市場創造更多價值。

對於企業來說,我們可以將 NLP 所提供的價值層面分為三項,一為運營上的效率以及成本的降低、二為顧客旅程以及體驗的優化、最後則是各個不同產業透過 NLP 所驅動的商業模式。 像是情感分析就是一種顧客旅程以及體驗優化的應用,然而我們也看到越來越多新創利用這項技術發展了全新的商業模式。

聊天機器人

在以前,企業為了隨時與消費者互動,需聘請專人全天候在電話或通訊平台前待命,不僅耗費了人力成本,也無法很好地處理龐大的客戶量與資訊,而客服人員的訓練程度更是會第一線的影響客戶體驗。

這也是為何聊天機器人漸漸地走入了主流,不僅是因為它能夠全天候地提供即時服務,它也能更精準地提供產品資訊與個人化的服務。而建立於這兩項優勢,聊天機器人能夠更好的存取消費者的意見與需求,驅動更具效力的消費者回饋,成為企業豐富消費者體驗的強大工具。經甲骨文的一份調查指出, 80% 的受訪者將採用聊天機器人為客戶服務,Maruti Techlabs的一項數據更是指出,聊天機器人能幫助將客戶服務成本降低 30% 。

情感分析

情感分析模型是一種挖掘文字或話語意見的方式,設立規則將詞彙量化,由此得知字句背後的情緒、意見或意圖。

隨著這項技術更加成熟,業者能夠應用它去更好的理解用戶或是消費者的真實感受,畢竟傳統的回饋模式常常會基於數據量不足、回饋不真實、或是消費者自己也不清楚他的購買動機等因素,而無法真正的理解消費者洞見。這就是情感分析模型能夠提供龐大價值的層面,畢竟,同樣的消費者也會在社群平台以及論壇上發表想法,只有有效利用這些數據,業者即能更深層的理解消費者洞見,以了解客戶喜歡什麼、討厭什麼,從而改善產品、業務與顧客服務。

Kaggle有個有趣的例子,通過對美國航空公司的 twitter 留言進行情緒分析,將客戶情緒分成正面、中立與負面,並從中自動統計出顧客滿意與否的因素,如:飛行舒適度、行李、航班問題,此類分析將為企業提供更明確的改善方向。

智能助理

一份報告指出,智能助理在未來幾年將會維持著34%的年成長率,如此快速的增長來自智慧裝置上搭載的語音助理,如: Siri 以及 Alexa 等,協助用戶處理個人事務或連結智慧家電,但隨著 NLP 的進步,越來越多企業開始制定智能助理來優化作業流程,也就是說,智能助理不再只為個人與家庭服務,在企業的各個業務中也有許多應用層面。

在前年,一家科技公司推出了一款企業語音平台工具,結合 AI 與 NLU 技術,輔佐企業的會議流程。會議人員只需專注於談話,智能助理就會同步的紀錄相關事宜,並且整理出會議見解。如此的模式不僅使團隊方向更為明確,它更是為團隊減省時間以提高其餘業務的工作效率。

根據 Loupventures 的調查,Google 智能助理已能正確回答近九成的問題,而隨著物聯網裝置的普及,這也意味著未來將會有更多設備能通過書面文字與聲音串聯,在流程優化與商業環境中也會有著更顯著的發展。

文本生成

文本生成是很早被運用的一項 NLG 技術, AI 擅長即時處理並應用大量數據,因此在過去,文本生成常被運用在媒體以及廣告業者的文案中,新聞自動化即是一個很好的例子,機器能不斷瀏覽不同來源的新聞(數據)並編寫文本,使該新聞迅速地出現在網路與電視上,這相較於傳統的流程, AI 的文本生成更為快速、低成本、且客觀。

JP Morgan 在 2016 與一家 AI 新創公司合作,使用 AI 來生成更快速、有效的行銷文本,將廣告或郵件以更加個人化的方式傳達給客戶,最後成效不僅廣告點擊率成長了 450 %,其行銷訊息也顯著地提升信用卡與貸款業務績效,並更好的與現有、潛在客戶交流。

文件處理

在前年,一家合約審查平台公司做了一項研究,研究中 AI 在審查保密條款的準確性已達 94%,而審查經驗豐富的律師平均準確率則是 85 %,且時間上 AI 僅花了 26 秒就完成律師需要耗費 92 分鐘的工作。AI 不僅在文件審查上具有優勢,它更是在其他領域像是文件的分類或是比對等重複性的工作,還是執行更進一步的分析,都能夠提供企業價值。

而在金融產業當中,我們也在保險業的未來中提到,業者利用NLP演算法完成理賠自動化流程,大幅降低理賠時間進而豐富客戶體驗,在減少人工錯誤的同時,效率化了內部營運流程。

AI Customer Experience Smart Home

About DOC

我們團隊追蹤各國經濟、政策、貿易,以及7個主要產業的變化與發展,支撐相關產業的大中華企業,在全球供應鏈中部署策略。而DOC系列的文章則是我們團隊所撰寫,盼能支撐所有夥伴可以有結構性的理解相關議題的重點與概念詮釋。

作者:數據生態小組

人工智慧|數據工程|數據架構|數據隱私|數據策略|資料分析

了解服務
More From Us
More Glossary Terms