辨識引擎比一比! (Evolution of ASR Technology )

187-2-1

語音分析近來客服領域中經常被探討的議題,目的在透過這項已被討論10多年的技術,應該到商務領域中,以期能夠分析通話內容,找到更好的服務方式以及隱藏在通話中的商機。

187-2-2

企業導入這項技術之前,如果不了解ASR主要技術演進與特性/能力,所訂出來的目標將會與現實產生差距。例如筆者常遇到企業管理者提問關於辨識率的問題。其實辨識率所表達的,僅只是辨識系統有多大的機率可以將語音內容正確的轉成文字之後作為分析的依據,但它不代表系統的分析能力。因此對於辨識系統需要有正確的了解。要了解辨識系統,不得不把先前在學校所學的機率以及統計等知識加以說明,因為辨識本身就是機率學與統計學的結合。約莫有下列幾個主要應用在語音辨識上的模型。

1.高斯模型 (Gaussian Mixture Mode,GMM):
是語音辨識處理中的一種常用的統計模型,該模型基本理論是只要數目足夠多,一個任意的分布就可以在任意的精度下用這些高斯混合的加權平均來逼近。也是早期常使用的語音辨識技術。

2.隱馬爾可夫模型(Hidden Markov Model,HMM):
是一種統計模型,從可觀察的參數中確定該過程的隱含參數。即過程中的狀態並不是直接可見的,但受狀態影響的某些變量則是可見的。每一個狀態在可能輸出的符號上都有一機率分布。因此輸出符號的序列能夠透露出狀態序列的一些信息。經常被使用來輔助高斯模型所不足的部份,以增加準確率。

3.深度神經網絡(deep neuron networks,DNN):
是一種判別模型,語音辨識僅只是其中一種應用,內容分為聲學模型、語言模型、以及解碼三個部份,聲學模型是模擬發音的概率分布,語言模型是模擬詞語間的關聯,解碼則是利用上述二個模型,將聲音轉為文字。它模擬了人腦的深層結構,能夠更準確地“理解”事物的特徵。因此相較於GMM/HMM,DNN可以更為準確地模擬聲學模型和語言模型。這也是目前大多數辨識引擎所使用的技術,例如IBM, Nuance, Apple等。

4.遞迴式神經網絡(recurrent neural network,RNN) :
包含2種神經網路。1種是時間遞迴神經網絡(recurrent neural network),另1種是結構遞迴神經網絡(recursive neural network)。時間遞歸神經網路的神經元間連接構成向量圖;而結構遞歸神經網路利用相似的神經網路結構遞歸構造更為複雜的深度網路。由於文本的各個詞之間是有順序的,而先前的做法總是採用詞袋模型忽略掉這些順序。於是大廠漸漸傾向於使用RNN技術,包括Bing,Google,百度等。

187-2-3

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s