資訊中心NEWS CENTER
在發(fā)展中求生存,不斷完善,以良好信譽(yù)和科學(xué)的管理促進(jìn)企業(yè)迅速發(fā)展????它將執(zhí)行以下操作:進(jìn)行聲音輸入:“嘿Siri,現(xiàn)在幾點(diǎn)了?”通過(guò)聲學(xué)模型運(yùn)行語(yǔ)音數(shù)據(jù),將其分解為語(yǔ)音部分。·通過(guò)語(yǔ)言模型運(yùn)行該數(shù)據(jù)。輸出文本數(shù)據(jù):“嘿Siri,現(xiàn)在幾點(diǎn)了?”在這里,值得一提的是,如果自動(dòng)語(yǔ)音識(shí)別系統(tǒng)是語(yǔ)音用戶界面的一部分,則ASR模型將不是***在運(yùn)行的機(jī)器學(xué)習(xí)模型。許多自動(dòng)語(yǔ)音識(shí)別系統(tǒng)都與自然語(yǔ)言處理(NLP)和文本語(yǔ)音轉(zhuǎn)換(TTS)系統(tǒng)配合使用,以執(zhí)行其給定的角色。也就是說(shuō),深入研究語(yǔ)音用戶界面本身就是個(gè)完整的話題。要了解更多信息,請(qǐng)查看此文章。那么,現(xiàn)在知道了ASR系統(tǒng)如何運(yùn)作,但需要構(gòu)建什么?建立ASR系統(tǒng):數(shù)據(jù)的重要性ASR系統(tǒng)應(yīng)該具有靈活性。它需要識(shí)別各種各樣的音頻輸入(語(yǔ)音樣本),并根據(jù)該數(shù)據(jù)做出準(zhǔn)確的文本輸出,以便做出相應(yīng)的反應(yīng)。為實(shí)現(xiàn)這一點(diǎn),ASR系統(tǒng)需要的數(shù)據(jù)是標(biāo)記的語(yǔ)音樣本和轉(zhuǎn)錄形式。比這要復(fù)雜一些(例如,數(shù)據(jù)標(biāo)記過(guò)程非常重要且經(jīng)常被忽略),但為了讓大家明白,在此將其簡(jiǎn)化。ASR系統(tǒng)需要大量的音頻數(shù)據(jù)。為什么?因?yàn)檎Z(yǔ)言很復(fù)雜。對(duì)同一件事有很多種講述方式,句子的意思會(huì)隨著單詞的位置和重點(diǎn)而改變。還考慮到世界上有很多不同的語(yǔ)言,在這些語(yǔ)言中。 更重要的是體現(xiàn)在世界范圍內(nèi)的各行各業(yè)在設(shè)計(jì)和部署語(yǔ)音識(shí)別系統(tǒng)時(shí)均采用了各種深度學(xué)習(xí)方法。深圳電子類(lèi)語(yǔ)音識(shí)別
????英國(guó)倫敦大學(xué)的科學(xué)家Fry和Denes等人di一次利用統(tǒng)計(jì)學(xué)的原理構(gòu)建出了一個(gè)可以識(shí)別出4個(gè)元音和9個(gè)輔音的音素識(shí)別器。在同一年,美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室的研究人員則shou次實(shí)現(xiàn)了可以針對(duì)非特定人的可識(shí)別10個(gè)元音音素的識(shí)別器。語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計(jì)模型和深度學(xué)習(xí)三個(gè)階段。di一階段:模板匹配(DTW)20世紀(jì)60年代,一些重要的語(yǔ)音識(shí)別的經(jīng)典理論先后被提出和發(fā)表出來(lái)。1964年,Martin為了解決語(yǔ)音時(shí)長(zhǎng)不一致的問(wèn)題,提出了一種時(shí)間歸一化的方法,該方法可以可靠地檢測(cè)出語(yǔ)音的端點(diǎn),這可以有效地降低語(yǔ)音時(shí)長(zhǎng)對(duì)識(shí)別結(jié)果的影響,使語(yǔ)音識(shí)別結(jié)果的可變性減小了。1966年,卡耐基梅隆大學(xué)的Reddy利用動(dòng)態(tài)音素的方法進(jìn)行了連續(xù)語(yǔ)音識(shí)別,這是一項(xiàng)開(kāi)創(chuàng)性的工作。1968年,前蘇聯(lián)科學(xué)家Vintsyukshou次提出將動(dòng)態(tài)規(guī)劃算法應(yīng)用于對(duì)語(yǔ)音信號(hào)的時(shí)間規(guī)整。雖然在他的工作中,動(dòng)態(tài)時(shí)間規(guī)整的概念和算法原型都有體現(xiàn),但在當(dāng)時(shí)并沒(méi)有引起足夠的重視。這三項(xiàng)研究工作,為此后幾十年語(yǔ)音識(shí)別的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。雖然在這10年中語(yǔ)音識(shí)別理論取得了明顯的進(jìn)步。但是這距離實(shí)現(xiàn)真正實(shí)用且可靠的語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)依舊十分遙遠(yuǎn)。20世紀(jì)70年代。廣東谷歌語(yǔ)音識(shí)別在語(yǔ)音對(duì)話場(chǎng)景采買(mǎi)一句話識(shí)別(短語(yǔ)音)接口或者實(shí)時(shí)語(yǔ)音識(shí)別(長(zhǎng)語(yǔ)音流)接口,都屬于流式語(yǔ)音識(shí)別。
????語(yǔ)音識(shí)別的原理?語(yǔ)音識(shí)別是將語(yǔ)音轉(zhuǎn)換為文本的技術(shù),是自然語(yǔ)言處理的一個(gè)分支。前臺(tái)主要步驟分為信號(hào)搜集、降噪和特征提取三步,提取的特征在后臺(tái)由經(jīng)過(guò)語(yǔ)音大數(shù)據(jù)訓(xùn)練得到的語(yǔ)音模型對(duì)其進(jìn)行解碼,終把語(yǔ)音轉(zhuǎn)化為文本,實(shí)現(xiàn)達(dá)到讓機(jī)器識(shí)別和理解語(yǔ)音的目的。根據(jù)公開(kāi)資料顯示,目前語(yǔ)音識(shí)別的技術(shù)成熟度較高,已達(dá)到95%的準(zhǔn)確度。然而,需要指出的是,從95%到99%的準(zhǔn)確度帶來(lái)的改變才是質(zhì)的飛躍,將使人們從偶爾使用語(yǔ)音變到常常使用。以下我們來(lái)舉例,當(dāng)我們說(shuō)“jin天天氣怎么樣”時(shí),機(jī)器是怎么進(jìn)行語(yǔ)音識(shí)別的??2語(yǔ)義識(shí)別?語(yǔ)義識(shí)別是人工智能的重要分支之一,解決的是“聽(tīng)得懂”的問(wèn)題。其大的作用是改變?nèi)藱C(jī)交互模式,將人機(jī)交互由原始的鼠標(biāo)、鍵盤(pán)交互轉(zhuǎn)變?yōu)檎Z(yǔ)音對(duì)話的方式。此外,我們認(rèn)為目前的語(yǔ)義識(shí)別行業(yè)還未出現(xiàn)壟斷者,新進(jìn)入的創(chuàng)業(yè)公司仍具備一定機(jī)會(huì)。語(yǔ)義識(shí)別是自然語(yǔ)言處理(NLP)技術(shù)的重要組成部分。NLP在實(shí)際應(yīng)用中大的困難還是語(yǔ)義的復(fù)雜性,此外,深度學(xué)習(xí)算法也不是語(yǔ)義識(shí)別領(lǐng)域的優(yōu)算法。但隨著整個(gè)AI行業(yè)發(fā)展進(jìn)程加速,將為NLP帶來(lái)長(zhǎng)足的進(jìn)步從1996年至今,國(guó)內(nèi)至今仍在運(yùn)營(yíng)的人工智能公司接近400家。
????但依然流暢、準(zhǔn)確。整體使用下來(lái),直觀感受是在語(yǔ)音輸入的大前提下、結(jié)合了谷歌翻譯等類(lèi)似的翻譯軟件,實(shí)時(shí)翻譯、準(zhǔn)翻譯。在這兩種模式下,完成輸入后,同樣可以像普通話模式一樣,輕點(diǎn)VOICEM380語(yǔ)音識(shí)別鍵,對(duì)內(nèi)容進(jìn)行終的整合調(diào)整。同樣,準(zhǔn)確度相當(dāng)ok。我挑戰(zhàn)了一下,普通話模式在輸入長(zhǎng)度上的極限??焖僮x了一段文字,單次普通話模式的輸入極限是一分零三秒、316個(gè)字符。時(shí)長(zhǎng)上完全實(shí)現(xiàn)了官方的宣傳,字符長(zhǎng)度上,目測(cè)是因?yàn)閭€(gè)人語(yǔ)速不夠,而受到了限制。類(lèi)似的,我測(cè)試了一下,VOICEM380語(yǔ)音識(shí)別功能在距離上的極限。在相同語(yǔ)速、相同音量下,打開(kāi)語(yǔ)音識(shí)別功能,不斷后退,在聲源與電腦中間不存在障礙的情況下,方圓三米的距離是完全不會(huì)影響這個(gè)功能實(shí)現(xiàn)的。由此可以看到,在一個(gè)小型會(huì)議室,羅技VOICEM380的語(yǔ)音識(shí)別功能,是完全可以很好的輔助會(huì)議記錄的。有關(guān)M380語(yǔ)音識(shí)別功能三大模式之間的轉(zhuǎn)換,也是非常便捷。單擊VOICEM380語(yǔ)音識(shí)別鍵,如出現(xiàn)的一模式并非我們所需要的模式,只需輕輕雙擊VOICEM380語(yǔ)音識(shí)別鍵,即可瞬間切換至下一模式;再次啟動(dòng)輸入功能時(shí),會(huì)自動(dòng)優(yōu)先彈出上次結(jié)束的功能。有關(guān)M380后要強(qiáng)調(diào)的一點(diǎn),便是它的離在線融合模式。大規(guī)模的語(yǔ)音識(shí)別研究始于70年代,并在單個(gè)詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。
????主流方向是更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)技術(shù)融合端到端技術(shù)。2018年,科大訊飛提出深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),DFCNN使用大量的卷積直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模,主要借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置,每個(gè)卷積層使用小卷積核,并在多個(gè)卷積層之后再加上池化層,通過(guò)累積非常多卷積池化層對(duì),從而可以看到更多的歷史信息。2018年,阿里提出LFR-DFSMN(LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks)。該模型將低幀率算法和DFSMN算法進(jìn)行融合,語(yǔ)音識(shí)別錯(cuò)誤率相比上一代技術(shù)降低20%,解碼速度提升3倍。FSMN通過(guò)在FNN的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效的對(duì)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。而DFSMN是通過(guò)跳轉(zhuǎn)避免深層網(wǎng)絡(luò)的梯度消失問(wèn)題,可以訓(xùn)練出更深層的網(wǎng)絡(luò)結(jié)構(gòu)。2019年,百度提出了流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA,該模型是在LSTM和CTC的基礎(chǔ)上引入了注意力機(jī)制來(lái)獲取更大范圍和更有層次的上下文信息。其中流式表示可以直接對(duì)語(yǔ)音進(jìn)行一個(gè)小片段一個(gè)小片段的增量解碼;多級(jí)表示堆疊多層注意力模型;截?cái)鄤t表示利用CTC模型的尖峰信息,把語(yǔ)音切割成一個(gè)一個(gè)小片段,注意力模型和解碼可以在這些小片段上展開(kāi)。在線語(yǔ)音識(shí)別率上。語(yǔ)音識(shí)別的狹義語(yǔ)音識(shí)別必須走向廣義語(yǔ)音識(shí)別,致力讓機(jī)器聽(tīng)懂人類(lèi)語(yǔ)言,才能將語(yǔ)音識(shí)別研究帶到更高維度。深圳電子類(lèi)語(yǔ)音識(shí)別
語(yǔ)音識(shí)別的精度和速度取決于實(shí)際應(yīng)用環(huán)境。深圳電子類(lèi)語(yǔ)音識(shí)別
????CNN本質(zhì)上也可以看作是從語(yǔ)音信號(hào)中不斷抽取特征的一個(gè)過(guò)程。CNN相比于傳統(tǒng)的DNN模型,在相同性能情況下,前者的參數(shù)量更少。綜上所述,對(duì)于建模能力來(lái)說(shuō),DNN適合特征映射到空間,LSTM具有長(zhǎng)短時(shí)記憶能力,CNN擅長(zhǎng)減少語(yǔ)音信號(hào)的多樣性,因此一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)是這些網(wǎng)絡(luò)的組合。端到端時(shí)代語(yǔ)音識(shí)別的端到端方法主要是代價(jià)函數(shù)發(fā)生了變化,但神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)并沒(méi)有太大變化。總體來(lái)說(shuō),端到端技術(shù)解決了輸入序列的長(zhǎng)度遠(yuǎn)大于輸出序列長(zhǎng)度的問(wèn)題。端到端技術(shù)主要分成兩類(lèi):一類(lèi)是CTC方法,另一類(lèi)是Sequence-to-Sequence方法。傳統(tǒng)語(yǔ)音識(shí)別DNN-HMM架構(gòu)里的聲學(xué)模型,每一幀輸入都對(duì)應(yīng)一個(gè)標(biāo)簽類(lèi)別,標(biāo)簽需要反復(fù)的迭代來(lái)確保對(duì)齊更準(zhǔn)確。采用CTC作為損失函數(shù)的聲學(xué)模型序列,不需要預(yù)先對(duì)數(shù)據(jù)對(duì)齊,只需要一個(gè)輸入序列和一個(gè)輸出序列就可以進(jìn)行訓(xùn)練。CTC關(guān)心的是預(yù)測(cè)輸出的序列是否和真實(shí)的序列相近,而不關(guān)心預(yù)測(cè)輸出序列中每個(gè)結(jié)果在時(shí)間點(diǎn)上是否和輸入的序列正好對(duì)齊。CTC建模單元是音素或者字,因此它引入了Blank。對(duì)于一段語(yǔ)音,CTC輸出的是尖峰的序列,尖峰的位置對(duì)應(yīng)建模單元的Label,其他位置都是Blank。Sequence-to-Sequence方法原來(lái)主要應(yīng)用于機(jī)器翻譯領(lǐng)域。
? 深圳電子類(lèi)語(yǔ)音識(shí)別
Copyright©2025 版權(quán)所有 All Rights Reserved 龍泉市永佳竹木制品廠 網(wǎng)站地圖 移動(dòng)端