欧美日韩亚洲欧美日韩亚洲,国产三级在线观看播放视频视频,亚洲观看一区二区三区,少妇人妻人人爽人人爽快

新聞資訊

醫(yī)護IP可視對講系統(tǒng)廠家-asr-自動語音識別技術(shù)

2023-10-20 12:19

概念理解 ASR是英文AutomaticSpeechRecognition第一個英文字母的縮寫簡稱。意思是自動語音識別技術(shù)。是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。

ASR,或自動語音識別,是指讓程序自動轉(zhuǎn)錄口語(語音到文本)的問題。我們的目標通常是在轉(zhuǎn)錄語音輸入時,有一個模型,將Word錯誤率(WER)指標降至最低。換句話說,鑒于某些音頻文件(例如包含語音的WAV文件),我們?nèi)绾螌⑵滢D(zhuǎn)換為相應(yīng)的文本,并盡可能少地進行錯誤處理?
傳統(tǒng)的語音識別采用生成方法,模擬語音聲音生成方式的完整管道,以便評估語音樣本。我們將從一個語言模型,封裝最有可能的單詞順序生成(例如n-gram模型),到該順序中每個單詞的發(fā)音模型(例如發(fā)音表),到將這些發(fā)音轉(zhuǎn)換為音頻波形(例如高斯混合模型)的聲學(xué)模型。

然后,如果我們收到一些口頭輸入,我們的目標是找到最有可能的文本序列,將導(dǎo)致根據(jù)我們的生成模型管道的給定音頻??偟膩碚f,通過傳統(tǒng)的語音識別,我們嘗試建模,并利用這個可能的成績單。Pr(audio|transcript)*Pr(transcript)

隨著時間的推移,神經(jīng)網(wǎng)發(fā)展到傳統(tǒng)語音識別模型的每個組件可以被性能更好且具有更大泛化潛力的神經(jīng)模型所取代的地步。例如,我們可以用神經(jīng)語言模型替換n-gram模型,用神經(jīng)發(fā)音模型替換發(fā)音表,依次是。但是,每個神經(jīng)模型都需要單獨接受不同任務(wù)的培訓(xùn),而流體中任何模型的錯誤都可能放棄整個預(yù)測。

因此,我們可以看到端到端ASR架構(gòu)的吸引力:歧視性模型,只需接收音頻輸入并提供文本輸出,并且其中架構(gòu)的所有組件都一起訓(xùn)練以實現(xiàn)相同的目標。該模型的編碼器類似于提取語音特征的聲學(xué)模型,然后可以直接通過管道輸送到輸出文本的解碼器。如果需要,我們可以集成一個語言模型,以改善我們的預(yù)測,
整個端到端的ASR模型可以同時進行訓(xùn)練——一個更容易處理的管道! ASR工作原理 在過去幾年中,語音助手已經(jīng)無處不在,谷歌首頁,亞馬遜回聲,Siri,Cortana等的受歡迎程度。這些是自動語音識別(ASR)的最知名示例。這一類應(yīng)用程序從某些語言的口語音頻剪輯開始,并提取已使用的單詞作為文本。因此,它們也被稱為語音到文本算法。

像Siria和上面提到的其他應(yīng)用程序,會走得更遠。他們不僅提取文本,而且還解釋和理解所講內(nèi)容的語義,以便他們能夠回答,或根據(jù)用戶的命令采取行動。在本文中,我將重點介紹通過深度學(xué)習(xí)對文本進行語音到文本的核心能力。我的目標將是不僅了解某樣?xùn)|西是如何工作的,而且了解為什么它這樣工作。

我在我的音頻深度學(xué)習(xí)系列中還有幾篇文章,你可能會發(fā)現(xiàn)有用。他們探索這個領(lǐng)域的其他引人入勝的話題,包括我們?nèi)绾螢樯疃葘W(xué)習(xí)準備音頻數(shù)據(jù),為什么我們使用Mel光譜儀進行深度學(xué)習(xí)模型,以及如何生成和優(yōu)化這些模型。
  • 最先進的技術(shù)(什么是聲音,如何數(shù)字化。什么問題就是在日常生活中深入學(xué)習(xí)解決。什么是光譜圖,為什么它們都很重要。
  • 為什么梅爾光譜儀性能更好(在Python中處理音頻數(shù)據(jù)。什么是梅爾光譜圖以及如何生成它們)
  • 數(shù)據(jù)準備和增強(通過超參數(shù)調(diào)整和數(shù)據(jù)增強增強光譜功能,實現(xiàn)最佳性能)
  • 聲音分類(端到端示例和架構(gòu),對普通聲音進行分類。一系列方案的基礎(chǔ)應(yīng)用。
  • 光束搜索(語音到文本和NLP應(yīng)用程序常用的算法,以增強預(yù)測)
  • 語音到文本 我們可以想象,人類言論是我們?nèi)粘€人和商業(yè)生活的基礎(chǔ),語音到文本功能具有大量的應(yīng)用。人們可以用它來轉(zhuǎn)錄客戶支持或銷售電話的內(nèi)容,用于語音聊天機器人,或者記下會議和其他討論的內(nèi)容。
    基本音頻數(shù)據(jù)由聲音和噪音組成。人類言論就是一個特例。因此,我在文章中談到的概念,如我們?nèi)绾螖?shù)字化的聲音,處理音頻數(shù)據(jù),以及為什么我們轉(zhuǎn)換音頻到光譜儀,也適用于理解語音。然而,語音是更復(fù)雜的,因為它編碼語言。
    音頻分類等問題從聲音剪輯開始,并從給定類別中預(yù)測聲音屬于哪個類。對于語音到文本的問題,您的培訓(xùn)數(shù)據(jù)包括:
  • 輸入功能(X):口語音頻剪輯
  • 目標標簽(y):發(fā)言內(nèi)容的文本記錄
  • 上一篇:醫(yī)院排隊叫號系統(tǒng)廠家-fwa:詳解固定無線接入
    返回
    下一篇:醫(yī)院的醫(yī)護對講系統(tǒng)廠家-AXB/AX業(yè)務(wù)能力平臺
    沂南县| 淮南市| 金阳县| 汤阴县| 来凤县| 龙海市| 马边| 遵化市| 余庆县| 明水县| 潮安县| 敖汉旗| 临澧县| 财经| 大安市| 静乐县| 财经| 彝良县| 喀喇沁旗| 开鲁县| 内黄县| 外汇| 九龙县| 达拉特旗| 定安县| 盐源县| 英吉沙县| 芮城县| 石家庄市| 突泉县| 溧阳市| 宁晋县| 龙川县| 金溪县| 屯留县| 江西省| 大石桥市| 峨边| 永寿县| 沙坪坝区| 高台县|