售前電話
135-3656-7657
售前電話 : 135-3656-7657
釋放雙眼,帶上耳機(jī),聽聽看~!
00:00
00:00
當(dāng)輸入模擬波形是調(diào)制解調(diào)器信號、傳真機(jī)信號或任意語音時,采用波形編碼的效果最好。波形的形狀越多,變化越?jīng)]規(guī)律,就越有必要在量化噪聲限制范圍內(nèi)盡可能貼切地模擬輸入波形。
不過,如果假定輸入波形僅限于人的語音,為了進(jìn)一步降低必需的數(shù)字語音比特率,還能除去更多的冗余嗎?事實(shí)上,在語音中還有許多冗余,根據(jù)這一特性,在語音數(shù)字化過程中可以使其速率降至2.4kbit/s。
聲碼器:對于模擬波形的信源特點(diǎn)人們作出了特定的假設(shè),這些假定有:人的語音完全由清音和濁音組成,而且濁音和清音都有各自持續(xù)的時,間;不可能成串地出現(xiàn)許多清音和濁音;濁音中含有被稱作“音程”的重復(fù),形式,等等。根據(jù)這些假設(shè),產(chǎn)生了被稱為“源編碼”的語音編碼技術(shù)。
這些特點(diǎn)使我們能夠?qū)φZ音進(jìn)行預(yù)測。換句話說,如果一個說話人正在發(fā)出濁音,那么他(或她)很快就會發(fā)出清音。一旦有一個音程被檢測出,就有理由預(yù)測它會重復(fù)出現(xiàn)三到四次。源編碼或混合編碼的實(shí)質(zhì)就在于對語音進(jìn)行預(yù)測,如今這兩種編碼方法都在VoIP中得到普遍運(yùn)用。采用源編碼或混合編碼的設(shè)備稱作語音編碼器或簡稱為聲碼器。采用聲碼器這一名詞是為了表明這種方法僅適用于語音的數(shù)字化,要復(fù)制任意的波形,就得采用編碼解碼器。
在實(shí)踐中,預(yù)測編碼把語音波形描述為帶有數(shù)個參數(shù)的模型。人們根據(jù)預(yù)測編碼的特定規(guī)則設(shè)計出某種預(yù)測算法,信源和信宿的語音編碼器都采用這一算法。發(fā)端和收端之間所要傳送的是預(yù)測波形,與實(shí)際波形不同(不過有可能出現(xiàn)這種情況:當(dāng)我們以為說話人會停止發(fā)出清音時,他們不但沒有停下,反而繼續(xù)發(fā)出清音!)。只要預(yù)測器能夠很好地模擬說話人的發(fā)音機(jī)制,就可用許多參數(shù)值來表示這種體現(xiàn)波形差異的信息,從而天大減少發(fā)送語音的比特數(shù)。
既然源編碼有利于增加網(wǎng)絡(luò)的容量,為什么多年前不使用它呢?這是因?yàn)槁暣a器的成本較高,把它縮減比特長度的優(yōu)點(diǎn)給抵銷了。波形編碼簡單而快捷,源編碼卻不然,它必須對輸入波形進(jìn)行分析,還必須調(diào)整和發(fā)送參數(shù)。預(yù)測是發(fā)送器和接收器的基礎(chǔ),它必需連續(xù)地工作并在發(fā)送器和接收器之間保持同步。所有這些需要大容量存儲器,對聲碼器芯片的處理能力要求很高,而且聲碼器中的軟件相當(dāng)復(fù)雜。
直到80年代后期,聲碼器技術(shù)一直都很昂貴而且原始。聲碼器產(chǎn)生的聲音盡管清晰可懂,但聽起來卻很機(jī)械化且感覺是人工合成的。得克薩斯儀器公司的老式“說話拼讀”玩具內(nèi)有一個芯片式的聲碼器,一按按鈕,它就會把存在存儲器中的比特以語音的形式發(fā)送出來。但是,除非迫不得以,沒有人會愿意在電話中用那種方式交談。
現(xiàn)有幾種形式的聲碼器,它們都假定語音通過一個線性系統(tǒng)(例如,個輸出等于輸入疊加的系統(tǒng)就是線性系統(tǒng))產(chǎn)生,且人的聲道正是這樣個系統(tǒng)。線性系統(tǒng)不時地受到一系列脈沖的激勵,它根據(jù)音程來判斷輸入的聲音是不是語音。
所有的線性系統(tǒng)都用不同的技術(shù)來模仿人的聲道及其參數(shù),所采用技術(shù)的不同形成了不同的聲碼器。但是它們的目的都是產(chǎn)生比特流,使得聲音聽起來與聲源差不多,而不關(guān)心輸出波形與輸入波形到底有幾分相似(這正是聲碼器聽起來很不自然,卻仍舊好懂的原因)。發(fā)送器分析輸入的語,音并決定模型參數(shù)和激勵,接收器則合成語音。
聲碼器質(zhì)量不盡如人意是因?yàn)樗玫乃惴ㄐ阅芎唵巍K械穆曇舨皇歉叻褪堑头?,在兩者之間卻什么也沒有。更糟的是,人耳對濁音的音高十分敏感,但是所有的聲碼器的注意力都集中在音程上,且至今也未令人滿意地解決好音程這個問題。聲碼器對差錯很敏感,這些差錯是由于聲道模型參數(shù)的計算問題,以及線路上的比特差錯而產(chǎn)生的。
在語音和音樂合成器中都使用聲碼器,但這里的討論只限于它在電話中的應(yīng)用。關(guān)于聲碼器的構(gòu)思早在1939年就有了,但只是簡單的通道聲碼器;與此同時,數(shù)字語音也誕生了。注意到耳朵對較小的相位失真并不敏感,信道聲碼器把語音分成20ms長的一些小段,它只關(guān)心各段的幅度大小,最后產(chǎn)生2.4kbit/s的語音。對這種聲碼器改進(jìn)后形成同型性聲碼器,它把音高信息加入了幅度之中,付出的代價是把比特率提高到4kbit/so如果芯片處理能力有了質(zhì)的飛躍,還有一種共振峰聲碼器來處理語音,理論上可以獲得1kbit/s或更低速率的語音。就有如語音的音程一樣,共振峰也是語音的一個特征。然而,在實(shí)際中難以精確地測定語音共振峰,這使得共振峰聲碼器很難普及。