售前電話
135-3656-7657
售前電話 : 135-3656-7657
隨著計(jì)算機(jī)運(yùn)算速度越來(lái)越快,人工智能領(lǐng)域的研究獲得了飛速發(fā)展,而人工智能領(lǐng)域的最新研究成果向語(yǔ)音研究中的大量滲透,促使語(yǔ)音處理技術(shù)及語(yǔ)音合成的研究產(chǎn)生了一個(gè)突破性的飛躍。語(yǔ)音合成系統(tǒng)也越來(lái)越產(chǎn)品化,并具有巨大的市場(chǎng)前景。
合成語(yǔ)音是通過(guò)一個(gè)聲學(xué)模塊來(lái)具體實(shí)現(xiàn)的。早期的語(yǔ)音合成技術(shù)的研究,往往集中在語(yǔ)音合成算法本身,其研究的方法和手段與語(yǔ)音編碼有很多相似之處。其聲學(xué)模型的構(gòu)筑,,也多通過(guò)模擬人的口腔的聲道特性來(lái)產(chǎn)生。其中比較著名的有Klatt的共振峰(Formant)合成系統(tǒng),后來(lái)又產(chǎn)生了基于LPC、LSP和LMA等聲學(xué)參數(shù)的合成系統(tǒng)。這些方法用來(lái)建立聲學(xué)模型的過(guò)程為:首先錄制聲音,這些聲音涵蓋了人發(fā)音過(guò)程中所有可能出現(xiàn)的讀音;提取出這些聲音的聲學(xué)參數(shù),并整合成一個(gè)完整的音庫(kù)。在發(fā)音過(guò)程中,首先根據(jù)需要發(fā)的音,從音庫(kù)中選擇合適的聲學(xué)參數(shù),然后根據(jù)韻律模型中得到的韻律參數(shù),通過(guò)合成算法產(chǎn)生語(yǔ)音。
進(jìn)入20世紀(jì)90年代以來(lái),波形拼接(PSOLA)的算法,越來(lái)越被廣泛地應(yīng)用在語(yǔ)音合成系統(tǒng)中。國(guó)內(nèi)外的許多跨國(guó)公司和研究機(jī)構(gòu)均投入了大量的人力和物力從事語(yǔ)音技術(shù)的開(kāi)發(fā),如L&H、IBM、Microsoft、Lucent、Motorola等。清華大學(xué)計(jì)算機(jī)系在漢語(yǔ)語(yǔ)音合成的研究和開(kāi)發(fā)中,也突破性地運(yùn)用了人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、隱馬爾可夫模型等方法。這些方法的運(yùn)用,徹底改變了漢語(yǔ)語(yǔ)音合成研究的研究重點(diǎn),使?jié)h語(yǔ)語(yǔ)音合成的研究突破了早期重點(diǎn)對(duì)單純算法的研究,而變成一個(gè)系統(tǒng)工程的研究。目前我國(guó)語(yǔ)音合成的整體研究和開(kāi)發(fā),邁上了一個(gè)全新的臺(tái)階,并處在了國(guó)際最先進(jìn)的行列。
一、 SinoSonic語(yǔ)音合成系統(tǒng)
SinoSonic是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系和北京炎黃新星網(wǎng)絡(luò)科技有限公司共同推出的漢語(yǔ)語(yǔ)音合成系統(tǒng)。
它采用目前世界最先進(jìn)的數(shù)據(jù)驅(qū)動(dòng)技術(shù),利用精心設(shè)計(jì)的語(yǔ)音語(yǔ)料庫(kù)對(duì)TTS系統(tǒng)進(jìn)行訓(xùn)練,所得到的系統(tǒng)體現(xiàn)了連續(xù)、自然的語(yǔ)言特性,從而使系統(tǒng)發(fā)音自然、親切。整個(gè)系統(tǒng)的核心技術(shù)包括:基于神經(jīng)網(wǎng)絡(luò)的韻律模型、基于HMM的語(yǔ)音切分和選取模型、基于HMM的多語(yǔ)種文本分析和語(yǔ)義分析、漢語(yǔ)語(yǔ)料庫(kù)設(shè)計(jì)和標(biāo)注、語(yǔ)音分析工具的研制等。
該系統(tǒng)的構(gòu)成分為:用戶編程接口以及TTS內(nèi)核兩大部分,如圖1所示。其中,內(nèi)核部分又可以按照系統(tǒng)運(yùn)作的不同過(guò)程分為多個(gè)子模塊,包含了訓(xùn)練模塊、文本分析模塊、韻律生成模塊、語(yǔ)音合成模塊以及與語(yǔ)料庫(kù)之間的通信協(xié)議等。同時(shí),SinoSonic還考慮了不同類(lèi)型用戶對(duì)TTS系統(tǒng)功能的需要,提供了豐富的編程接口。
該系統(tǒng)的工作過(guò)程如下:
用戶提供文本并調(diào)用TTS系統(tǒng)接口,文本首先被送入系統(tǒng)的文本分析模塊,文本分析模塊首先對(duì)用戶輸入的文本進(jìn)行規(guī)格化處理,然后運(yùn)用統(tǒng)計(jì)模型算法對(duì)其進(jìn)行分詞、分短語(yǔ)、確定發(fā)音、分析標(biāo)點(diǎn)符號(hào)或特殊符號(hào)等處理,同時(shí),還要確定文本發(fā)音的輕重模式。經(jīng)過(guò)文本分析后得到的參數(shù),被送入到系統(tǒng)的韻律生成模塊。在韻律模型中,首先通過(guò)統(tǒng)計(jì)模型的方法得到韻律中音節(jié)的音長(zhǎng)和音強(qiáng)參數(shù),然后通過(guò)優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型來(lái)確定音節(jié)的基頻曲線,并得到音節(jié)停頓模式等信息。將這些信息和參數(shù)傳送到系統(tǒng)的聲學(xué)模塊,系統(tǒng)的聲學(xué)模塊再根據(jù)這些參數(shù),從音庫(kù)中選擇合適的語(yǔ)音單元,并采用PSOLA的方法生成最終的合成語(yǔ)音。
在整個(gè)系統(tǒng)工作的過(guò)程中,用戶可以隨時(shí)通過(guò)系統(tǒng)提供的接口,獲得系統(tǒng)的內(nèi)部狀態(tài),進(jìn)行合成參數(shù)設(shè)置、隨時(shí)中斷或暫停系統(tǒng)等工作。
SinoSonic系統(tǒng)功能和指標(biāo)有:可讀字、詞、句子、文章及標(biāo)點(diǎn)、數(shù)字、運(yùn)算符和英文字母,語(yǔ)音庫(kù)覆蓋國(guó)標(biāo)一、二級(jí)所有漢字;能輸出男聲或女聲;提供豐富的、合理的編程接口,方便用戶進(jìn)行二次開(kāi)發(fā); 語(yǔ)音輸出以句子為單位,按詞匯停頓,能自動(dòng)決定多音字的正確讀音;可隨時(shí)改變聲音的幅度(Volume)、基頻(Pitch)、速度(Duration)、詞間或句間停頓;讀出時(shí),可隨時(shí)“暫停”、“恢復(fù)”、“終止”語(yǔ)音。
二、語(yǔ)音合成系統(tǒng)性能指標(biāo)
語(yǔ)音合成系統(tǒng)的基本性能指標(biāo)包括:可懂度、清晰度、自然度、漢字轉(zhuǎn)拼音正確率(分詞正確率)。 考慮到實(shí)際應(yīng)用,還有系統(tǒng)的數(shù)字、姓氏、特殊符號(hào)等方面的處理能力、跨平臺(tái)處理能力以及語(yǔ)音合成的速度(指單位時(shí)間內(nèi),通過(guò)語(yǔ)音合成系統(tǒng)生成語(yǔ)音的音節(jié)數(shù),或語(yǔ)音合成同時(shí)支持的并發(fā)請(qǐng)求個(gè)數(shù))等。
SinoSonic除了滿足一般意義上的特性外,還有許多獨(dú)有的性能,如:
(1) 即時(shí)性: TTS技術(shù)實(shí)時(shí)完成文本到語(yǔ)音的轉(zhuǎn)換,它實(shí)現(xiàn)信息的即時(shí)傳送。
(2) 并發(fā)性: TTS技術(shù)與電信網(wǎng)絡(luò)結(jié)合,同時(shí)處理多個(gè)呼叫請(qǐng)求,它實(shí)現(xiàn)信息的并發(fā)傳送。
(3) 適應(yīng)性: TTS系統(tǒng)能在不同操作系統(tǒng)平臺(tái)下運(yùn)行,支持Windows 9x、Windows 2000、Linux和Unix。
(4) 可靠性: 經(jīng)過(guò)長(zhǎng)時(shí)間測(cè)試,SinoSonic系統(tǒng)性能穩(wěn)定可靠。
(5)靈活性:根據(jù)用戶特定需求,SinoSonic系統(tǒng)的輸入、輸出特性和用戶接口極易修改。
(6) 拓展性: 隨著應(yīng)用領(lǐng)域不斷擴(kuò)展,用戶需求不斷提高,阿吖、SinoSonic也可不斷更新拓展。
三、語(yǔ)音合成系統(tǒng)的API 設(shè)計(jì)
語(yǔ)音合成系統(tǒng)的API,可以考慮不同層次的開(kāi)發(fā)需要。目前國(guó)際上較為流行的方法是面向用戶應(yīng)提供不同層次的用戶接口,即High-Level API或Low-Level API。API分層設(shè)計(jì)的核心思想,是提供語(yǔ)音合成系統(tǒng)以不同層次的開(kāi)發(fā)需要。 High-Level Speech API的目的是使用戶不需要進(jìn)行太多的學(xué)習(xí),便能夠迅速、簡(jiǎn)便地使用語(yǔ)音合成系統(tǒng)的大部分功能。API簡(jiǎn)潔、明了、功能全面,且在不同的應(yīng)用平臺(tái)保持一致性,適用于一般意義上的語(yǔ)音合成系統(tǒng)應(yīng)用再開(kāi)發(fā)。其提供的基本功能應(yīng)包括:
(1) 系統(tǒng)初始化;
(2) 系統(tǒng)卸載;
(3) 直接將文字轉(zhuǎn)換為語(yǔ)音,并用聲卡或其他聲音播放卡將聲音播放出;
(4) 提供播放、暫停和停止等基本播放功能;
(5) 修改語(yǔ)速、基頻和能量的功能;
(6) 韻律控制符的分析和應(yīng)用;
(7) 可視化功能接口。
Low-Level Speech API的目的是使用戶能夠進(jìn)行全面、深入的底層開(kāi)發(fā),其API接口復(fù)雜,功能小而細(xì)、復(fù)雜、規(guī)模大,可按不同功能集進(jìn)行分類(lèi),且系統(tǒng)的幾個(gè)不同的組成模塊(如文本分析、韻律、聲學(xué)處理)均可以提供單獨(dú)的接口,能全面滿足語(yǔ)音合成系統(tǒng)現(xiàn)在和將來(lái)應(yīng)用開(kāi)發(fā)的需要。其提供的基本功能應(yīng)包括:
(1) 系統(tǒng)各個(gè)子模塊的初始化;
(2) 系統(tǒng)各個(gè)子模塊的卸載;
(3) 文字分詞、轉(zhuǎn)拼音或詞性標(biāo)注功能;
(4) 用戶詞典維護(hù)接口;
(5) 合成語(yǔ)音特色(包括男、女聲等);
(6) 韻律控制符的分析和應(yīng)用;
(7) 語(yǔ)速、基頻和能量的控制功能;
(8) 聲音播放卡的控制功能;
(9) 語(yǔ)音合成的流控制功能、內(nèi)存管理功能及消息管理功能;
(10) 用戶自定義文本分析、韻律及合成算法引擎的接口(合成平臺(tái)開(kāi)放性);
(11) 不同應(yīng)用平臺(tái)的特殊接口;
12) 不同語(yǔ)言的特殊接口;
13) 可視化接口;
14) 聲音同步接口;
15) 出錯(cuò)信息解釋接口。
詳細(xì)基本功能集的定義可根據(jù)各單位自己的系統(tǒng)的情況而定,也可以制定統(tǒng)一的標(biāo)準(zhǔn)。接口的設(shè)計(jì),還應(yīng)考慮語(yǔ)音合成產(chǎn)品除了在提供自身發(fā)音性能的同時(shí),正向著網(wǎng)絡(luò)化、多語(yǔ)種、多合成引擎的方向發(fā)展。同時(shí),接口還應(yīng)該可慮方便用戶自定義發(fā)音風(fēng)格、系統(tǒng)可訓(xùn)練的實(shí)際應(yīng)用需要。
四、新華音霸
新華音霸是清華大學(xué)、炎黃新星和新華世紀(jì)聯(lián)合推出的PC屏幕閱讀軟件。它可以朗讀計(jì)算機(jī)屏幕中任意出現(xiàn)的文字,增加了人機(jī)交互的友好性,同時(shí)它還采用了清華大學(xué)最新研制的虛擬頭像技術(shù),配合聲音進(jìn)行同步播放,極大地提高了軟件的趣味性。
五、語(yǔ)音網(wǎng)關(guān)
運(yùn)用語(yǔ)音合成技術(shù),而構(gòu)筑的語(yǔ)音網(wǎng)關(guān),在很大程度上改變了傳統(tǒng)IVR運(yùn)作模式,為電信網(wǎng)統(tǒng)一消息平臺(tái)、呼叫中心(Call Center)注入了全新的活力。它可以為用戶實(shí)時(shí)提供,諸如E-mail、新聞、信息查詢等信息,并為用戶用清晰自然的語(yǔ)音朗讀出來(lái)。目前,清華大學(xué)和炎黃新星共同推出的語(yǔ)音網(wǎng)關(guān)技術(shù),在國(guó)內(nèi)具有相當(dāng)?shù)膬?yōu)勢(shì),并在移動(dòng)夢(mèng)網(wǎng)、168平臺(tái)改造等重大項(xiàng)目中,得到了非常成功的應(yīng)用。
六、總 結(jié)
目前就語(yǔ)音合成系統(tǒng)的系統(tǒng)構(gòu)架來(lái)說(shuō),它正朝著多語(yǔ)種、網(wǎng)絡(luò)化和分布式運(yùn)算的方向發(fā)展,其關(guān)鍵的技術(shù)牽涉的領(lǐng)域也越來(lái)越多。目前,國(guó)際上許多大的公司和科研機(jī)構(gòu),如Motorola、Lucent、IBM等均參與了一種新的XML的一個(gè)擴(kuò)展子集VoiceXML的制定。VoiceXML的出現(xiàn),將會(huì)極大地改變?nèi)藱C(jī)交互的通信模式。在分布式運(yùn)算結(jié)構(gòu)中,將會(huì)要求系統(tǒng)的設(shè)計(jì)更為模塊化,并且對(duì)模塊之間的并行和協(xié)調(diào)工作提出了更高的要求?,F(xiàn)有的語(yǔ)音合成系統(tǒng)研究水平,從一定程度上使系統(tǒng)走向了產(chǎn)品化,其音質(zhì)和發(fā)音效果也被普通人所接受。然而,從另一個(gè)角度來(lái)說(shuō),人的發(fā)音各有特色,發(fā)音的習(xí)慣也不盡相同。能完全像真人一樣體現(xiàn)人的說(shuō)話語(yǔ)氣、概念,能體現(xiàn)不同的情感,并能模擬不同人發(fā)音特色的語(yǔ)音合成系統(tǒng)的出現(xiàn),還需要我們投入更大的精力去開(kāi)拓。下一代的語(yǔ)音合成系統(tǒng)將不再稱為“文字到語(yǔ)音轉(zhuǎn)換系統(tǒng)”,而是會(huì)被稱做“概念到語(yǔ)音轉(zhuǎn)換系統(tǒng)(CTS系統(tǒng))”。