omniture

捷通華聲推出新版靈云語音合成(TTS)技術(shù)

2014-05-29 16:22

近日,捷通華聲宣布推出最新版靈云語音合成技術(shù)--jTTS6.1版本,該版本語音播報(bào)更加流暢、自然,更加適合于各領(lǐng)域、各行業(yè)實(shí)時(shí)文本信息、及大眾生活中的社會(huì)新聞、閱讀等語音播報(bào),這也是繼靈云語音識別技術(shù)jASR6.1之后,靈云智能語音交互技術(shù)再次實(shí)現(xiàn)新的跨越。

  淺談?wù)Z音合成

  語音合成(Speech Synthesis)就是人工合成人類的聲音,簡單地講:就是讓計(jì)算機(jī)“開口說話”。語音合成技術(shù)的學(xué)名是“文語轉(zhuǎn)換系統(tǒng)”,也常常被稱作TTS(Text To Speech)技術(shù),是指將文本信息轉(zhuǎn)變?yōu)檎Z音數(shù)據(jù),以語音的方式播放出來的技術(shù)。該項(xiàng)技術(shù)的目的就是讓計(jì)算機(jī)將文字“讀”出來,其追求的目標(biāo)是計(jì)算機(jī)“讀”出的聲音清晰、可懂、自然、具有表現(xiàn)力。

  國內(nèi)的漢語語音合成研究雖然起步較晚,但自上世紀(jì)八十年代開始,國內(nèi)漢語語音合成研究基本與國際研究同步發(fā)展,為中國語音合成技術(shù)后來的廣泛應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。

  創(chuàng)建于2000年的北京捷通華聲語音技術(shù)公司,是國內(nèi)最早從事中文TTS研究與應(yīng)用的企業(yè),2001年,捷通華聲推出了具有國際領(lǐng)先水平的TTS世紀(jì)版,是國內(nèi)第一項(xiàng)基于大容量真實(shí)錄音庫和韻律層級分析技術(shù)的語音合成技術(shù),在自然度和流暢度上達(dá)到了一個(gè)嶄新的水平,標(biāo)示著中國中文語音合成技術(shù)開始進(jìn)入商品實(shí)用化階段。如今,捷通華聲中文語音合成(TTS)技術(shù)在國內(nèi)已處于絕對領(lǐng)先地位,市場占有率超過50%。十幾年來,捷通華聲始終堅(jiān)持自主研究語音合成(TTS)、語音識別(ASR)等智能人機(jī)交互(HCI)技術(shù),并不斷推出粵語、維吾爾語等方言與少數(shù)民族語音合成技術(shù),為保證我國中文智能語音技術(shù)始終處于世界領(lǐng)先地位做出了主要貢獻(xiàn),也成為推動(dòng)語音合成技術(shù)在CTI等領(lǐng)域中廣泛應(yīng)用的主要力量。

  語音合成:CTI系統(tǒng)中不可或缺的關(guān)鍵技術(shù)

  現(xiàn)在在CTI產(chǎn)業(yè)中廣泛應(yīng)用的智能語音交互技術(shù)包含了語音合成、語音識別和自然語言理解等智能人機(jī)交互技術(shù)(HCI),如上所述,語音合成技術(shù)在我國HCI技術(shù)領(lǐng)域中起步最早,并叩開了語音絢爛多彩的應(yīng)用大門。語音合成技術(shù)解決的主要問題是如何將文本信息轉(zhuǎn)化為聲音信息,并能夠讓機(jī)器輸出清晰、流暢的連續(xù)語音。在語音合成技術(shù)應(yīng)用之前,呼叫中心主要采用錄音回放的方式進(jìn)行語音服務(wù)。錄音存在高成本、靈活性差、信息滯后等問題,急需尋求一種替代方案。在這一背景下,語音合成技術(shù)獲得飛速發(fā)展及大規(guī)模產(chǎn)業(yè)應(yīng)用,在這一時(shí)期,國內(nèi)以捷通華聲為代表的高新技術(shù)企業(yè)迅速切入市場,在金融、電信、能源、交通等行業(yè)的呼叫中心中使語音合成技術(shù)形成商品化的全面應(yīng)用。

  良好的客服播報(bào)聲音是獲得用戶好感的首要因素,當(dāng)你在撥通客服電話時(shí)卻不會(huì)感覺到電話那端是機(jī)器合成的播報(bào)聲音,這就是靈云語音合成的精彩之處。歷經(jīng)十幾年的發(fā)展,捷通華聲的“靈云TTS”已經(jīng)發(fā)展到支持英、法、德、俄等十三種世界語言。在建設(shè)銀行中,靈云粵語、英語、韓語等多語種語音合成技術(shù)在流暢地為用戶服務(wù),而國家電網(wǎng)電話端的語音播報(bào)則全程通過靈云語音合成來完成。新版靈云語音合成平臺將把朗讀能力進(jìn)一步強(qiáng)化,在具備近似真人發(fā)聲的基礎(chǔ)上,配合呼叫中心進(jìn)行多元化發(fā)展,適應(yīng)呼叫中心多方面的業(yè)務(wù)需求。作為呼叫中心最基礎(chǔ)、最重要的技術(shù),語音合成在未來依然能與時(shí)俱進(jìn),發(fā)揮其中流砥柱的作用。

  智能語音交互:呼叫中心的前景與未來

  語音合成雖然發(fā)展得比較成熟,但語音對話是一個(gè)來往通信的過程,單一的技術(shù)無法形成環(huán)路,也滿足不了日益發(fā)展的呼叫中心的需要。于是,語音技術(shù)開始由“說”向“聽”發(fā)展,作為實(shí)現(xiàn)人機(jī)語音交互的另一種重要支撐--語音識別開始從實(shí)驗(yàn)室走向前臺。在清華大學(xué)科研力量的幫助下,捷通華聲的語音識別已取得了突破性的進(jìn)展,新版靈云語音識別和語音合成組成的“雙能力平臺”將為國內(nèi)呼叫中心提供更全面的智能語音解決方案。

  系統(tǒng)集成商及軟件企業(yè)可以在客服質(zhì)檢、IVR導(dǎo)航等系統(tǒng)中將語音合成、語音識別等技術(shù)自由組合應(yīng)用,在語音質(zhì)檢中,企業(yè)可以通過靈云語音識別平臺實(shí)現(xiàn)客戶和客服的話者分離,同時(shí)把語音轉(zhuǎn)寫成文本,再通過自然語言理解對海量語音的內(nèi)容進(jìn)行全方位的深入分析,利用數(shù)據(jù)分析手段達(dá)到完善客服質(zhì)量、分析輿情走向、提升用戶體驗(yàn)、增強(qiáng)業(yè)務(wù)拓展成功性等目的。而在IVR導(dǎo)航中則是用語音合成、語音識別形成一個(gè)穿針引線的過程,一方面讓用戶在流暢自然的播報(bào)中獲得良好的聽覺體驗(yàn),一方面還可以通過自助語音服務(wù)快速獲取所需要的內(nèi)容,節(jié)省了企業(yè)大量的成本,提高企業(yè)和用戶雙方的溝通效率。捷通華聲通過多項(xiàng)智能語音技術(shù)為呼叫中心開拓了全新的發(fā)展思路,企業(yè)可以將多項(xiàng)技術(shù)結(jié)合,全面提升呼叫中心智能化水平,為業(yè)務(wù)部門決策、流程制定提供更加有效的支撐。

  未來發(fā)展,捷通華聲將聯(lián)合清華大學(xué)科研力量,更加專注智能語音等HCI技術(shù)研究與產(chǎn)業(yè)化應(yīng)用,堅(jiān)持秉承“合作共贏”的理念,不斷為產(chǎn)業(yè)界提供最先進(jìn)的智能語音交互技術(shù)。

消息來源:CTI論壇