悉尼和舊金山2021年4月22日 /美通社/ -- 近期,澳鵬Appen與一家語音識別技術(shù)公司 -- MediaInterface達成合作,填補了其關(guān)鍵的數(shù)據(jù)空白,助力其實現(xiàn)快速部署新市場。
語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用
幾年前,北京協(xié)和醫(yī)院曾開展過一項關(guān)于文檔錄入工作量的調(diào)研。結(jié)果顯示,我國超過40%的醫(yī)生每天在計算機前進行文字錄入的時間約為4小時,超過一半的醫(yī)生每天進行文字錄入的時間占工作總時間的40%。醫(yī)生們普遍對于提高病歷錄入效率有著強烈需求。
語音識別技術(shù)是一種相對成熟的解決方案。在許多歐美國家,語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已超過10年。近年來,美國臨床中語音識別錄入的應(yīng)用比例更是已近20%。MediaInterface便是其中一家頗具代表性的語音識別技術(shù)公司。
更高效的醫(yī)療文檔工作流程
以德國為中心發(fā)散,MediaInterface已經(jīng)為歐洲許多國家的醫(yī)療機構(gòu)提供語音技術(shù)解決方案長達20余年。如同它的名字一樣,其核心產(chǎn)品SpeaKING便是利用語音識別AI技術(shù)支持醫(yī)療文檔的高效工具。目前,該產(chǎn)品已幫助600+家醫(yī)院、700+家醫(yī)療機構(gòu)、75,000+名用戶實現(xiàn)速度更快、質(zhì)量更高的醫(yī)療文檔工作流程。
憑借20多年來在歐洲多個國家的成功經(jīng)驗,MediaInterface希望將業(yè)務(wù)拓展至法國。然而,在業(yè)務(wù)拓展的過程中,他們遇到了法語數(shù)據(jù)資源不足的問題。
從德國到法國
盡管擁有20余年的行業(yè)經(jīng)驗,MediaInterface擁有的法語數(shù)據(jù)卻并不多。要想拓展法國市場,MediaInterface必須建立全面的法語詞匯基礎(chǔ)。他們迫切需要具有高質(zhì)量語音轉(zhuǎn)錄功能的專業(yè)法語“詞典”。
這本“詞典”中,最大的數(shù)據(jù)空白是患者健康信息中經(jīng)常引用的法語姓名和地點。但這些數(shù)據(jù)卻難以獲?。骸稓W洲通用數(shù)據(jù)保護條例》規(guī)定,可供收集的健康數(shù)據(jù)必須匿名處理,因此不包括人名和地名。MediaInterface必須尋求專業(yè)的外部資源,在遵守當?shù)財?shù)據(jù)法規(guī)的前提下,幫助他們填補這些重要的數(shù)據(jù)空白。
MediaInterface產(chǎn)品經(jīng)理Ines Wendler表示:“我們當時正在向新市場拓展。盡管我們擁有先進的技術(shù)和軟件,但數(shù)據(jù)資源的缺乏讓我們的產(chǎn)品難以在當?shù)赝菩?。Appen的法語數(shù)據(jù)資源及時幫助了我們?!?/p>
快速部署新市場
MediaInterface與澳鵬Appen結(jié)緣于2015年的INTERSPEECH語音技術(shù)大會。此次法國市場的拓展則促成了雙方的合作。目前,MediaInterface已通過澳鵬獲取到約21,000個法國人名和14,000個法國地名,從而填補了最關(guān)鍵的數(shù)據(jù)空白。
澳鵬Appen通過種類豐富的OTS成品數(shù)據(jù)集助力MediaInterface針對某一集中需求的產(chǎn)品開發(fā),從而拓展到全新的市場,并增強未來進入更多市場的可能性。目前,MediaInterface已在法國全面覆蓋了醫(yī)療機構(gòu)對基本口述語音識別的需求,為法國客戶提供了較高的可信度。憑借數(shù)據(jù)資源的豐富,SpeaKING中的SmartLearning功能還可以讓用戶在其中添加自己的文本,以個性化現(xiàn)有詞匯,從而通過向基礎(chǔ)AI模型中添加數(shù)據(jù)的方式來提高語音識別的效果。
就MediaInterface而言,澳鵬數(shù)據(jù)集為其配備了工具,在開拓客戶群的同時,亦改善了數(shù)據(jù)質(zhì)量和客戶體驗。不僅僅是MediaInterface,澳鵬Appen成品數(shù)據(jù)集已幫助許多企業(yè)以更高的產(chǎn)品準確性實現(xiàn)了快速的部署。
澳鵬OTS成品數(shù)據(jù)集上新
澳鵬本次更新的OTS成品數(shù)據(jù)集*,包括人體運動和嬰兒啼哭聲,以及市場需求量高但通常難以獲得的語言(如阿拉伯語、克羅地亞語、希臘語、匈牙利語、泰語等)的腳本化語音和帶有可識別文本的圖像。全新數(shù)據(jù)集的加入使澳鵬Appen的OTS數(shù)據(jù)集總數(shù)達到250+個,包括11,000+小時的音頻、25,000+張圖像以及涵蓋80+種語言及方言的870萬+個單詞。
其中主要包括:
所有澳鵬Appen數(shù)據(jù)集都采用完全透明的方式進行開發(fā),確保數(shù)據(jù)安全且合規(guī),從而助力高質(zhì)量、負責任的AI部署。
*成品數(shù)據(jù)集(也稱OTS數(shù)據(jù)集)是一種高效、低成本的工具,可通過高質(zhì)量的訓練數(shù)據(jù)快速啟動人工智能或機器學習項目。OTS數(shù)據(jù)集通常的交付時間在一周之內(nèi),而全新的數(shù)據(jù)集采集和標注項目根據(jù)其復雜程度,則通常需要8到12周的交付時間。與傳統(tǒng)方法相比,OTS數(shù)據(jù)集縮短了實現(xiàn)價值的時間,并以較低的總成本提供了對高質(zhì)量數(shù)據(jù)的使用權(quán)。 |