2022年2月4日,四季初始,佳期如許。第24屆冬奧會在北京盛大開幕。世界目光再次聚焦北京,世界期待中國,中國做好了準(zhǔn)備。北京冬奧會始終秉持綠色、共享、開放、廉潔的辦奧理念,凝聚中國科技力量,展示大國風(fēng)范,共同參與、共同享有,面向世界、面向未來,為世界奉獻(xiàn)一場精彩、非凡的盛會。
冬奧手語播報(bào)數(shù)字人——科技與人文的結(jié)合!
我國有超2700萬聽障人群,他們與健聽人一樣,對教育、社交、娛樂、信息獲取都有巨大的需求量。電視媒體作為大眾傳播媒介,是普及傳播通道。但傳統(tǒng)人工手語翻譯工作量大,且主持人和手語主持人配合難度*。為了讓聽障人士能平等便利地享受冬奧盛會,北京電視臺上線這樣一位智能手語播報(bào)數(shù)字人,她僅用3個(gè)多月時(shí)間完成了近10萬條手語語料學(xué)習(xí),翻譯準(zhǔn)確率高達(dá)90%,在北京新聞和北京您早等節(jié)目中進(jìn)行冬奧專題手語播報(bào),為聽障人士帶來精彩冬奧賽事播報(bào)。
手語動作表情復(fù)雜,語序與正常語序差異大,正常情況下想要熟練掌握手語大約需要2年左右的時(shí)間,且還要結(jié)合語境進(jìn)行猜測,她是如何做到的呢?
這歸功于智能數(shù)字人技術(shù)的進(jìn)步。
冬奧手語播報(bào)數(shù)字人系統(tǒng)是由北京市科委科技冬奧專班委托,凌云光、智譜AI和北京廣播電視臺聯(lián)合打造,北京市殘疾人聯(lián)合會和市殘聯(lián)聾人協(xié)會的大力支持,在冬奧會期間,手語播報(bào)數(shù)字人在北京電視臺冬奧專題節(jié)目上提供賽事專題播報(bào),方便聽障人士收看冬奧報(bào)道。
今天讓我們一起來扒一扒冬奧手語播報(bào)數(shù)字人背后的技術(shù)創(chuàng)新。
高精度多模態(tài)的手語語料采集方案
創(chuàng)建10萬條高質(zhì)量冬奧手語語料庫
近年來人工智能體系建設(shè)重點(diǎn)布局在算法層和應(yīng)用層,數(shù)據(jù)層建設(shè)遠(yuǎn)遠(yuǎn)不足,尤其針對數(shù)字人相關(guān)產(chǎn)業(yè),底層數(shù)據(jù)庫的數(shù)量、質(zhì)量和開源程度還明顯不足。國內(nèi)現(xiàn)有的手語語料數(shù)據(jù)庫數(shù)量少,且多以圖像、視頻等二維平面為主,無法滿足AI訓(xùn)練的需求。因手語手語語序與中文語序差異大,方言分化也更加復(fù)雜,且需要通過表情、口型、動作等方式來傳達(dá)信息。除了傳統(tǒng)的二維平面圖像、視頻采集,三維肢體運(yùn)動、表情信息數(shù)據(jù)采集及結(jié)構(gòu)化參數(shù)表達(dá)。手語作為肢體、手勢、表情全面信息載體,手語語料數(shù)據(jù)庫建設(shè)對三維運(yùn)動信息捕捉需求更為明顯。
凌云光多模態(tài)手語語料采集方案,集成高精度人臉人體重建、動作捕捉、面部表情捕捉、手指捕捉等技術(shù),可實(shí)現(xiàn)二維\三維肢體動作、表情、手指等手語語料高效同步采集。在3個(gè)月時(shí)間內(nèi),完成10萬條高質(zhì)量手語語料庫建設(shè)。同時(shí)充分調(diào)研2022北京冬奧專用手語術(shù)語,聯(lián)合北京市殘聯(lián)、聾人協(xié)會等相關(guān)組織機(jī)構(gòu),進(jìn)行數(shù)據(jù)標(biāo)注,建設(shè)手語語義映射關(guān)系,大大完善了國內(nèi)手語數(shù)據(jù)庫的建設(shè),為手語推廣和AI研究留下了寶貴的數(shù)據(jù)資產(chǎn)。
AI手語數(shù)字腦,智能提取關(guān)鍵語義,
自動生成手語語序,準(zhǔn)確率高
手語數(shù)字腦就是用計(jì)算機(jī)模仿聽障人士的大腦,基于“悟道2.0”超大規(guī)模人工智能模型的技術(shù)支撐,將看到的中文文本信息轉(zhuǎn)換成手語詞匯序列,主要包括中文語義蒸餾模型和AI手語分詞快編算法的研究。其中中文語義蒸餾模型用于從輸入的文稿或文本中提取出關(guān)鍵的語義信息,將中文文本語義提煉和精簡,形成精準(zhǔn)匹配適合手語表達(dá)的文本。AI手語分詞快編算法用于將蒸餾得到的中文文本根據(jù)冬奧手語語料庫,劃分成相應(yīng)的手語詞匯序列,供數(shù)字人做表達(dá)的輸入。
跨模態(tài)擬人生成算法,將手語語序列
生成對應(yīng)擬人的動作、手勢、表情,
表達(dá)自然地道,更加易懂。
#FormatImgID_0#
數(shù)字人是冬奧手語播報(bào)的載體和展現(xiàn)形式,通過凌云光高精度寫實(shí)數(shù)字人全流程制作方案,可實(shí)現(xiàn)一鍵數(shù)字建模,高度還原真人發(fā)膚,毛孔級細(xì)節(jié)重現(xiàn),更加真實(shí)親切。通過跨模態(tài)擬人生成算法,可以將手語詞匯序列,生成相應(yīng)的動作信息,驅(qū)動數(shù)字人模型做出相應(yīng)的動作、手勢和表情。此算法能夠兼顧短時(shí)相鄰手勢動作的連貫性和長時(shí)手勢動作的語義完整性和一致性,支持正常語速驅(qū)動,動作表情自然流暢。
科技讓生活更美好。冬奧手語播報(bào)數(shù)字人,讓聽障人士能平等、方便、無障礙的享受冬奧盛會,未來將會在更多場所提供更便捷服務(wù)。凌云光也將持續(xù)攀登科學(xué)高峰,推動產(chǎn)業(yè)創(chuàng)新,服務(wù)回報(bào)社會。