一、語音識(shí)別系統(tǒng)具備以下特點(diǎn):
1.產(chǎn)品所用的核心語音識(shí)別引擎,其普通話轉(zhuǎn)寫指標(biāo):安靜環(huán)境下的標(biāo)準(zhǔn)普通話轉(zhuǎn)寫正確率≥95%;支持普通話、英語、閩南語、粵語、陽江話、淮安話、維語、藏語等地方語言智能識(shí)別;
2.系統(tǒng)響應(yīng)指標(biāo):常規(guī)頁面操作的響應(yīng)時(shí)間≤5秒;
3.轉(zhuǎn)寫效率指標(biāo):實(shí)時(shí)語音轉(zhuǎn)寫效率≤500毫秒;
4.與會(huì)議系統(tǒng)無縫融合、只需對(duì)接適配即可使用改造簡(jiǎn)單,實(shí)施容易。
5.離線識(shí)別:支持對(duì)錄音文件的離線識(shí)別;
6.時(shí)間索引:轉(zhuǎn)寫結(jié)果支持時(shí)間索引功能;
7.專業(yè)語音識(shí)別模型:支持定制專用領(lǐng)域語音識(shí)別模型功能;
8.關(guān)鍵詞優(yōu)化工具:能提供關(guān)鍵詞優(yōu)化工具,快速實(shí)現(xiàn)特定關(guān)鍵詞的語言模型優(yōu)化;
9.協(xié)議支持:支持Webservice、HTTP、socket等多種協(xié)議;
10.平臺(tái)具有廣泛的軟硬件兼容性,提供標(biāo)準(zhǔn)開放的API和支持Windows、Linux多種平臺(tái)的SDK擴(kuò)展,易于用戶集成;
11.支持自定義熱詞識(shí)別人名、公司機(jī)構(gòu)名,專有名詞識(shí)別準(zhǔn)確率達(dá)到90%;針對(duì)會(huì)議及文檔預(yù)學(xué)習(xí)機(jī)制,可以更好地應(yīng)對(duì)各領(lǐng)域識(shí)別,準(zhǔn)確率相對(duì)提升50%。針對(duì)不同類型事件、不同地域口音通過機(jī)器學(xué)習(xí)海量的會(huì)議記錄等語料的,構(gòu)成專業(yè)會(huì)議領(lǐng)域定制化引擎,實(shí)現(xiàn)智能錄播過程中會(huì)議過程的有效識(shí)別。
12.支持會(huì)議角色的自動(dòng)標(biāo)注,采用定制硬件加軟件一體方案,徹底解決多說話人分離難題,實(shí)現(xiàn)會(huì)議記錄文本與說話人身份相綁定。我們利用業(yè)界領(lǐng)先的語音激勵(lì)技術(shù),仍可以對(duì)各個(gè)參會(huì)的人物角色進(jìn)行正確區(qū)分實(shí)現(xiàn)對(duì)錄播過程的百分百還原。
13.支持語音輸入法,在任意光標(biāo)可以輸入文本位置可以啟動(dòng)語音輸入法通過語音轉(zhuǎn)寫代替鍵盤輸入。
二、系統(tǒng)配套的筆錄軟件具有以下特點(diǎn):
14、可進(jìn)行會(huì)議紀(jì)要筆錄錄入,支持自定義模板,支持快速問答??梢砸绘I上傳到光盤中刻錄,支持快速打印,軟件嵌入WPS軟件中,符合操作習(xí)慣。
15、具有重點(diǎn)標(biāo)記功能,軟件支持記錄和錄像同屏顯示,方便用戶進(jìn)行校對(duì)。
16、支持設(shè)備控制和設(shè)備狀態(tài)查看,并實(shí)現(xiàn)常用操作。
17、支持排期,根據(jù)相關(guān)信息,可以便捷搜索。
18、筆錄模塊支持導(dǎo)入筆錄模板,一鍵打印,一鍵掃描等功能。
19、筆錄模版可以插入書簽,自動(dòng)插入會(huì)議信息。
20、便捷查看本地文件回放本地視頻記錄文件。
21、筆錄界面具有浮動(dòng)菜單,用于顯示會(huì)議信息、現(xiàn)場(chǎng)畫面、設(shè)備信息和控制設(shè)備,該界面可自動(dòng)吸附隱藏到屏幕邊緣;
22、支持筆錄校對(duì)功能,校對(duì)過程中可回放菜單可以查看會(huì)議信息、回放會(huì)議錄像、查看重點(diǎn)標(biāo)記。校對(duì)完的筆錄可自動(dòng)歸檔,歸檔的文件不可被修改。
三、系統(tǒng)優(yōu)勢(shì)
擁有自主核心技術(shù)、豐富的產(chǎn)品設(shè)計(jì)、生產(chǎn)經(jīng)驗(yàn)和可持續(xù)研發(fā)能力,可為客戶提供研發(fā)、生產(chǎn)、銷售、服務(wù)為一體的綜合解決方案。
音頻方面,使用了先進(jìn)的音頻處理芯片,具有強(qiáng)大的數(shù)字音頻處理能力。并且可以使用軟件通過以太網(wǎng)對(duì)其處理功能進(jìn)行設(shè)置,提供了一種簡(jiǎn)單、靈活的控制方式。48K采樣率能有效還原真實(shí)音質(zhì),聲音效果更加真實(shí),清晰。
視頻方面,視頻編碼支持H264/H265壓縮標(biāo)準(zhǔn),支持720P、1080P超清視頻圖像傳輸,500W及以下的分辨率,2-6路高清視頻輸出。信號(hào)穩(wěn)定,實(shí)時(shí)同步。
支持雙光盤和硬盤同步直刻,對(duì)現(xiàn)場(chǎng)的音視頻信息進(jìn)行獨(dú)立備份,同時(shí)可采用網(wǎng)絡(luò)和外置的USB硬盤備份。當(dāng)出現(xiàn)意外斷電或故障時(shí),錄像的內(nèi)容不會(huì)丟失,保護(hù)數(shù)據(jù)信息安全存儲(chǔ)。
設(shè)備采用H.323、ONVIF、RTSP、RTMP等標(biāo)準(zhǔn)接口協(xié)議,可實(shí)現(xiàn)設(shè)備與第三方平臺(tái)或上下級(jí)平臺(tái)無縫對(duì)接。
多畫面同屏編輯視窗的數(shù)字設(shè)定,根據(jù)采用攝像機(jī)的數(shù)量,對(duì)合成畫面進(jìn)行畫中畫、三畫面、四畫面、五畫面、六畫面、七畫面、八畫面任意編輯組合。
此外,本系統(tǒng)可根據(jù)客戶的業(yè)務(wù)需求靈活擴(kuò)展語音合成、證照識(shí)別、文檔識(shí)別人臉識(shí)別、聲紋識(shí)別、手寫識(shí)別等功能模塊,完成語音轉(zhuǎn)寫、身份認(rèn)證、卷宗個(gè)人錄入等功能。
系統(tǒng)能夠?qū)⑴c會(huì)人員的陳述內(nèi)容自動(dòng)實(shí)時(shí)識(shí)別成文字,讓記錄人員的錄入效率從以往最高每分鐘輸入120~150個(gè)字提升到當(dāng)前每分鐘輸入250~350個(gè)字,平均大約能夠縮短1倍的記錄時(shí)長(zhǎng),大大減輕了記錄人員的工作壓力。
近年來,口音問題在語音識(shí)別領(lǐng)域受到越來越多的關(guān)注。我們把地域性的帶口音的普通話稱之為方言普通話。受母方言的影響,一般人的普通話或多或少都帶有一定的地域特征。我國(guó)有八大方言區(qū),再細(xì)分小的方言達(dá)上千種。
我們通過針對(duì)不同地區(qū)、不同的定制化語音識(shí)別模型和自定義關(guān)鍵詞識(shí)別優(yōu)化工具,可以有效提升對(duì)每個(gè)語音識(shí)別準(zhǔn)確率,為提升工作效率提供強(qiáng)有力的技術(shù)支撐。
語音聲學(xué)特征提取的目的是使模式分類器能更好地劃分。猶豫語音信號(hào)的時(shí)變特性,特征提取必須在一小段語音信號(hào)上進(jìn)行,也即進(jìn)行短時(shí)分析。
聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。必須根據(jù)不同魚眼的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。
語言模型對(duì)中、大詞匯量的語音識(shí)別系統(tǒng)特別重要。當(dāng)聲學(xué)特征分類發(fā)生錯(cuò)誤時(shí),可以根據(jù)語言模型、語法結(jié)構(gòu)、語義進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。
語音識(shí)別過程實(shí)際上是一個(gè)認(rèn)識(shí)過程、就像人們聽語音時(shí),并不把語音和語音的語法結(jié)構(gòu)、語義結(jié)構(gòu)分開來,因?yàn)楫?dāng)語音發(fā)言模糊時(shí)人們可以用這些知識(shí)來指導(dǎo)對(duì)語言的理解過程。但是對(duì)機(jī)器來說,識(shí)別系統(tǒng)也要利用這些方面的知識(shí)。
聯(lián)系人:薛經(jīng)理
手機(jī):13995590095
郵箱:1181638435@qq.com
公司地址:湖北省武漢市洪山區(qū)文化大道555號(hào)融創(chuàng)智谷B2棟1106