??作者主頁:IT技術(shù)分享社區(qū)
創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設(shè),邳州企業(yè)網(wǎng)站建設(shè),邳州品牌網(wǎng)站建設(shè),網(wǎng)站定制,邳州網(wǎng)站建設(shè)報價,網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,邳州網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。??作者簡介:大家好,我是IT技術(shù)分享社區(qū)的博主,從事C#、Java開發(fā)九年,對數(shù)據(jù)庫、C#、Java、前端、運維、電腦技巧等經(jīng)驗豐富。
??個人榮譽:?數(shù)據(jù)庫領(lǐng)域優(yōu)質(zhì)創(chuàng)作者🏆,華為云享專家🏆,阿里云專家博主🏆?
??個人博客:IT技術(shù)分享社區(qū)
??公眾號/小程序:IT技術(shù)分享社區(qū) (運營五年)
??好文章點贊 👍 收藏 ?再看,養(yǎng)成習(xí)慣
目錄
1、什么是語音
2、什么是語音識別
3、語音識別的原理
4、語音識別系統(tǒng)的組成
4.1 預(yù)處理
4.2 特征提取
4.3 聲學(xué)模型訓(xùn)練
4.4 語言模型訓(xùn)練
4.5 語音解碼器
今天給大家介紹一下關(guān)于語音識別相關(guān)的知識,希望對大家有所幫助!
1、什么是語音語音指的是人類通過發(fā)聲器官發(fā)出來具有一定意義、用來溝通交流的聲音。
計算機中語音存儲:以波形文件的方式存儲,通過波形反映語音的變化,從而可以獲取音強、音長等參數(shù)信息。
音域參數(shù):傅利葉譜、梅爾頻率到譜系數(shù),主要用來提取語音內(nèi)容以及音色的差別,用來更進一步辨別語音信息。
2、什么是語音識別語音識別簡單來說就是把語音內(nèi)容自動轉(zhuǎn)換為文字的過程,是人與機器交互的一種技術(shù)。
涉及領(lǐng)域:聲學(xué)、人工智能、數(shù)字信號處理、心理學(xué)等方面。
語音識別的輸入:對一段聲音文件進行播放的序列。
語音識別的輸出:輸出的結(jié)果是一段文本序列。
3、語音識別的原理語音識別需要經(jīng)過特征提取、聲學(xué)模型、語音模型、語音解碼和搜索算法四個部分。
特征提?。喊岩治龅男盘枏淖钤夹盘柼崛〕鰜恚@個階段主要是對語音的幅度標(biāo)準(zhǔn)化、頻響校正、分幀、加窗、始末端點檢測等預(yù)處理操作,為聲學(xué)模型提供需要特征向量。
聲學(xué)模型:依靠聲學(xué)模型進行語音參數(shù)分析(語音共振峰頻率、幅度等)和對語音的線性預(yù)測參數(shù)進行分析。
語言模型:根據(jù)相關(guān)語言學(xué)理論,計算出聲音片段可能詞組序列的概率。
語音解碼和搜索算法:根據(jù)聲學(xué)模型+發(fā)音詞典+語音模型構(gòu)建的搜索空間,找到最合適的路徑。解碼完成后最終輸出文本。
4、語音識別系統(tǒng)的組成一個完整的語音識別系統(tǒng)包括:預(yù)處理、特征提取、聲學(xué)模型訓(xùn)練、語言模型訓(xùn)練、語音解碼器。
4.1 預(yù)處理對輸入的原始聲音信號進行處理,過濾掉其中的背景噪音、非重要信息,還要對找到語音信號的開始和結(jié)束、語音分幀、提升高頻部分的信號等操作。
4.2 特征提取最常用的特征提取方法為梅爾頓到譜系數(shù)(MFCC),因為它擁有良好的抗噪性和健壯性。
4.3 聲學(xué)模型訓(xùn)練根據(jù)懸戀語音庫的特征參數(shù)訓(xùn)練出聲學(xué)模型參數(shù),從而可以在識別時與聲學(xué)模型進行匹配得到相應(yīng)結(jié)果。目前主流語音識別系統(tǒng)一般都會采用HMM進行聲學(xué)模型建模。
4.4 語言模型訓(xùn)練用來預(yù)測哪個詞序列正確的可能性更大。
4.5 語音解碼器解碼器也就是語音識別技術(shù)中的識別過程,根據(jù)輸入的語音信號,然后和訓(xùn)練好的HMM聲學(xué)模型、語言模型、發(fā)音字典建立一個搜索空間,根據(jù)搜索算法找到最合適的路徑。從而找到最合適的詞串。
5、語音識別的使用場景
語音識別在日常生活中使用非常廣泛主要分為封閉式和開放式應(yīng)用。
封閉式應(yīng)用:主要指針對特定控制指令的應(yīng)用。
比如常見的有智能家居比如通過語音指令控制燈開關(guān)、熱水器開關(guān)溫度調(diào)節(jié)、打開空調(diào)等,大大豐富了我們?nèi)粘5纳睿?/p>
開放式應(yīng)用:開放式主要是廠商提供語音識別服務(wù),一般會公有云或者私有云的方式部署提供對應(yīng)的SDK,讓使用服務(wù)的客戶進行語音識別服務(wù)的調(diào)用。
常見的場景有輸入法、會議字幕實時輸出、視頻剪輯字幕配置等場景。
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧
網(wǎng)站題目:人工智能:語音識別技術(shù)介紹-創(chuàng)新互聯(lián)
鏈接分享:http://chinadenli.net/article32/cejhpc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供響應(yīng)式網(wǎng)站、網(wǎng)頁設(shè)計公司、網(wǎng)站維護、營銷型網(wǎng)站建設(shè)、建站公司、移動網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容