TreeMind树图在线AI思维导图
当前位置:树图思维导图模板IT互联网互联网干货新媒体语音处理与语音识别技术思维导图

新媒体语音处理与语音识别技术思维导图

  收藏
  分享
会员免费下载30积分
会员免费使用30积分
溪若 浏览量:02022-11-29 02:01:41
已被使用0次
查看详情新媒体语音处理与语音识别技术思维导图

新媒体语音处理与语音识别技术思维导图

树图思维导图提供 新媒体语音处理与语音识别技术 在线思维导图免费制作,点击“编辑”按钮,可对 新媒体语音处理与语音识别技术  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:3caf748ee15fbf70e47e9a6479e399cd

思维导图大纲

新媒体语音处理与语音识别技术思维导图模板大纲

语音

是人类交流和交换信息中最便捷的工具和最重要的媒体

因此,在数字新媒体内容与应用中有着极其重要的位置

语音领域的数字音频处理技术主要包括三方面的内容

即语音合成、语音识别和语音增强。 特别是语音识别技术为人机交互提供了一个更友好的界面

语音合成最基本的目的

让机器模仿人类的语言发音来传送信息

数字语音合成方法主要有波形编码语音合成、参数式分析语音合成和规则语音合成技术

文,语转换系统是语音合成技术的典型应用

语音增强的目的

从带噪声信号中提取尽可能纯净的原始语音

然而,由于干扰通常是随机的,从带噪声语音中提取完全纯净的语音几乎是不可能的

因此,语音增强主要是两方面的目的

一是改进语音质量,消除背景噪声,使听者乐于接收不觉疲劳

二是提高语音可懂度

这两方面目的往往不可兼得

语音增强不但与语音信号数字处理有关,且涉及人的听觉感知和语音学

语音识别技术

集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术

应用需求十分广阔,在近半个多世纪以来一直是人们研究的热点

其研究成果已广泛应用于数字新媒体的各个领域

语音识别

一个模式识别匹配的过程,即从经预处理后的语音波形中提取语音信号特征,特征提取是模式识别的关键

然后与经过训练建立的模式库进行比对(模式匹配)按照相应的准则得出最佳的识别输出

语音识别系统的分类标准很多

若按识别的词汇量多少,可以分为小、中、大词汇量三种,词表越大,识别越困难

按发音人语音识别系统可分为特定人、限定人和非特定人语音识别,非特定人的语音认识最困难

按照语音输入方式,语音识别的研究集中在对孤立词、连接词和连续音的识别

语音识别的目标是让计算机能理解自然语言

这是语音识别中最困难的课题,如听写机、翻译机、智能计算机中人机对话都需要连续语音识别

语音识别最终的目标是要实现大词汇量、非特定人和连续语音的识别

这样的系统才有可能完全听懂并理解人类的自然语言

对说话人的声纹进行识别,称为说话人识别

这是研究如何根据语言来辨别说话人的身份、确定说话人的姓名等

还可以从语音识别系统的实现细节的其他方面对语音识别系统进行分类

比如基于模板匹配的语音识别系统、基于概率统计模型的识别系统、基于人工神经网络的语音识别系统等

也可以根据语音识别系统所完成的任务来分,如语音命令系统、语音听写机系统、关键词确认系统等

MPEG 标准

在音频编码标准领域取得巨大成功的是国际标准组织和国际电工委员会(ISO/ IEC)制定推荐的 MPEG 标准,即 MPEG 1/ 2/ 4 等

MPEG 1 是世界上第一个高保真音频数据压缩标准

是针对最多两声道的音频而开发的,属于感知编码,规定了三个不同层次的编码方案

I,II 层建立在 MUSICAM(掩蔽模式通用子带集成编码和多路复用)编码算法基础之上

III 层复杂度最高,综合了ASPEC(自适应频率感知熵)和 OCF(频域最佳编码)算法,支持网络音乐传输(MP3 文件)

多声道环绕立体声编码技术

随着技术的不断进步,原有的立体声形式已不能满足观众对声音节目的欣赏要求

这使得具有更强定位能力和空间效果的三维音频编码技术得到蓬勃发展

其中最具代表的就是多声道环绕立体声编码技术

在已经存在的多声道音频编码标准中,杜比 AC 3 和 MPEG AAC 是两个最重要、应用最广泛的音频编码标准

AC 3 编码系统

由杜比实验室开发的数字式多声道环绕立体声系统,美国的数字电视标准ATSC 也选取了AC 3 作为音频编码标准

而 MPEG 2 规定了两种音频压缩编码算法,一种称为 MPEG 2 后向兼容多声道音频编码标准(MPEG 2 BC)

另一种称为高级音频编码标准(MPEG 2AAC),与 MPEG 1 不兼容

MPEG 2 AAC 标准是一种新的技术音频表述标准,支持每个声道在 64Kbps码率下相当高音质的多声道应用

它支持 48 个主声道,16 个低频声道,16 个多语言/ 解说词通道和 16 路数据流,也支持 8—96kHz 范围内的取样频率

AAC 增加了诸如对立体声的完美再现、比特率效果音扫描、多媒体控制、降噪平滑等

MP3 所不具备的特性,使得该压缩音频在解压后仍能完美地再现 CD 音质

欧洲的数字电视标准选取了 MPEG 2 AAC 作为音频压缩标准

相关思维导图模板

上游原材料供应思维导图

树图思维导图提供 上游原材料供应 在线思维导图免费制作,点击“编辑”按钮,可对 上游原材料供应  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:a5c11d0188cdadbc523c76fc7611d6a9

初中七年级需要掌握的信息技术基础知识思维导图

树图思维导图提供 初中七年级需要掌握的信息技术基础知识 在线思维导图免费制作,点击“编辑”按钮,可对 初中七年级需要掌握的信息技术基础知识  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:44836e06aaf2236b0c1b008311fc3536