AI产品经理入门知识AI应用领域思维导图

思维导图大纲

AI产品经理入门知识AI应用领域思维导图模板大纲

计算机视觉（CV）

计算机视觉是一门研究如何使机器“看”的科学，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉的应用，是使用计算机及相关设备对生物视觉的一种模拟，对采集的图片或视频进行处理从而获得相应场景的三维信息，让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力。

计算机视觉在现实场景中应用价值主要体现在可以利用计算机对图像和视频的识别能力，替代部分人力工作，节省人力成本并提升工作效率。传统的计算机视觉基本遵循图像预处理、提取特征、建模、输出的流程，不过利用深度学习，很多问题可以直接采用端到端，从输入到输出一气呵成。

（1）研究内容

实际应用中采集到的图像的质量通常都没有实验室数据那么理想，光照条件不理想，采集图像模糊等都是实际应用中常见的问题。所以首先需要校正成像过程中，系统引进的光度学和几何学的畸变，抑制和去除成像过程中引进的噪声，这些统称为图像的恢复。

对输入的原始图像进行预处理，这一过程利用了大量的图像处理技术和算法

根据抽取的特征信息把反映三维客体的各个图象基元，如：轮廓、线条、纹理、边缘、边界、物体的各个面等从图象中分离出来，并且建立起各个基元之间的拓朴学上的和几何学上的关系——称之基元的分割和关系的确定。

计算机根据事先存贮在数据库中的预知识模型，识别出各个基元或某些基元组合所代表的客观世界中的某些实体——称之为模型匹配，以及根据图象中各基元之间的关系，在预知识的指导下得出图象所代表的实际景物的含义,得出图象的解释或描述。

（2）应用场景

计算机视觉的应用场景非常广，例如：无人驾驶、无人安防、人脸识别、光学字符识别、物体追踪、车辆车牌识别、以图搜图、医学图像分析等。

最近B站新上线的弹幕防挡脸功能，即在播放视频时弹幕经过人脸则自动隐藏，也是应用了CV，这个小功能对B站核心价值之一的弹幕进行了进一步优化，大大提升了用户体验。

（3）瓶颈

目前在实际应用中采集到的数据还是不够理想，光照条件、物体表面光泽、摄像机和空间位置变化都会影响数据质量，虽然可以利用算法弥补，但是很多情况下信息缺失无法利用算法来解决。

在一幅或多幅平面图像中提取深度信息或表面倾斜信息并不是件容易的事，尤其是在灰度失真、几何失真还有干扰的情况下求取多幅图像之间的对应特征更是一个难点。除了得到物体的三维信息外，在现实世界里，物体间相互遮挡，自身各部位间的遮挡使得图像分拆更加复杂。

预知识设置的不同也使得同样的图像也会产生不同的识别结果，预知识在视觉系统中起着相当重要的作用。

在预知识库中存放着各种实际可能遇到的物体的知识模型，和实际景物中各种物体之间的约束关系。

计算机的作用是根据被分析的图象中的各基元及其关系，利用预知识作为指导，通过匹配、搜索和推理等手段，最终得到对图象的描述。

在整个过程中预知识时刻提供处理的样板和证据，每一步的处理结果随时同预知识进行对比，所以预知识设置会对图像识别结果产生极大影响。

语音交互

语音交互也是非常热门的方向之一，其实语音交互整个流程里包含语音识别、自然语言处理和语音合成。

自然语言处理很多时候是作为单独的一个领域来研究的，本文也将单独介绍自然语言处理，所以此处只介绍语音识别和语音合成。

语音交互的最佳应用场景便是眼睛不方便看，或者手不方便操作的时候。

“不方便看”比较典型的场景便是智能车载，“不方便操作”比较典型的场景便是智能音箱，这也是目前比较火的两个细分方向。

（1）语音识别（ASR）

1）研究内容

语音识别的输入是声音，属于计算机无法直接处理的模拟信号，所以需要将声音转化成计算机能处理的文字信息。传统的识别方式需要通过编码将其转变为数字信号，并提取其中的特征进行处理。

传统方式的声学模型一般采用隐马尔可夫模型（HMM），处理流程是语音输入——编码（特征提取）——解码——输出。

还有一种“端到端”的识别方式，一般采用深度神经网络（DNN），这种方式的声学模型的输入通常可以使用更原始的信号特征（减少了编码阶段的工作），输出也不再必须经过音素等底层元素，可以直接是字母或者汉字。

在计算资源与模型的训练数据充足的情况下，“端到端”方式往往能达到更好的效果。

目前的语音识别技术主要是通过DNN实现的。语音识别的效果一般用“识别率”，即识别文字与标准文字相匹配的字数与标准文字总字数的比例来衡量。目前中文通用语音连续识别的识别率最高可以达到97%。

2）衍生研究内容

麦克风阵列：

在家庭、会议室、户外、商场等各种环境下，语音识别会有噪音、混响、人声干扰、回声等各种问题。

在这种需求背景下可以采用麦克风阵列来解决。

麦克风阵列由一定数目的声学传感器（一般是麦克风）组成，用来对声场的空间特性进行采样并处理的系统，可以实现语音增强、声源定位、去混响、声源信号提取/分离。

麦克风阵列又分为：

2麦克风阵列、4麦克风阵列、6麦克风阵列、6+1麦克风阵列。

随着麦克风数量的增多，拾音的距离，噪声抑制，声源定位的角度，以及价格都会不同，所以要贴合实际应用场景来找到最佳方案。

远场语音识别：

解决远场语音识别需要结合前后端共同完成。

前端使用麦克风阵列硬件，解决噪声、混响、回声等带来的问题，后端则利用近场远场的声学规律不同构建适合远场环境的声学模型，前后端共同解决远场识别的问题。

语音唤醒：

通过关键词唤醒语音设备，通常都是3个音节以上的关键词。例如：嘿Siri、和亚马逊echo的Alexa。

语音唤醒基本是在本地进行的，必须在设备终端运行，不能切入云平台。

因为一个7×24小时监听的设备要保护用户隐私，只能做本地处理，而不能将音频流联网进行云端处理。

语音唤醒对唤醒响应时间、功耗、唤醒效果都有要求。

语音激活检测：

判断外界是否有有效语音，在低信噪比的远场尤为重要。

（2）语音合成（TTS）

1）研究内容

是将文字转化为语音（朗读出来）的过程，目前有两种实现方法，分别是：拼接法和参数法。

拼接法是把事先录制的大量语音切碎成基本单元存储起来，再根据需要选取拼接而成。这种方法输出语音质量较高，但是数据库要求过大。

参数法是通过语音提取参数再转化为波形，从而输出语音。这种方法的数据库要求小，但是声音不可避免会有机械感。

2）瓶颈

个性化TTS数据需求量大，在用户预期比较高的时候难满足。需要AI产品经理选择用户预期不苛刻的场景，或者在设计时管理好用户预期。

自然语言理解

（1）研究内容

自然语言处理是一门让计算机理解、分析以及生成自然语言的学科，是理解和处理文字的过程，相当于人类的大脑。NLP是目前AI发展的核心瓶颈。

NLP大概的研究过程是：研制出可以表示语言能力的模型——提出各种方法来不断提高语言模型的能力——根据语言模型来设计各种应用系统——不断地完善语言模型。自然语言理解和自然语言生成都属于自然语言理解的概念范畴。

自然语言理解（NLU）模块，着重解决的问题是单句的语义理解，对用户的问题在句子级别进行分类，明确意图识别（Intent Classification）；同时在词级别找出用户问题中的关键实体，进行实体槽填充（Slot Filling）。

自然语言生成（NLG）模块是机器与用户交互的最后一公里路，目前自然语言生成大部分使用的方法仍然是基于规则的模板填充，有点像实体槽提取的反向操作，将最终查询的结果嵌入到模板中生成回复。手动生成模板之余，也有用深度学习的生成模型通过数据自主学习生成带有实体槽的模板。

（2）应用场景

自然语言处理作为CUI（Conversational User Interface，对话式交互）中非常重要的一部分，只要是CUI的应用场景都需要自然语言处理发挥作用。除此之外，机器翻译、文本分类也都是自然语言处理的重要应用领域。

（3）瓶颈

1）词语实体边界界定

自然语言是多轮的，一个句子不能孤立的看，要么有上下文，要么有前后轮对话，而正确划分、界定不同词语实体是正确理解语言的基础。

目前的深度学习技术，在建模多轮和上下文的时候，难度远远超过了如语音识别、图像识别的一输入一输出的问题。

所以语音识别或图像识别做的好的企业，不一定能做好自然语言处理。

2）词义消歧

词义消歧包括多义词消歧和指代消歧。多义词是自然语言中非常普遍的现象，指代消歧是指正确理解代词所代表的⼈或事物。

3）个性化识别

自然语言处理要面对个性化问题，自然语言常常会出现模凌两可的句子，而且同样一句话，不同的人使用时可能会有不同的说法和不同的表达。这种个性化、多样化的问题非常难以解决。

AI产品经理入门知识AI应用领域思维导图

思维导图大纲

计算机视觉（CV）

语音交互

自然语言理解

相关思维导图模板

相关思维导图专辑

AI产品经理入门专辑

计算机二级Java语言入门专辑

Kano模型思维导图专辑

交互规范思维导图4专辑

相似思维导图模板

思维导图模板推荐