语音识别技术（Automatic Speech Recognition丨ASR）- AI全书 -- 知识铺 -- 知识铺

访问量 73

发表于 2023-03-16

更新于 2024-03- 20

11~15 分钟 阅读

语音识别是什么？他有什么价值，以及他的技术原理是什么？本文将解答大家对语音识别的常见疑问。

语音识别技术（ASR）是什么？

机器要与人实现对话，那就需要实现三步：

机器要与人对话，需要实现3步

对应的便是“耳”、“脑”、“口”的工作，机器要听懂人类说话，就离不开语音识别技术（ASR）。

语音识别的使用场景

在日常生活中，语音识别技术的应用已经无处不在，以下是一些常见的使用场景：

智能助手：例如苹果用户熟悉的Siri，就是语音识别技术的一个典型应用。
通讯软件：像微信这样的通讯工具提供了“语音转文字”的功能，极大地方便了用户的交流。
智能家居：近年来流行的智能音箱，如亚马逊Echo或小米音箱，都是以语音识别为核心技术的产品。
汽车领域：现代新款汽车通常配备有语音控制系统，允许驾驶员通过语音指令来操作车内的各种功能。

语音识别技术讲解

语音识别技术的过程可以被简化为四个主要步骤：“输入——编码——解码——输出”。

语音识别4个流程：输入-编码-解码-输出

那语音识别是怎么工作的呢？

首先声音的本身是一种波，就像我们常常用一段段波形来表示音频一样。

我们常用波段来表示音频

接下来按步骤：

给音频进行信号处理后，便要按帧（毫秒级）拆分，并对拆分出的小段波形按照人耳特征变成多维向量信息
将这些帧信息识别成状态（可以理解为中间过程，一种比音素还要小的过程）
再将状态组合形成音素（通常3个状态=1个音素）
最后将音素组成字词（dà jiā hǎo）并串连成句。于是，这就可以实现由语音转换成文字了。

语音识别技术概述

搜狗百科介绍

语音识别技术，也被称为自动语音识别（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

维基百科介绍

语音识别是计算语言学的跨学科子领域，其开发方法和技术，使得能够通过计算机识别和翻译口语。它也被称为自动语音识别（ASR），计算机语音识别或语音到文本（STT）。它融合了语言学，计算机科学和电气工程领域的知识和研究。> > 一些语音识别系统需要“训练”（也称为“登记”），其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别，从而提高准确性。不使用训练的系统称为“说话者无关” 系统。使用训练的系统称为“说话者依赖”。

扩展阅读

入门类

文章目录

语音识别技术（Automatic Speech Recognition丨ASR）- AI全书 -- 知识铺 -- 知识铺

语音识别技术（ASR）是什么？

语音识别的使用场景

语音识别技术讲解

语音识别技术概述

搜狗百科介绍

维基百科介绍

扩展阅读

See Also

最近文章

福利派送

分类

标签

友情链接

其它