语音识别技术(Automatic Speech Recognition丨ASR)- AI全书 -- 知识铺 -- 知识铺
访问量 73
发表于 2023-03-16
更新于 2024-03- 20
11~15 分钟 阅读
语音识别是什么?他有什么价值,以及他的技术原理是什么?本文将解答大家对语音识别的常见疑问。
语音识别技术(ASR)是什么?
机器要与人实现对话,那就需要实现三步:
机器要与人对话,需要实现3步
对应的便是“耳”、“脑”、“口”的工作,机器要听懂人类说话,就离不开语音识别技术(ASR)。
语音识别的使用场景
在日常生活中,语音识别技术的应用已经无处不在,以下是一些常见的使用场景:
-
智能助手:例如苹果用户熟悉的Siri,就是语音识别技术的一个典型应用。
-
通讯软件:像微信这样的通讯工具提供了“语音转文字”的功能,极大地方便了用户的交流。
-
智能家居:近年来流行的智能音箱,如亚马逊Echo或小米音箱,都是以语音识别为核心技术的产品。
-
汽车领域:现代新款汽车通常配备有语音控制系统,允许驾驶员通过语音指令来操作车内的各种功能。
语音识别技术讲解
语音识别技术的过程可以被简化为四个主要步骤:“输入——编码——解码——输出”。
语音识别4个流程:输入-编码-解码-输出
那语音识别是怎么工作的呢?
首先声音的本身是一种波,就像我们常常用一段段波形来表示音频一样。
我们常用波段来表示音频
接下来按步骤:
-
给音频进行信号处理后,便要按帧(毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维向量信息
-
将这些帧信息识别成状态(可以理解为中间过程,一种比音素还要小的过程)
-
再将状态组合形成音素(通常3个状态=1个音素)
-
最后将音素组成字词(dà jiā hǎo)并串连成句 。于是,这就可以实现由语音转换成文字了。
语音识别技术概述
搜狗百科介绍
语音识别技术,也被称为自动语音识别(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
维基百科介绍
语音识别是计算语言学的跨学科子领域,其开发方法和技术,使得能够通过计算机识别和翻译口语。它也被称为自动语音识别(ASR),计算机语音识别或语音到文本(STT)。它融合了语言学,计算机科学和电气工程领域的知识和研究。> > 一些语音识别系统需要“训练”(也称为“登记”),其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别,从而提高准确性。不使用训练的系统称为“说话者无关” 系统。使用训练的系统称为“说话者依赖”。
扩展阅读
入门类
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/20241218/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E6%8A%80%E6%9C%AFAutomatic-Speech-Recognition%E4%B8%A8ASR-AI%E5%85%A8%E4%B9%A6--%E7%9F%A5%E8%AF%86%E9%93%BA--%E7%9F%A5%E8%AF%86%E9%93%BA/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com