openai的whisper模型进行语音识别使用详解-kb88凯时官网登录

来自：网络

时间：2023-09-07

阅读：

正文

语音识别是人工智能中的一个领域，它允许计算机理解人类语音并将其转换为文本。该技术用于 alexa 和各种聊天机器人应用程序等设备。而我们最常见的就是语音转录，语音转录可以语音转换为文字记录或字幕。

wav2vec2、conformer 和 hubert 等最先进模型的最新发展极大地推动了语音识别领域的发展。这些模型采用无需人工标记数据即可从原始音频中学习的技术，从而使它们能够有效地使用未标记语音的大型数据集。它们还被扩展为使用多达 1,000,000 小时的训练数据，远远超过学术监督数据集中使用的传统 1,000 小时，但是以监督方式跨多个数据集和领域预训练的模型已被发现表现出更好的鲁棒性和对持有数据集的泛化，所以执行语音识别等任务仍然需要微调，这限制了它们的全部潜力。为了解决这个问题openai 开发了 whisper，一种利用弱监督方法的模型。

本文将解释用于训练的数据集的种类以及模型的训练方法，以及如何使用whisper

whisper 模型介绍

使用数据集：

whisper模型是在68万小时标记音频数据的数据集上训练的，其中包括11.7万小时96种不同语言的演讲和12.5万小时从”任意语言“到英语的翻译数据。该模型利用了互联网生成的文本，这些文本是由其他自动语音识别系统(asr)生成而不是人类创建的。该数据集还包括一个在voxlingua107上训练的语言检测器，这是从youtube视频中提取的短语音片段的集合，并根据视频标题和描述的语言进行标记，并带有额外的步骤来去除误报。

模型：

主要采用的结构是编码器-解码器结构。

重采样:16000 hz

特征提取方法:使用25毫秒的窗口和10毫秒的步幅计算80通道的log mel谱图表示。

特征归一化:输入在全局内缩放到-1到1之间，并且在预训练数据集上具有近似为零的平均值。

编码器/解码器:该模型的编码器和解码器采用transformers。

编码器的过程：

编码器首先使用一个包含两个卷积层(滤波器宽度为3)的词干处理输入表示，使用gelu激活函数。

第二个卷积层的步幅为 2。

然后将正弦位置嵌入添加到词干的输出中，然后应用编码器 transformer 块。

transformers使用预激活残差块，编码器的输出使用归一化层进行归一化。

模型框图：

解码的过程：

在解码器中，使用了学习位置嵌入和绑定输入输出标记表示。

编码器和解码器具有相同的宽度和数量的transformers块。

训练

为了改进模型的缩放属性，它在不同的输入大小上进行了训练。

通过 fp16、动态损失缩放，并采用数据并行来训练模型。

使用adamw和梯度范数裁剪，在对前 2048 次更新进行预热后，线性学习率衰减为零。

使用 256 个批大小，并训练模型进行 220次更新，这相当于对数据集进行两到三次前向传递。

由于模型只训练了几个轮次，过拟合不是一个重要问题，并且没有使用数据增强或正则化技术。这反而可以依靠大型数据集内的多样性来促进泛化和鲁棒性。

whisper 在之前使用过的数据集上展示了良好的准确性，并且已经针对其他最先进的模型进行了测试。

优点：

whisper 已经在真实数据以及其他模型上使用的数据以及弱监督下进行了训练。
模型的准确性针对人类听众进行了测试并评估其性能。
它能够检测清音区域并应用 nlp 技术在转录本中正确进行标点符号的输入。
模型是可扩展的，允许从音频信号中提取转录本，而无需将视频分成块或批次，从而降低了漏音的风险。
模型在各种数据集上取得了更高的准确率。

whisper在不同数据集上的对比结果，相比wav2vec取得了目前最低的词错误率

模型没有在timit数据集上进行测试，所以为了检查它的单词错误率，我们将在这里演示如何使用whisper来自行验证timit数据集，也就是说使用whisper来搭建我们自己的语音识别应用。

使用whisper 模型进行语音识别

timit 阅读语音语料库是语音数据的集合，它专门用于声学语音研究以及自动语音识别系统的开发和评估。它包括来自美国英语八种主要方言的 630 位演讲者的录音，每人朗读十个语音丰富的句子。语料库包括时间对齐的拼字、语音和单词转录以及每个语音的 16 位、16khz 语音波形文件。该语料库由麻省理工学院 (mit)、sri international (sri) 和德州仪器 (ti) 共同开发。timit 语料库转录已经过手工验证，并指定了测试和训练子集，以平衡语音和方言覆盖范围。

安装:

!pip install git https://github.com/openai/whisper.git
 !pip install jiwer
 !pip install datasets==1.18.3

第一条命令将安装whisper模型所需的所有依赖项。jiwer是用来下载文字错误率包的datasets是hugface提供的数据集包，可以下载timit数据集。

导入库

importwhisper
 frompytubeimportyoutube
 fromglobimportglob
 importos
 importpandasaspd
 fromtqdm.notebookimporttqdm

加载timit数据集

fromdatasetsimportload_dataset, load_metric
 timit=load_dataset("timit_asr")

计算不同模型尺寸下的word错误率

考虑到过滤英语数据和非英语数据的需求，我们这里选择使用多语言模型，而不是专门为英语设计的模型。

但是timit数据集是纯英文的，所以我们要应用相同的语言检测和识别过程。另外就是timit数据集已经分割好训练和验证集，我们可以直接使用。

要使用whisper，我们就要先了解不同模型的的参数，大小和速度。

加载模型

model=whisper.load_model('tiny')

tiny可以替换为上面提到的模型名称。

定义语言检测器的函数

deflan_detector(audio_file):
   print('reading the audio file')
   audio=whisper.load_audio(audio_file)
   audio=whisper.pad_or_trim(audio)
   mel=whisper.log_mel_spectrogram(audio).to(model.device)
   _, probs=model.detect_language(mel)
   ifmax(probs, key=probs.get) =='en':
     returntrue
   returnfalse

转换语音到文本的函数

defspeech2text(audio_file):
   text=model.transcribe(audio_file)
   returntext["text"]

在不同模型大小下运行上面的函数，timit训练和测试得到的单词错误率如下：

从u2b上转录语音

与其他语音识别模型相比，whisper 不仅能识别语音，还能解读一个人语音中的标点语调，并插入适当的标点符号，我们下面使用u2b的视频进行测试。

这里就需要一个包pytube，它可以轻松的帮助我们下载和提取音频

defyoutube_audio(link):
     youtube_1=youtube(link)
     videos=youtube_1.streams.filter(only_audio=true)
     name=str(link.split('=')[-1])
     out_file=videos[0].download(name)
     link=name.split('=')[-1]
     new_filename=link ".wav"
     print(new_filename)
     os.rename(out_file, new_filename)
     print(name)
     returnnew_filename,link

获得wav文件后，我们就可以应用上面的函数从中提取文本。

总结

还有许多操作可以用whisper完成，你可以根据本文的代码自行尝试。

以上就是openai的whisper模型进行语音识别使用详解的详细内容，更多关于openai whisper语音识别的资料请关注其它相关文章！

目录一、在系统中安装ffmpeg二、配置环境变量三、在python中安装ffmpeg四、配置文件让python能够使用总结近期有个需要进行音频转码的小任务需要用到ffmpeg，安装和使用的过

2023-09-07 21:30:55

目录1、首先在d88尊龙官网手机app官网下载graphviz2、安装。3、配置环境变量4、测试5、再次配置1、首先在d88尊龙官网手机app官网下载graphviz下载网址：https://www.graphviz.org/download/2、安装。打开第一步已

2023-09-07 21:30:28

目录graphviz简介一：安装graphviz二：配置环境变量三：检测graphviz是否配置成功。四：安装graphviz包graphviz简介graphviz是贝尔实验室开发的一个开源的工具包，它使用一个特定的ds

2023-09-07 21:30:05

目录python 安装graphviz 详细教程python安装graphviz画图器1、下载2 、下载好了以后开始安装3、安装成功以后可以检查一下是否安装成功4、安装graphviz包5、测试python 安

2023-09-07 21:29:44

正文做python项目时,想安装某个依赖包的最新版本,但又不知道它的版本号具体到多少,因此需要搜索查看它的相关简介信息.原来的时候,可以直接通过pip搜索查看: pip search xxx

2023-09-07 21:29:22

目录正文通过字典间接实现 switch在case中使用元组正文在python 3.10发布之前，python是没有类似于其他语言中switch语句的，要实现类似的功能最简单的方法就是通过if ... elif

2023-09-07 21:29:10

目录错误描述kb88凯时官网登录的解决方案总结错误描述本地anaconda使用pip install jupyterlab后使用jupyter-lab打开窗口创建terminal出现错误launcher error、unhandled error、dismiss解决

2023-09-07 21:28:55

目录正文whisper 模型介绍使用whisper 模型进行语音识别总结正文语音识别是人工智能中的一个领域，它允许计算机理解人类语音并将其转换为文本。该技术用于 alexa 和各种聊天

2023-09-07 21:28:38

日期和时间值的操作是编程的一个重要方面，python 语言为此提供了一个有用的内置模块，称为 datetime。但是，在某些情况下，可能需要将 datetime 对象转换为整数值，以便执行特定的操

2023-09-06 17:18:23

在数学中，伽玛函数被认为是任何给定数字的阶乘的扩展。然而，由于阶乘仅针对实数定义，因此伽马函数超出了对除负整数之外的所有复数定义阶乘的范围。它由 -表示γ(x) = (x-

2023-09-04 22:25:04

python 是一种出色的编程语言，广泛用于各种数据操作任务。处理文件和文件夹时，生成目录中所有文件、文件夹和子文件夹的列表可能很有用。另一方面，excel 是一种流行的电子表格

2023-09-04 22:24:45

使用的方法使用any()函数使用按位 & 运算符使用 counter()、filter() 和 lambda 函数示例假设我们已经采用了输入集和输入列表。我们现在将使用上述方法检查输入列表

2023-09-04 22:24:04

在python中，我们有一些内置的字符串函数，比如rstrip()、replace()和endswith()，可以用来从给定的字符串中删除后缀。删除后缀是通过删除字符串末尾的一组字符来实现的。有时我

2023-08-30 11:10:46

python 中的 numpy 数组顾名思义，numpy 数组是 numpy 库的中心数据结构。该库的名称是“numeric python”或“numerical python”的缩写。换句话说，numpy

2023-08-30 11:10:23

在数学中，我们看到了需要将数字乘以一定幂的问题。我们将通过一个例子来理解这个问题。想象一下，我们有一个数字列表，我们想要将相同的元素与其自身相乘一定次数。这就是&ldquo

2023-08-30 11:10:01

查明所请求的页面是否在服务器上对于 web 开发和数据检索领域至关重要。由于其灵活的特性，python 提供了多种方法来检查服务器上是否存在特定页面。开发人员可以使用强大的 p

2023-08-30 11:09:42

在使用python处理字符串时，经常需要验证一个字符串是否只包含数字和字母，或者是否包含其他特殊字符。字符串验证在各种场景中都非常重要，比如输入验证、数据处理和过滤。在本文

2023-08-30 11:08:57

python是一种流行的编程语言，广泛用于各种应用，包括web开发、数据科学和机器学习。它的简洁性、灵活性和易用性使其成为开发者的优秀选择。使python脱颖而出的一个特性是order

2023-08-30 11:08:38

时间序列数据是在固定时间间隔内收集的观测序列。这些数据可以来自于任何领域，如金融、经济、健康和环境科学。我们收集的时间序列数据有时可能具有不同的频率或分辨率，这可能

2023-08-30 11:08:02

在数据集中，两个变量对之间的相关性的强度和方向通过相关性热图进行图形化展示，该图展示了相关矩阵。这是一种在大规模数据集中寻找模式和连接的有效技术。python数据可视化工

2023-08-30 11:07:43

we can get the nth word in a given string in python using string splitting, regular expressions, split() method, etc. manipulating strings is a common task in p

2023-08-30 11:07:23

在 python 中，我们有一个内置函数 int()、timedelta() 和 divmod()，可用于获取整数形式的数字，并且对于将毫秒转换为分钟和秒非常有用。毫秒是由短的持续时间定义的。毫秒等于

2023-08-30 11:06:57

email = input("请输入您的电子邮件地址：")密码 = input("请输入您的密码：")如果电子邮件==“superpython@gmail.com”并且密码==“1234”：---print("欢迎

2023-08-30 11:06:27

常量和变量用于在编程中存储数据值。变量通常指的是可以随时间变化的值。而常量是一种变量类型，其值在程序执行期间不能被改变。在python中只有六个内置常量可用，它们是false

2023-08-30 11:06:08

unix 是一种操作系统，由 ken thompson 和 dennis ritchie 于 1969 年左右在 at&t 贝尔实验室开发。我们可以使用许多有趣的 unix 命令来执行不同的任务。问题是，我们可以

2023-08-30 11:02:44

将字符串分割成较小的部分是许多文本处理和数据分析场景中的常见任务。在本博客文章中，我们将探讨如何编写一个python程序，将给定的字符串分割成大小为k的重叠字符串。当处理

2023-08-27 19:55:30

将给定数组的元素合并的过程被称为合并。这个操作可以使用许多技术以许多方式来完成。让我们讨论所有在python中帮助合并给定数组的技术。在进入这些技术之前，让我们通过一个

2023-08-19 01:18:41

如何使用python对图片进行二维码生成二维码是一种可以用来存储信息的图像代码，它在现代社会中被广泛使用。在python中，我们可以使用第三方库来生成和操作二维码。本文将介绍如

2023-08-19 01:18:25

介绍python 可以是一种灵活的编程语言，广泛用于其简单性和可读性。其中一个显著的应用是高效地解决与矩阵相关的问题。当涉及到在矩阵中找到两列之间的最小差异时，python 提

2023-08-19 01:18:03

python报错：attributeerror: 'module' object has no attribute 'xxx'，该如何解决？在使用python编程过程中，我们可能会遇到各种各样的错误。其中一个常见的错误

2023-08-19 01:17:42

2020-10-21

2021-03-02

2020-05-07

2020-05-26

2021-01-13

2021-04-02

2020-05-09

2020-05-10

2020-10-21

openai的whisper模型进行语音识别使用详解-kb88凯时官网登录

目录

正文

whisper 模型介绍

使用whisper 模型进行语音识别

总结

mac上python使用ffmpeg完美kb88凯时官网登录的解决方案(避坑必看!)

graphviz 最新安装教程适用初学者

在anaconda中配置graphviz包的详细过程

python安装graphviz 超详细图文教程

python查找指定依赖包简介信息实现

python3.10新特性之match语句示例详解

jupyter lab无法打开终端窗口的解决方法

openai的whisper模型进行语音识别使用详解

如何在python中将datetime转换为整数？

python程序计算给定数字的对数gamma

如何使用python在excel中创建文件、文件夹和子文件夹的列表？

python程序用于测试列表中是否存在任何集合元素

python程序从给定字符串中删除后缀

如何在python中从numpy数组中选择元素？

使用python在列表中找到i^k的乘积

使用python测试给定的页面是否在服务器上找到

python程序用于测试字符串是否只包含数字和字母

如何将嵌套的ordereddict转换为python中的dict？

如何在python中对时间序列数据进行重采样

如何在python中创建seaborn相关热图？

如何使用python获取给定字符串中的第n个单词？

python程序将毫秒转换为分钟和秒钟

python中的条件语句：if else语句

如何在python中创建一个常量？

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道