国科网

2025-06-09 13:07:34  星期一
立足国科融媒,服务先进科技
使用OpenAI的Whisper模型将语音转换成文本

点赞

0
发布时间:2023年11月09日 浏览量:345次 所属栏目:人工智能 发布者:田佳恬

译者 | 布加迪

审校 | 重楼

图1. OpenAI Whisper模型的工作原理图图1. OpenAI Whisper模型的工作原理图

这个日益数字化的世界,将语音转换文本的需求变得越来越重要。无论为了可访问性、内容创建、数据分析还是其他用途,将口语转换书面语都是一个需要有效解决方案的问题。OpenAI开发的人工智能模型Whisper就能做到这一点将口语转化易于理解的文本。

文将逐步介绍Whisper是什么、它是如何工作的以及如何有效使用它。目前WhisperAIModels.fyi排名第19,这款功能强大的工具可以在各种应用中发挥巨大作用。本文还将探讨如何使用AIModels.fyi找到适合您独特需求的类似模型

Whisper模型简介

OpenAI开发的AI模型Whisper旨在将音频文件中的语音转换为文本。应用非常广泛,从生成视频字幕到转录采访或会议文字,不一而足Whisper的运行次数超过了200次,在同类产品中脱颖而出,是一种可靠且受欢迎的模型

该模型接受音频输入并将其转录成书面文字,有效地弥合了口语和书面语之间的差距。此外,它支持大量语言,因而成为适合多语言项目的出色工具。关于该模型的更多详细信息可以在详情页面上找到

Whisper模型的输入和输出

在深入研究Whisper模型的使用之前,了解模型的输入和输出很重要

输入

Whisper的主要输入是一个音频文件,它对其进行处理并转录成文本。额外的输入参数允许您定制模型的操作方式

  • model string:允许您从不同版本的Whisper模型中选择。
  • transcription string:允许您选择转录的格式,有纯文本srtvtt选项。
  • translate boolean使您能够将文本翻译成英语。
  • language string:允许您指定音频中所说的语言。
  • temperature number:该参数控制模型输出的创造性
  • suppress_tokens string您不希望模型输出的token id列表。

输出

模型输出含有已转录文本的对象,带有几个字段

  • segments:转内容分成几个片段。
  • srt_file & txt_file转录结果可以以这些格式获得。
  • translation如果启用了翻译选项,这里提供翻译后的文本。
  • transcription:这是最终的转录文本。
  • detected_language模型检测到的语言。

我们了解了模型的输入和输出,不妨看看如何使用它来解决我们的转录问题

使用Whisper模型将语音转录文本

无论是喜欢动手操作的程序员,还是偏爱交互性较强的演示方法,使用Whisper模型都简单直接。

第1身份验证

首先,需要安装Replicate Node.js客户软件,并使用API令牌进行身份验证。这允许您以编程方式与Whisper模型进行交互。

npm install replicate

 export REPLICATE_API_TOKEN=your_api_token_here

分享说明:转发分享请注明出处。

    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司