沃德天,Python 竟然还能做实时翻译
欢迎关注我,一块来履行我之前的承诺
,连更一个月之内
,把几篇写完。
序号 | 预计完成时间 | 开发 dome 名字以及功能 & 发布文章内容 | 是否已写完 | 文章链接 | ||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 9 月 3 | 文本翻译,单文本翻译,批量翻译 demo。 | 已完成 | CSDN:点我直达 微信公众号:点我直达 | 2 | 9 月 11 | OCR-demo,完成批量上传识别; 在一个 demo 中可选择不同类型的 OCR 识别《包含手写体 / 印刷体 / 身份证 / 表格 / 整题 / 名片),然后调用平台能力,具体实现步骤等。 | 已完成 | CSDN:点我直达 微信公众号: | 3 | 10 月 27 | 语音识别 demo,demo 中上传—段视频,并截取视频中短语音识别 - demo 的一段音频进行短语音识别 | CSDN:点我直达 微信公众号: | 4 | 9 月 17 | 智能语音评测 - demo | CSDN: 微信公众号: | 5 | 9 月 24 | 作文批改 - demo | CSDN: 微信公众号: | 6 | 9 月 30 | 语音合成 - demo | CSDN: 微信公众号: | 7 | 10 月 15 | 单题拍搜 - demo | CSDN: 微信公众号: | 8 | 10 月 20 | 图片翻译 - demo | CSDN: 微信公众号: |
最近,某水果手机厂在万众期待中开了一场没有发布万众期待的手机产品的发布会,发布了除手机外的其他一些产品,也包括最新的水果 14 系统。几天后,更新了系统的吃瓜群众经过把玩突然发现新系统里一个超有意思的功能——翻译,比如这种:
奇怪的翻译知识增加了!
相比常见的翻译工具,同声翻译工具更具有实用价值,想想不精通其他语言就能和歪果朋友无障碍交流的场景,真是一件美事,不如自己动手实现个工具备用! 一个同声翻译工具,逻辑大概可以是先识别,而后翻译,翻译能否成功,识别的准确率是个关键因素。为了降低难度,我决定分两次完成工具开发。首先来实现试试语音识别的部分。
轻车熟路,本次的 demo 继续调用有道智云 API,实现实时语音识别。
先看看界面和结果哈:
可以选择多种语音,这里只写了四种常见的:
我分别测试的中文、韩文、英文。看着还不错哦~
这里翻译结果,是根据音频一个字、一个字这样实时识别的,由于识别速度比较快,所以看起来木有时间差。
首先,是需要在有道智云的个人页面上创建实例、创建应用、绑定应用和实例,获取调用接口用到的应用的 id 和密钥。具体个人注册的过程和应用创建过程详见文章分享一次批量文件翻译的开发过程
(一)准备工作
下面介绍具体的代码开发过程。
首先是根据实时语音识别文档来分析接口的输入输出。接口设计的目的是对连续音频流的实时识别,转换成文本信息并返对应文字流,因此通信采用 websocket,调用过程分为认证、实时通信两阶段。
在认证阶段,需发送以下参数:
参数 | 类型 | 必填 | 说明 | 示例 | |||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
appKey | String | 是 | 已申请的应用 ID | ID | salt | String | 是 | UUID | UUID | curtime | String | 是 | 时间戳(秒) | TimeStamp | sign | String | 是 | 加密数字签名。 | sha256 | signType | String | 是 | 数字签名类型 | v4 | langType | String | 是 | 语言选择,参考支持语言列表 | zh-CHS | format | String | 是 | 音频格式,支持 wav | wav | channel | String | 是 | 声道,支持 1(单声道) | 1 | version | String | 是 | api 版本 | v1 | rate | String | 是 | 采样率 | 16000 |
签名sign
生成方法如下:
signType=v4;
sign=sha256(应用ID
+salt
+curtime
+应用密钥
)。
认证之后,就进入了实时通信阶段,发送音频流,获取识别结果,最后发送结束标志结束通信,这里需要注意的是,发送的音频最好是 16bit 位深的单声道、16k 采样率的清晰的 wav 音频文件,这里我开发时最开始因为音频录制设备有问题,导致音频效果极差,接口一直返回错误码 304(手动捂脸)。
(二)开发
这个 demo 使用 python3 开发,包括 maindow.py,audioandprocess.py,recobynetease.py 三个文件。界面部分,使用 python 自带的 tkinter 库,来进行语言选择、录音开始、录音停止并识别的操作。audioandprocess.py 实现了录音、音频处理的逻辑,最后通过 recobynetease.py 中的方法来调用实时语音识别 API。
1、界面部分
主要元素:
选择语言类型之后,开始录音,录音结束后,通过 get_result() 方法调用接口进行识别。
2、音频录制部分的开发
音频录制部分引入 pyaudio 库(需通过 pip 安装)来调用音频设备并录制接口要求的 wav 文件,并调用 wave 库存储音频文件。
Audio_model 类的构造:
(2)record() 方法的开发
record() 方法中实现了录音的逻辑,调用 pyaudio 库,读取音频流,写入文件。
(3)stop_and_recognise() 方法的开发
stop_and_recognise() 方法将 Audio_model 的录音状态标记为 false,并启动调用有道智云 API 的方法。
3、实时语音识别部分的开发
有道智云实时语音识别接口使用 socket 通信,为简化展示逻辑,因此在此处发开了展示识别结果的界面,使用 tkinter 显示:
recognise() 方法根据接口文档,将所需参数拼接到 uri,传给 start() 方法请求接口:
start() 方法是实时识别部分的核心方法,通过 websocket 调用识别接口。
在请求接口时,首先读取先前录制的音频文件,并发送:
而后在通信过程中处理接口返回的消息,收集接口返回的识别结果:
最后在通信结束后展示识别结果:
有道智云提供的接口一如既往的好用,这次开发主要的精力全都浪费在了由于我自己录制的音频质量差而识别失败的问题上,音频质量 ok 后,识别结果准确无误,下一步就是拿去翻译了,有了有道智云 API,实现实时翻译也可以如此简单!
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 找不到素材资源介绍文章里的示例图片?
- 模板不会安装或需要功能定制以及二次开发?
发表评论
还没有评论,快来抢沙发吧!