PengChengStarling

类型:开发者工具
PengChengStarling
评分:9.0分 更新时间:2025-02-27
9.0
简介

PengChengStarling是鹏城实验室开源的一款多语言语音识别系统,支持实时语音识别,边说边识别,只要应用在国际会议录音转文字、多语言视频自动生成字幕、跨语言客服系统场景中使用。

PengChengStarling基于 icefall 项目开发,模型大小仅为 Whisper-Large v3 的 20%,但推理速度却快 7 倍。它支持中文、英语、俄语、越南语、日语、泰语、印尼语和阿拉伯语等 8 种语言,能够在统一框架内处理多种语言的语音输入,大大地提高了语音识别的效率性。

PengChengStarling功能:

模型大小与性能:PengChengStarling 的模型大小仅为 Whisper-Large v3 的 20%,在存储和计算资源上更加高效。

推理速度:PengChengStarling系统的推理速度比 Whisper-Large v3 快 7 倍,能够在更短的时间内处理语音输入,适合实时应用场景。

多语言支持:PengChengStarling 支持多达 8 种语言,包括中文、英语、俄语、越南语、日语、泰语、印尼语和阿拉伯语,能够满足不同用户的需求。

模型架构:采用RNN-T架构,由Encoder、Decoder和Joiner三个模块组成,语音编码器采用Zipformer。

性能提升:相比Whisper-Large v3,PengChengStarling在6个语种上取得了相当或更好的性能,实时因子(RTF)达到0.016,推理速度提升近7倍。

PengChengStarling.webp

PengChengStarling应用场景:

智能助手:可以集成到智能助手中,实现语音命令的识别和响应。

客户服务:在客户服务中心,利用语音识别技术提高客户咨询的响应速度和准确性。

教育领域:在语言学习和教育应用中,帮助学生进行发音练习和语言交流。

会议记录:在会议中实时转录发言内容,提升会议效率。

多语言翻译:结合翻译系统,实现实时的多语言交流。

PengChengStarling在性能评估中表现出色,特别是在与 Whisper-Large v3 的比较中,PengChengStarling 在六种语言的流式语音识别性能上达到了可比或更优的效果。此外,系统的每种语言训练数据量约为 2000 小时,主要来源于开放数据集,这就为它的多语言支持提供了一个非常坚实的基础。

在实际应用中,PengChengStarling 还可以用于语音识别的自适应技术,根据用户的语音特征进行个性化调整来提高识别准确率。特别在噪声较大的环境中。

Github:https://github.com/yangb05/PengChengStarling

HuggingFace:https://huggingface.co/stdo/PengChengStarling

相关推荐 +
相关攻略 +
  • 学会年会报告分享 | 刘小丁院长:人工智能的探索与应用

    今天,为大家分享广东省国土资源测绘院党委书记、院长刘小丁在2024中国测绘地理信息科学技术年会中分论坛主题为:“遥感大模型与智能遥感应用”中所作报告《人工智能的探索与应用》。 嘉宾简介 广东省国土资源测绘

    AI教程资讯 02-06

  • 字节,悄咪咪做了个 Liblib

    三个月前,「LiblibAI 哩布哩布 AI」,一个 AI 模型社区型产品,在一年内完成了三轮共计数亿元的融资。据悉,在短短一年时间里,Liblib 突飞猛进,艳压群芳。在国内做 AI 生图的创作者,几乎没有没听过 Liblib 的

    AI教程资讯 02-11

  • 内容版权与人工智能再起冲突,默多克公司起诉AI搜索新锐Perplexity

    10月21日,媒体大亨鲁珀特·默多克(Rupert Murdoch)旗下新闻集团的子公司道琼斯(Dow Jones)和《纽约邮报》(New York Post)对人工智能初创公司Perplexity提起诉讼,称其“大量非法复制”它们的版权作品。 快速

    AI教程资讯 02-20

近期热点 +
人气推荐 +
最新攻略 +