关闭广告

媒体播放器通用框架 FFmpeg 推出 AI 语音识别功能

IT之家2025-08-14 00:00:014096人阅读

IT之家 8 月 13 日消息,FFmpeg 是一个流行的开源媒体播放器通用框架,现在包含了一个新的 af_whisper 音频工具,可以直接在 FFmpeg 生态系统中实现自动语音识别(ASR)。


该工具使用了 whisper.cpp 库,为媒体处理工作流程添加了一个 AI 模型,允许进行灵活的音频转译文本,包括选择 AI 模型、指定语言以及设置输出格式,如文本、SRT 或 JSON

该工具可以处理预录制的文件和实时音频流,用户还可以使用语音激活检测(VAD)来提高转写的准确性和效率。


IT之家注意到,该工具还支持 GPU 加速,可以显著加快转写过程。对于用户来说,这一功能取代了对外部、多步骤转写过程的需求,将任务整合到一个高效的单命令行工作流程中。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

鸿蒙智行将推旗舰SUV,对标劳斯莱斯库里南

车快评 浏览 29 09-14

里程偏差98%时长偏差136% 女子坐网约车被扣费超10倍

新民晚报 浏览 0 10-31

Kimi K2技术报告出炉:训练不靠刷题靠“用自己的话再讲一遍”

量子位 浏览 3655 07-23

泽连斯基宣布:或购买150架"鹰狮"战斗机 已签意向书

环球网资讯 浏览 4 10-26

上海农商银行第二位80后副行长上任,系最年轻高管、内部提拔而来

湘财Plus 浏览 250 07-23

掉出股份行第一梯队的浦发银行 2.95亿存款”失踪”未赔

中国经济网 浏览 4390 07-21

博时基金“换帅”

国际金融报 浏览 7 10-20

韩军:朝鲜对韩广播今日停止

央视新闻客户端 浏览 339 06-13

壮了18岁恩瓦内里训练照肌肉线条明显,与之前变化很大

直播吧 浏览 918 07-23

北约宣布部署“东方哨兵”防御东翼领空

上观新闻 浏览 30 09-13

真人FM!罗马诺:切尔西连卖4人又入手超1亿,接下来西蒙斯加纳乔

直播吧 浏览 7793 08-07

特朗普的亲家激怒法国政府:控告法国纵容"反犹情绪"

环球时报国际 浏览 68 08-26

韩磊发声!否认致人怀孕后失联,将起诉对方诽谤,罪名坐实要判刑

萌神木木 浏览 39 08-29

13.59万元起售,2026款深蓝L07上市

北京商报 浏览 515 08-14

中山大学突破:AI实现精准图像语义搜索

科技行者 浏览 6 10-28

更大力度遏制“内卷式”竞争!专家:修订价格法正当其时

国是直通车 浏览 4810 07-25

妓女身份被揭穿,喝药自杀,褚韶华却助力康二妞实现蜕变新生!

电和影 浏览 35 09-22

记者:佛罗伦萨&费耶诺德均想截胡板仓滉,但球员只想去阿贾克斯

直播吧 浏览 6044 08-07

特斯拉推出“廉价版”Model 3,成最便宜车型!

隔壁说车老王 浏览 16 10-09

让OpenAI只领先5天,百川发布推理新模型,掀翻医疗开源天花板

量子位 浏览 1453 08-12

刚放行中欧班列波兰又来找事 中方接下挑战书强硬反击

文雅笔墨 浏览 34 09-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3