关闭广告

媒体播放器通用框架 FFmpeg 推出 AI 语音识别功能

IT之家2025-08-14 00:00:014143人阅读

IT之家 8 月 13 日消息,FFmpeg 是一个流行的开源媒体播放器通用框架,现在包含了一个新的 af_whisper 音频工具,可以直接在 FFmpeg 生态系统中实现自动语音识别(ASR)。


该工具使用了 whisper.cpp 库,为媒体处理工作流程添加了一个 AI 模型,允许进行灵活的音频转译文本,包括选择 AI 模型、指定语言以及设置输出格式,如文本、SRT 或 JSON

该工具可以处理预录制的文件和实时音频流,用户还可以使用语音激活检测(VAD)来提高转写的准确性和效率。


IT之家注意到,该工具还支持 GPU 加速,可以显著加快转写过程。对于用户来说,这一功能取代了对外部、多步骤转写过程的需求,将任务整合到一个高效的单命令行工作流程中。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

为何美军害怕伊朗布设水雷

澎湃新闻 浏览 42 03-14

32.99万起!猛士M817预售开启,剑指智能越野第一车

光子星球 浏览 666 07-18

裁判评议:石家庄功夫vs南通支云两个争议判罚裁判均判罚正确

懂球帝 浏览 3635 07-24

人形机器人轻量化趋势下PEEK材料受热捧 多家上市公司透露业务新进展

财联社 浏览 7277 08-07

暴跌51%!“医美面膜第一股”,业绩暴雷!

侃见财经 浏览 155 08-25

官方:勇士正式签下塞斯-库里,后者将身披31号球衣

懂球帝 浏览 95 12-02

赛季最惨1败!大连英博0-4河南,4连胜后离谱崩盘:3连败1球不进

我爱英超 浏览 138 08-25

官方:罗马从尤文青年队签下18岁门将泽勒兹尼,合约至2029年

直播吧 浏览 9142 07-24

听劝后改价,理想重回性价比

虎嗅APP 浏览 2705 08-06

卫星互联网低轨 12 组卫星发射成功,长征系列火箭 600 次里程碑

IT之家 浏览 80 10-16

T恤+阔腿裤、衬衫+阔腿裤,今年夏天最火的搭配,谁穿谁时髦!

LinkFashion 浏览 11 04-28

卷首语|这届年轻人,全员渡劫奥德赛

时尚COSMO 浏览 5 05-06

欧洲提交修改版和平计划 涵盖乌克兰安全保障方式

上观新闻 浏览 83 11-24

欧央行按下降息“暂停键”,拉加德称外部风险仍高

上观新闻 浏览 4196 07-25

性取向成谜,51岁何炅终于回应了

银河史记 浏览 8129 07-26

女儿手指被门框划伤 父亲获赔后转手捐出

1818黄金眼 浏览 94 12-19

工业大模型排行榜:北电数智骄阳综合排名第一

网易科技报道 浏览 7345 07-26

菲最高法院:暂停针对副总统莎拉的弹劾程序

环球网资讯 浏览 573 07-26

兼顾普惠定位与商业属性 助力惠民保可持续发展

证券市场周刊 浏览 146 08-22

呷哺的自救

餐饮老板内参 浏览 3587 08-11

算力万倍爆发!AI时代共破十大无线网络挑战,夯牢数智化基石

智东西 浏览 8601 08-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3