记者了解到,我国工业机器人产量和装机量连续多年位居全球第一,人形机器人发展领跑全球。当前,业内企业的新技术、新产品正在快速走向海外,不仅扩大了国际影响...
2025-08-17 0
IT之家 8 月 16 日消息,多媒体框架 FFmpeg 开发团队发文,预热 FFmpeg 8.0 版本新增一项名为 Whisper 的音频过滤器,该功能整合了 OpenAI 的 Whisper 语音识别模型,通过内建过滤器机制,可以自动将视频背景音频内容识别转换为文字描述,并输出为字幕或结构化数据。
据介绍,Whisper 过滤器的实现依赖 whisper.cpp 库,用户需要先在系统中安装并启用对应支持库,并在编译时通过“--enable-whisper”选项激活功能。相应过滤器支持纯文本 TXT、SRT、JSON 等输出模式,同时可以通过 HTTP 等协议直接将输出内容传输到其他系统。如果未指定输出位置,转录结果将作为元数据附加在音频帧上,供后续处理或分析使用。
官方强调,该过滤器提供了队列参数,用户可以设置累积多少音频数据再进行识别,默认值约为 3 秒,如果将时间设置更长,识别准确率则更高 / 处理频率更低,适合批处理工作场景;如果将时间设置更短,则可降低过滤器处理延迟,适合对重要音频内容进行具体分析和微调。
此外,Whisper 过滤器也支持 GPU 加速,结合 FFmpeg 本身的多线程处理,在高性能环境下能显著提升转录速度。同时它还支持“Silero 语音活动检测(VAD)”功能,能在长音频流中自动切片语音片段,从而进一步提升识别效率和段落准确度。
相关文章
记者了解到,我国工业机器人产量和装机量连续多年位居全球第一,人形机器人发展领跑全球。当前,业内企业的新技术、新产品正在快速走向海外,不仅扩大了国际影响...
2025-08-17 0
--(2025年8月更新)随着生成式AI的爆发式增长,搜索流量的规则正被彻底改写——GEO(Generative Engine Optimizatio...
2025-08-17 0
潮新闻 记者 沈爱群 侴雪妍AI如何深度赋能产业变革?8月23日,第二届京浙英才百人会即将在杭州启幕,并对这一话题展开深入研讨。第二届京浙英才百人会海...
2025-08-17 0
2025年8月13日,曹妃甸区跨介质科学与系统研究院核心实验台实现重大突破——首次完成自由射流风洞长时间点火验证实验,风洞各系统运行稳定,各项技术指标...
2025-08-17 0
我国地域辽阔,在地质环境复杂多变、地质灾害频发的背景下,中国有色金属工业西安勘察设计研究院有限公司(以下简称“西安勘察设计院”)地质灾害防治专业团队依...
2025-08-17 0
今年4月以来,各大外卖平台掀起了激烈的 “补贴大战”,纷纷推出高额优惠券吸引顾客下单,各平台订单量屡破纪录。半年时间,平台砸下近千亿资金,补贴券满天飞...
2025-08-17 0
能源作为一种重要的战略资源,对于国家来讲意义重大。而在国际上还在为能源枯竭和核安全焦虑时,中国西北的甘肃武威,一座看似不起眼的实验堆正悄然改变游戏规则...
2025-08-17 0
今天给各位分享手机跑得快有挂吗的知识,其中也会对手机上的跑得快可以出千吗进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!熟人手机...
2025-08-17 0
发表评论