#我的宝藏兴趣#1991年5月23日列宁格勒当地时间12时45分,一架隶属于苏联民航列宁格勒航空队的TU-154B-1型客机飞临列宁格勒空域并和列宁格...
2025-08-18 0
如今大多数文本转语音模型都过于庞大。像Whisper一样大,拥有数十亿参数,需要GPU才能断断续续地说出“Hello World”。即使是那些声称是“轻量级”的模型,最终也需要比你的手机更多的芯片。当然,有很棒的声音,但只有在你拥有强大的GPU时才可用。
去年,Kokoro-82M被发布,它受到观众的喜爱不是因为质量,而是因为体积。并不是每个人都有GPU,为了让TTS对所有人可用,它必须在CPU上运行。
现在我们有了一个更小的模型,不仅小,而且是Kokoro的五分之一大小,即Kitten TTS。
现在进入Kitten TTS。它非常小。就像1500万参数那么小。这不仅仅比你见过的任何东西都小,它是目前最小的听起来不错的TTS。总大小不到25MB。不需要GPU。甚至不关心它运行在哪台机器上。你的笔记本电脑、树莓派,甚至可能是一块带USB端口的土豆。
我在Google Colab上测试了这个模型,即使在免费CPU上也能在几秒钟内运行。
但不要因为体积小就低估它。它仍然能提供优质的声音。并且实时快速。你可以构建聊天机器人、屏幕阅读器、游戏旁白,而无需将任务卸载到云端,没有延迟,也不用再用你的血签AWS账单。
主要亮点:
模型权重是开源的,可以从Hugging Face获取。
甚至代码也非常小,可以在Google Colab上直接运行,使用免费的CPU。
!pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl from kittentts import KittenTTS m = KittenTTS("KittenML/kitten-tts-nano-0.1") audio = m.generate("This high quality TTS model works without a GPU") # 保存音频 import soundfile as sf sf.write('output.wav', audio, 24000) from IPython.display import display, Audio display(Audio('/content/output.wav'))
Kitten TTS仍处于开发者预览阶段,因此可能会有一些粗糙的地方。但这个想法是长期期待的。我们需要一个真正适合本地设备的语音模型,而不仅仅是理论上的。这个模型做到了。
而且它会发出咕噜声。安静而高效地在CPU上运行。
原文链接:Kitten-TTS:CPU可运行的TTS - 汇智网
相关文章
#我的宝藏兴趣#1991年5月23日列宁格勒当地时间12时45分,一架隶属于苏联民航列宁格勒航空队的TU-154B-1型客机飞临列宁格勒空域并和列宁格...
2025-08-18 0
「极客头条」—— 技术人员的新闻圈!CSDN 的读者朋友们好,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。(投稿或寻求报道:z...
2025-08-18 0
雷递网 乐天 8月18日易点天下(301171.SZ 今日披露2025年半年度报告。报告期内,公司实现营业收入17.37亿元,同比增长59.95%;归...
2025-08-18 0
IT之家 8 月 18 日消息,博主 @数码闲聊站今日曝光某厂 6.3 英寸小屏机部分规格,预计为荣耀旗下新品。据爆料,这款新机目前定义有点像轻薄小屏...
2025-08-18 0
IT之家 8 月 18 日消息,小米中国区市场部总经理、REDMI 品牌总经理王腾今日晒出了 REDMI Note 15 Pro 手机「云霞紫」配色外...
2025-08-18 0
你是否也曾在“用户画像”中迷失方向,或在“标签体系”中陷入冗杂?本篇文章将带你系统拆解用户细分的底层逻辑,从场景出发、结合数据与行为,帮助你在海量用户...
2025-08-18 0
日前,省科技厅公布2025年第二批省重大创新项目验收结果,我市淅减汽车减振器有限公司的高性能智能电控悬架系统研发及产业化项目、仲景宛西制药股份有限公司...
2025-08-18 0
近日,2025世界人形机器人运动会在北京举行。在酒店清洁项目中,苏州工业园区企业优理奇机器人科技(苏州)有限公司凭借满分表现,强势包揽冠亚军。这是苏州...
2025-08-18 0
发表评论