首页 游戏天地文章正文

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

游戏天地 2025年03月02日 06:31 3 admin

先看下效果:语音合成+识别


使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

这是一个智能体,能够通过语音方式,识别和回答客户的提问,跟客户产生互动,同时他还是个知识库,回答的内容仅限于知识库相关的范围,避免词不达意;

在技术端,这个系统主要用到以下几个系统:

  1. 知识库管理系统:含 文档管理、文档向量化、操作界面
  2. 大模型:本文介绍如何使用本地大模型
  3. 语音识别系统:搭建本地的语音识别引擎,应用到对话框架中
  4. 语音合成系统:能否支持不同音色的语音转文字;

以上技术我们实现完全本地运行,不需要外部网络支持;一次性投入;

硬件要求:

大模型 包括语音相关模型,在cuda 上比cpu模式快一个数量级; 这里用的 24G显存;可以是4090 或者 3090 都行;内存可以32G左右, 硬盘大于 500G;

第一步:安装本地agent模型

可以通过ollama安装,首先安装 ollama,然后执行命令: ollama run qwen2.5:14b

第二步:安装语音识别引擎,并封装成fastapi 服务; 语音引擎可以用开源的 funasr,然后通过一下代码,封装成对外的服务,接收base64语音数据,识别转成文字体;


使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第三步:安装语音合成引擎,目前兼具性价比的模型,用的比较好的有cosyvoice 和 f5-tts ,以f5-tts 为例,我们接收 三个参数 a:文本内容 b:克隆模版 c:语速 ,来生成语音;


使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第四步:来找个知识库管理系统,把以上功能串联起来;目前比较知名的几个有 fastgpt dify maxkb 等; 我用的maxkb,并且修改了其源码系统;

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

如何修改:

  1. 对于本地模型,maxkb是不支持 本地的语音识别、语音合成的,我们让其支持选择:
使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

  1. 实现代码逻辑:
使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第五步:配置模型及应用,

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成


使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

通过上面五步,就配置好了,下面可以通过maxkb的功能来做语音识别和对话了;

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动