使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

游戏天地 2025年03月02日 06:31 3 admin

先看下效果：语音合成+识别

这是一个智能体，能够通过语音方式，识别和回答客户的提问，跟客户产生互动，同时他还是个知识库，回答的内容仅限于知识库相关的范围，避免词不达意；

在技术端，这个系统主要用到以下几个系统：

以上技术我们实现完全本地运行，不需要外部网络支持；一次性投入；

硬件要求：

大模型包括语音相关模型，在cuda 上比cpu模式快一个数量级；这里用的 24G显存；可以是4090 或者 3090 都行；内存可以32G左右，硬盘大于 500G；

第一步：安装本地agent模型

可以通过ollama安装，首先安装 ollama，然后执行命令： ollama run qwen2.5:14b

第二步：安装语音识别引擎，并封装成fastapi 服务；语音引擎可以用开源的 funasr，然后通过一下代码，封装成对外的服务，接收base64语音数据，识别转成文字体；

第三步：安装语音合成引擎，目前兼具性价比的模型，用的比较好的有cosyvoice 和 f5-tts ，以f5-tts 为例，我们接收三个参数 a：文本内容 b：克隆模版 c：语速，来生成语音；

第四步：来找个知识库管理系统，把以上功能串联起来；目前比较知名的几个有 fastgpt dify maxkb 等；我用的maxkb，并且修改了其源码系统；

如何修改：

第五步：配置模型及应用，

通过上面五步，就配置好了，下面可以通过maxkb的功能来做语音识别和对话了；

绿证交易迈出第一步！上海电气核发首批绿证并签署首份绿证交易合同

发表评论