开源：基于大模型下的AI 虚拟主播 Vtuber-工具盒子

看到B站分享的AI虚拟主播，整理一下它的技术点。

源码地址：

https://github.com/worm128/AI-YinMei?tab=readme-ov-file

直播间功能：

1、聊天功能：
1.1 设定了名字、性格、语气和嘲讽能力的 AI，能够与粉丝互怼，当然录入了老粉丝的信息记录，能够更好识别老粉丝的行为进行互怼。
1.2 多重性格：吟美有善解人意的女仆和凶残怼人的大小姐性格，根据不同场景自行判断切换
2、唱歌功能：
2.1 输入"唱歌+歌曲名称"，吟美会根据你输入的歌曲名称进行学习唱歌。当然，你可以输入类似"吟美给我推荐一首最好听的动漫歌曲"这些开放性的话题，让吟美给你智能选择歌曲进行演唱。
2.2 切歌请输入"切歌"指令，会跳过当前歌曲，直接唱下一首歌曲
3、绘画功能：
3.1 输入"画画+图画标题"，吟美会根据你输入的绘画提示词进行实时绘画。
3.2 当然，你可以输入类似"吟美给我画一幅最丑的小龟蛋"这些开放性的话题，让吟美给你智能输出绘画提示词进行画画。
4、跳舞功能：
4.1 输入"跳舞+舞蹈名称"，舞蹈如下：
书记舞、科目三、女团舞、社会摇
呱呱舞、马保国、二次元、涩涩
蔡徐坤、江南 style、Chipi、吟美
直接输入"跳舞"两个字是随机跳舞
4.2 停止跳舞请输入"停止跳舞"
5、表情功能：
输入"#号+表情名称", "#rnd" 是随机表情，表情自己猜，例如，"哭、笑、吐舌头"之类
6、场景切换功能：
6.1 输入"切换+场景名称"：粉色房间、神社、海岸花坊、花房、清晨房间
6.2 系统智能判定时间进行早晚场景切换
7、换装功能：
输入"换装+衣服名称"：便衣、爱的翅膀、青春猫娘、眼镜猫娘
8、搜图功能：
输入"搜图+关键字"
9、搜索资讯功能：
输入"搜索+关键字"
智能辅助：
1、歌单列表显示
2、Ai 回复文字框显示
3、Ai 动作状态提示
4、智能识别唱歌和绘画
5、说话、唱歌循环随机摇摆动作
6、随着心情值增加或者当前的聊天关键字，智能判断输出日语
7、绘画提示词对接 C 站，丰富绘画内容
8、智能判断是否需要唱歌、画画
9、根据关键字进行场景切换
10、funasr 语音识别客户端

技术点：

支持 fastgpt 知识库聊天对话
支持 LLM 大语言模型的一整套解决方案：[fastgpt] + [one-api] + [Xinference]
支持对接 bilibili 直播间弹幕回复和进入直播间欢迎语
支持微软 edge-tts 语音合成
支持 Bert-VITS2 语音合成
支持 GPT-SoVITS 语音合成
支持表情控制 Vtuber Studio
支持绘画 stable-diffusion-webui 输出 OBS 直播间
支持绘画图片鉴黄 public-NSFW-y-distinguish
支持搜索和搜图服务 duckduckgo（需要魔法上网）
支持搜图服务 baidu 搜图（不需要魔法上网）
支持 AI 回复聊天框【html 插件】
支持 AI 唱歌 Auto-Convert-Music
支持歌单【html 插件】
支持跳舞功能
支持表情视频播放
支持摸摸头动作
支持砸礼物动作
支持唱歌自动启动伴舞功能
聊天和唱歌自动循环摇摆动作
支持多场景切换、背景音乐切换、白天黑夜自动切换场景
支持开放性唱歌和绘画，让 AI 自动判断内容
支持流式聊天，提速 LLM 回复与语音合成
对接 bilibili 开放平台弹幕【稳定性高】
支持 funasr 阿里语音识别系统

参考：

唱歌变声：Auto-Convert-Music 开发者：木白 Mu_Bai、宫园薰ヾ(≧∪≦*)ノ〃
项目地址：https://github.com/MuBai-He/Auto-Convert-Music
GPT-SoVITS：花儿不哭大佬开发的 TTS 语音合成
https://github.com/RVC-Boss/GPT-SoVITS
Bert-VITS2：TTS 语音合成，合成速度超快
https://github.com/fishaudio/Bert-VITS2
知识库：fastgpt
项目地址：https://github.com/labring/FastGPT
大语言模型框架：one-api + Xinference
项目地址：https://github.com/songquanpeng/one-api
项目地址：https://github.com/xorbitsai/inference
LLM 模型：ChatGLM
https://github.com/THUDM/ChatGLM2-6B
聚合 LLM 调用模型：text-generation-webui
https://github.com/oobabooga/text-generation-webui
AI 虚拟主播模型：B 站的·领航员未鸟·
https://github.com/AliceNavigator/AI-Vtuber-chatglm
AI 训练模型：LLaMA-Factory
https://github.com/hiyouga/LLaMA-Factory
MPV 播放器：MPV
https://github.com/mpv-player/mpv
语音识别系统：FunASR
https://github.com/alibaba-damo-academy/FunASR/
其他：
Lora 训练：https://github.com/yuanzhoulvpi2017/zero_nlp
ChatGLM 训练：https://github.com/hiyouga/ChatGLM-Efficient-Tuning
SillyTavern 酒馆：https://github.com/SillyTavern/SillyTavern
LoRA 中文训练：https://github.com/super-wuliao/LoRA-ChatGLM-Chinese-Alpaca
数据集-训练语料：https://github.com/codemayq/chinese-chatbot-corpus