51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

开源:基于大模型下的AI 虚拟主播 Vtuber

看到B站分享的AI虚拟主播,整理一下它的技术点。

源码地址:

https://github.com/worm128/AI-YinMei?tab=readme-ov-file

直播间功能:

  • 1、聊天功能:
    1.1 设定了名字、性格、语气和嘲讽能力的 AI,能够与粉丝互怼,当然录入了老粉丝的信息记录,能够更好识别老粉丝的行为进行互怼。
    1.2 多重性格:吟美有善解人意的女仆和凶残怼人的大小姐性格,根据不同场景自行判断切换

  • 2、唱歌功能:
    2.1 输入"唱歌+歌曲名称",吟美会根据你输入的歌曲名称进行学习唱歌。当然,你可以输入类似"吟美给我推荐一首最好听的动漫歌曲"这些开放性的话题,让吟美给你智能选择歌曲进行演唱。
    2.2 切歌请输入"切歌"指令,会跳过当前歌曲,直接唱下一首歌曲

  • 3、绘画功能:
    3.1 输入"画画+图画标题",吟美会根据你输入的绘画提示词进行实时绘画。
    3.2 当然,你可以输入类似"吟美给我画一幅最丑的小龟蛋"这些开放性的话题,让吟美给你智能输出绘画提示词进行画画。

  • 4、跳舞功能:
    4.1 输入"跳舞+舞蹈名称",舞蹈如下:
    书记舞、科目三、女团舞、社会摇
    呱呱舞、马保国、二次元、涩涩
    蔡徐坤、江南 style、Chipi、吟美
    直接输入"跳舞"两个字是随机跳舞
    4.2 停止跳舞请输入"停止跳舞"

  • 5、表情功能:
    输入"#号+表情名称", "#rnd" 是随机表情,表情自己猜,例如,"哭、笑、吐舌头"之类

  • 6、场景切换功能:
    6.1 输入"切换+场景名称":粉色房间、神社、海岸花坊、花房、清晨房间
    6.2 系统智能判定时间进行早晚场景切换

  • 7、换装功能:
    输入"换装+衣服名称":便衣、爱的翅膀、青春猫娘、眼镜猫娘

  • 8、搜图功能:
    输入"搜图+关键字"

  • 9、搜索资讯功能:
    输入"搜索+关键字"

  • 智能辅助:
    1、歌单列表显示
    2、Ai 回复文字框显示
    3、Ai 动作状态提示
    4、智能识别唱歌和绘画
    5、说话、唱歌循环随机摇摆动作
    6、随着心情值增加或者当前的聊天关键字,智能判断输出日语
    7、绘画提示词对接 C 站,丰富绘画内容
    8、智能判断是否需要唱歌、画画
    9、根据关键字进行场景切换
    10、funasr 语音识别客户端


技术点:

  • 支持 fastgpt 知识库聊天对话

  • 支持 LLM 大语言模型的一整套解决方案:[fastgpt] + [one-api] + [Xinference]

  • 支持对接 bilibili 直播间弹幕回复和进入直播间欢迎语

  • 支持微软 edge-tts 语音合成

  • 支持 Bert-VITS2 语音合成

  • 支持 GPT-SoVITS 语音合成

  • 支持表情控制 Vtuber Studio

  • 支持绘画 stable-diffusion-webui 输出 OBS 直播间

  • 支持绘画图片鉴黄 public-NSFW-y-distinguish

  • 支持搜索和搜图服务 duckduckgo(需要魔法上网)

  • 支持搜图服务 baidu 搜图(不需要魔法上网)

  • 支持 AI 回复聊天框【html 插件】

  • 支持 AI 唱歌 Auto-Convert-Music

  • 支持歌单【html 插件】

  • 支持跳舞功能

  • 支持表情视频播放

  • 支持摸摸头动作

  • 支持砸礼物动作

  • 支持唱歌自动启动伴舞功能

  • 聊天和唱歌自动循环摇摆动作

  • 支持多场景切换、背景音乐切换、白天黑夜自动切换场景

  • 支持开放性唱歌和绘画,让 AI 自动判断内容

  • 支持流式聊天,提速 LLM 回复与语音合成

  • 对接 bilibili 开放平台弹幕【稳定性高】

  • 支持 funasr 阿里语音识别系统



参考:

  • 唱歌变声:Auto-Convert-Music 开发者:木白 Mu_Bai、宫园薰ヾ(≧∪≦*)ノ〃
    项目地址:https://github.com/MuBai-He/Auto-Convert-Music

  • GPT-SoVITS:花儿不哭大佬开发的 TTS 语音合成
    https://github.com/RVC-Boss/GPT-SoVITS

  • Bert-VITS2:TTS 语音合成,合成速度超快
    https://github.com/fishaudio/Bert-VITS2

  • 知识库:fastgpt
    项目地址:https://github.com/labring/FastGPT

  • 大语言模型框架:one-api + Xinference
    项目地址:https://github.com/songquanpeng/one-api
    项目地址:https://github.com/xorbitsai/inference

  • LLM 模型:ChatGLM
    https://github.com/THUDM/ChatGLM2-6B

  • 聚合 LLM 调用模型:text-generation-webui
    https://github.com/oobabooga/text-generation-webui

  • AI 虚拟主播模型:B 站的·领航员未鸟·
    https://github.com/AliceNavigator/AI-Vtuber-chatglm

  • AI 训练模型:LLaMA-Factory
    https://github.com/hiyouga/LLaMA-Factory

  • MPV 播放器:MPV
    https://github.com/mpv-player/mpv

  • 语音识别系统:FunASR
    https://github.com/alibaba-damo-academy/FunASR/

  • 其他:
    Lora 训练:https://github.com/yuanzhoulvpi2017/zero_nlp
    ChatGLM 训练:https://github.com/hiyouga/ChatGLM-Efficient-Tuning
    SillyTavern 酒馆:https://github.com/SillyTavern/SillyTavern
    LoRA 中文训练:https://github.com/super-wuliao/LoRA-ChatGLM-Chinese-Alpaca
    数据集-训练语料:https://github.com/codemayq/chinese-chatbot-corpus



这些其实都是我想实现的功能,就当为自己的数字人产品积累一些PPT介绍文案。哈哈哈哈哈哈


赞(4)
未经允许不得转载:工具盒子 » 开源:基于大模型下的AI 虚拟主播 Vtuber