在科技日新月异的今天，我们似乎习惯了"更新换代"的节奏。但你有没有想过，那些陪伴我们多年的老手机，也能摇身一变成为AI神器？面壁智能的MiniCPM 2B大模型，就给我们带来了这样的惊喜。

你可能不知道，这个仅有20亿参数的大模型，却拥有"越级打怪"的实力。与业内知名的大模型相比，它在多项主流评测中都展现出了优越的性能。更令人振奋的是，它的成本极低，仅需1元就能驱动170万次AI推理！那么，这个MiniCPM 2B大模型究竟有何魔力？首先，它是业界第一个在端侧部署多模态的大模型，这意味着它不仅能理解文字，还能处理图像、声音等多种信息。其次，它的推理速度极快，一张普通的1080Ti显卡就能高效微调，让AI推理变得更加轻松快捷。

更令人惊喜的是，这个强大的大模型竟然还能在老手机上运行！是的，你没有听错。那些曾经陪伴我们度过无数日夜的千元机，如今也能借助MiniCPM 2B焕发出新的生机。这不禁让我们感叹，技术的边界正在被不断推翻，智能的未来已经触手可及。

现在，你是不是已经迫不及待想要体验这个神奇的大模型了？别急，我们还有一个好消息要告诉你。面壁智能已经将这个大模型完全开源，供学术研究和有限商用。这意味着，你不仅可以亲自体验它的强大功能，还可以根据自己的需求进行二次开发。

你是否也对这款能让老手机焕发新生的MiniCPM 2B感到好奇了呢？

性能小钢炮：参数量与成本的完美平衡

面壁智能MiniCPM 2B大模型，仅凭20亿参数量就做到了与2018年BERT相当的水平 ，这真的让人震惊！它的性能优化和成本控制做得太出色了，让人不得不佩服。而且，这个模型还是业界首个在端侧部署的多模态大模型，引领了新的技术潮流。

更厉害的是，MiniCPM 2B还能越级挑战更大规模的模型。（面壁智能联合创始人、CEO）李大海说，它甚至能实现13B、30B甚至40B模型的能力！在MT-Bench评测榜单上，它的成绩也非常亮眼，与GPT-4-Turbo不相上下。

而且哦，这个模型的英文能力也特别强，处理英文任务时非常得心应手。不管是翻译、识别还是对话，都能轻松应对。

让人惊喜的还有它的int4量化版，能在闪存应用压缩75%的情况下保持性能基本无损耗。这意味着，即使你的手机存储空间有限，也能顺畅运行这个模型。最重要的是，MiniCPM 2B支持移动端CPU推理，能大幅度节约使用成本。用搭载骁龙855的手机运行它，一块钱电费就能处理170万token！这个价格只是云端运行的Mistral-Medium的1%，简直太划算了！

那么我们具体看看跟同量级大模型比较？

越级打怪：超越同量级大模型的多模态能力

开源惊艳!357M MiniCPM的惊人表现，何以碾压数十亿参数大模型?

首先，MiniCPM并没有采用什么神秘的结构设计，而是使用了标准的**Transformer encoder-decoder架构。**这就说明了，它的强大并不是靠复杂的结构，而是得益于高效的参数利用和精心的训练。

其次，开发团队在训练MiniCPM时可是下了不少功夫。他们利用了大量真实世界的数据，进行了多任务训练，让模型在各种场景下都能游刃有余。这种训练方式不仅提高了模型的泛化能力，还让它在英文和中文任务上都表现出色。

具体到中文任务上，MiniCPM更是展现出了惊人的实力。在权威的中文评测集CMMLU和C-Eval上，它的平均得分分别高达82.32和80.1，不仅超过了同规模的模型，甚至还超越了一些10B级别的大模型。这简直就是开源界的一股清流啊！

英文，选取了MMLU
中文，选取了CMMLU、C-Eval
代码，选取了HumanEval、MBPP
数学，选取了GSM8K、MATH
问答，选取了HellaSwag、ARC-E、ARC-C
逻辑，选取了BBH

与大模型相比：超过或持平大部分7B规模模型，超越部分10B以上的模型。 与小模型对比，除部分英文评测集外，其他测试集均超过现有模型。

那么，MiniCPM的出现给我们带来了什么启示呢？其实，它告诉我们，在模型设计上，有时候"小而精"比"大而全"更能解决实际问题。而且，通过高效的训练和优化，小模型也能发挥出惊人的性能。

那么下面我们开始快速使用！

实际应用与快速上手

你知道吗？我们手机里的那块小小GPU，成本大约600元，但它每秒钟可以处理7.5个tokens。假设这GPU连续工作5年后"退休"，那么它总共能处理惊人的170万个tokens！这样一算，每个token的推理成本竟然才1元钱。

这里有个简单的数学公式帮你理解：1元=1700000tokens。是不是觉得很划算？

相比之下，GPT-4这个大家伙的推理成本就高得多了。用1元钱，它只能处理4700个tokens。看来，手机GPU在成本效益上真的是甩了GPT-4好几条街啊！

而且，就算是跟Mistral-medium这个级别的模型比，手机GPU的成本也只是它的1/100。这么看来，我们手里的这部小手机，真的是个超值的"推理小能手"！

vLLM 推理

安装支持 MiniCPM 的 vLLM

因为 MiniCPM 采用 MUP 结构，在矩阵乘法中存在一定的放缩计算，与Llama类模型结构有细微差别。我们基于版本为 0.2.2 的 vLLM 实现了 MiniCPM 的推理，代码位于仓库inference文件夹下，未来将会支持更新的vLLM 版本。

# 安装支持 MiniCPM 的 vLLM 版本
pip install inference/vllm
# 将Huggingface Transformers仓库转为vLLM-MiniCPM支持的格式，其中<hf_repo_path>, <vllmcpm_repo_path>均为本地路径
python inference/convert_hf_to_vllmcpm.py --load <hf_repo_path> --save <vllmcpm_repo_path>
# 测试样例 
cd inference/vllm/examples/infer_cpm
python inference.py --model_path <vllmcpm_repo_path> --prompt_path prompts/prompt_demo.txt