【AI】如何安装LM Studio并配置qwen2.5本地AI
如何安装LM Studio并配置qwen2.5本地ai。
1. 前言
这几年以ChatGPT为首的生成式人工智能可是火爆了全网,我在学习编程的过程中也经常使用AI咨询一些问题,绝大部分问题ChatGPT给出的答案都是比较靠谱的,还是节省了不少时间的。
随着一个又一个开源人工智能模型的发布,我们现在已经可以在自己的电脑上也部署一个本地的生成式人工智能大模型,来辅助我们学习或构建本地的AI知识库。
本文将介绍如何安装本地AI部署需要用到的软件LM Studio,并下载国产开源大模型通义千问2.5进行部署。
2. 下载LM Stdio和大模型
下面是下载LM Studio的链接,和下载通义千问大模型的链接。
- LM Studio官网:https://lmstudio.ai。依照您的操作系统,下载软件之后无脑下一步安装即可,本文不做截图演示;
- 魔搭社区通义千问:https://modelscope.cn/organization/qwen
注意,魔塔社区需要登录才能看到页面,不登陆看不到模型列表的。登录后,根据你的需要点进2.5或者2.5-coder的页面中(coder是针对编程优化过的)
以coder为例,点进去能看到一些文章,32B、14B、7B字样的仓库,我们要的就是这些仓库,里面能下载到通义千问的本地模型文件。请根据您的电脑配置选择合适大小的模型
- 家用轻薄本(2022年以后新出款的),只能下载1.5B或者3B的模型文件进行尝试;
- M1\2\3\4系列Mac轻薄本,至少需要内存大于等于16GB才能尝试7B的模型(m系列mac内存越大就能尝试参数越大的模型);
- 至少要有英伟达或amd独显,且显存大于8GB才能尝试14B及以上模型;
以上仅为慕雪根据本人的设备和使用体验进行的推测,仅供参考;
我们要下载的文件,是后缀带了GGUF的。为了方便,直接在魔搭社区的搜索栏搜索“通义千问 gguf”关键词即可
这里以“通义千问2.5-7B-Instruct-GGUF”为例,点进去,点击模型文件,建议选择后缀为q2
的模型文件进行下载。
3. LM Studio配置使用通义千问
3.1. 创建模型文件路径
下载了模型文件之后,就可以配置LM Studio了,此处有重点需要敲黑板,LM Studio一定要依照特定文件夹层级来放置模型文件,才能正确识别模型。
首先创建一个空的文件夹,比如我在D盘的“Program Files”中创建了一个GPT文件夹
1 | D:\Program Files\GPT |
随后,我们需要按如下格式来创建文件夹,一定要这样创建!
1 | D:\Program Files\GPT\Qwen\Qwen2.5-7B-Instruct-GGUF |
最后,我们将刚刚下载的qwen2.5-7b-instruct-q2_k.gguf
这个文件,放置到上述文件夹中就OK了。
如果我还想下载一个14B的模型咋办?那也要按这个套路去创建文件夹,然后把模型文件塞到这个文件夹里面。
1 | D:\Program Files\GPT\Qwen\Qwen2.5-14B-Instruct-GGUF |
创建好了文件夹之后,在LM Studio的modules页面,选择上级目录作为模型文件的根目录,这样就能显示出模型文件了。按上文给出的例子,需要将D:\Program Files\GPT
选择为模型文件根目录。
在mac电脑上也是同理,也需要按这个层级去创建文件夹和放置模型文件。
只要文件路径ok,最终就能在LM Studio的页面看到你刚刚下载的本地模型。
3.2. 使用本地模型
接下来就能正常使用啦!进入lmstdio的chat聊天页面,在顶栏选择本地模型,会弹出设置页面让你选择。首先第一个设置上下文长度是这个模型能记住的上下文数量,设置的越多,模型能记住的内容也就越多,但所消耗的内存也就越多。另外,现在的大模型其实还是记不住太多东西, 所以不建议设置成超过10000的数字。这里我直接保持了默认的4096。
然后是GPU卸载,这个翻译不好,英文显示的是GPU OFFLOAD,意思是你希望使用多少CPU,这个参数越小代表CPU压力大,越大代表GPU压力越大。如果设置为0,则是纯CPU推理,如果设置为最大值,则是纯GPU推理。一般情况下建议直接往最大值设置或者设置成最大值的90%让CPU也干点活。
第三个参数CPU Thread Pool Size是一个编程方面的名词,翻译过来是“CPU线程池大小”,理论上来说,这个参数越大性能也就越好。
线程池的最大值一般是你CPU支持的多线程数量,比如我的M3 MBA就只有8核,所以最大值只能设置为8。建议设置为最大值的80%,避免LM Studio吃满所有CPU导致你的电脑变卡,干不了其他事。
剩余参数我也不太懂,建议不要修改。
点击右下角的确定加载模型,接下来就能像在线的网页一样和这些模型聊天了。所有的计算都是在你的机器本地运行的,不会有隐私问题啦!
3.3. 什么是token/s(token每秒)
在LM Studio的回复中能看到你当前使用的模型的token生成速度tok/sec
,也就是每秒能生成几个token。慕雪其实也不太懂这方面的知识,但是可以简单将每秒的token数理解为每秒本地的大模型能生成几个字。
一般要14token/s才能符合人类阅读的速度,你可以根据这个指标来衡量你的电脑能支撑得起多少B的大模型。
3.4. 性能参考
下面给出慕雪使用过的设备LM Studio部署本地通义千问模型的性能tok/sec
,仅供参考。
主机 | 模型 | 量化 | 生成速度(tok/sec) |
---|---|---|---|
M3 MACBOOK AIR 16GB | Qwen2.5-7B-Instruct-GGUF | q2_k | 18 |
Qwen2.5-3B-Instruct-GGUF | q2_k | 38 | |
Qwen2.5-Coder-1.5B-Instruct-GGUF | q2_k | 63 | |
Qwen2.5-Coder-7B-Instruct-GGUF | q2_k | 18 | |
5700X/7800XT/内存32GB | Qwen1.5-14B-Instruct-GGUF | q2_k | 36 |
Qwen1.5-7B-Instruct-GGUF | q2_k | 66 | |
Qwen1.5-32B-Instruct-GGUF | q2_k | 6.3 | |
Qwen2.5-Coder-7B-Instruct-GGUF | q2_k | 68 | |
9800X3D/9070/内存48GB | Qwen1.5-32B-Chat-GGUF | q2_k | 20 |
Qwen3-Coder-30B-GGUF | q6_k | 26 | |
Qwen3-30B-A3B-GGUF | q8_0 | 18 | |
Qwen3-30B-A3B-GGUF | q4_k_m | 36 | |
Qwen3-14B-GGUF | q4_k_m | 59 |
2025.10.08更新:最近换了机器,9800x3d+9070显卡+48G内存,又测试了本地部署大模型,更新了新设备的测试记录,测试使用的上下文长度都是默认的4096,使用“比较9.11和9.8的大小 /no_think”进行测试,结果仅供参考!
本来想用Qwen1.5-32B-Instruct-GGUF
对比一下新的win电脑和老电脑的性能差距的,但是发现魔搭社区上已经搜不到这款模型了,只能用Chat版本替代测试了。明显发现老版本的Qwen压根回答不对这个问题,竟然认为9.11比9.8大。
不得不说,今年最新出的Qwen3的这个30B的MoE模型本地部署性能真的是杠杠滴。可以看到和老款Qwen1.5的32B模型q2量化模型的性能差距那叫一个显著。要知道Qwen3 30B模型可比q2量化的32B模型占用空间更大!30B q4的模型是17G,32B q2的模型是12G。
如下图所示,q6_k
量化的qwen3-coder-30b
模型,能跑出26t/s的速度,这个速度已经完全足够本地使用了(个人认为本地部署超过15t/s使用已经足够)
q8量化满血版本的Qwen3-30B-A3B,在我的主机上也能有18t/s的生成速度,此时占用内存25GB
最让人惊喜的是q4k量化版本的Qwen3-30B-A3B,竟然只占用了8GB的内存,输出有36t/s,感觉很不错啊!红色部分是markdown输出格式乱了,不是重点。
不过呢,在咨询问题的时候,如开启思考模式,会出现过度思考(感觉陷入了思考死循环)的问题,如下图所示,这里已经思考了超过30s了。即便我已经依照官方给的建议修改了参数(图中右侧所示),依旧会陷入思考死循环。
4. 拓展:构建本地知识库
构建本地知识库需要下载Anything LLM软件:anythingllm.com/download,参考视频:Qwen2本地部署和接入知识库 支持N卡/A卡/纯CPU_哔哩哔哩_bilibili。
慕雪尝试过,目前效果不咋样,用Qwen2.5-3B-Instruct-GGUF
即便是很小的文档也分析不明白,个人认为处于不可用阶段。也有可能是慕雪的配置有问题,但是懒得折腾了。
如果你感兴趣,可以依据视频的教程自己尝试一下,本文就不演示啦!