【AI】如何安装LM Studio并配置qwen2.5本地ai
如何安装LM Studio并配置qwen2.5本地ai。
前言
这几年以ChatGPT为首的生成式人工智能可是火爆了全网,我在学习编程的过程中也经常使用AI咨询一些问题,绝大部分问题ChatGPT给出的答案都是比较靠谱的,还是节省了不少时间的。
随着一个又一个开源人工智能模型的发布,我们现在已经可以在自己的电脑上也部署一个本地的生成式人工智能大模型,来辅助我们学习或构建本地的AI知识库。
本文将介绍如何安装本地AI部署需要用到的软件LM Studio,并下载国产开源大模型通义千问2.5进行部署。
下载LM Stdio和大模型
参考视频:本地运行通义千问72B!兼容AMD显卡或纯CPU【LM Studio】_哔哩哔哩_bilibili
下面是下载lmstudio的链接,和下载通义千问大模型的链接。
- LM Studio官网:https://lmstudio.ai。依照您的操作系统,下载软件之后无脑下一步安装即可,本文不做截图演示;
- 魔搭社区通义千问:https://modelscope.cn/organization/qwen
注意,魔塔社区需要登录才能看到页面,不登陆看不到模型列表的。登录后,根据你的需要点进2.5或者2.5-coder的页面中(coder是针对编程优化过的)
以coder为例,点进去能看到一些文章,32B、14B、7B字样的仓库,我们要的就是这些仓库,里面能下载到通义千问的本地模型文件。请根据您的电脑配置选择合适大小的模型
- 家用轻薄本(2022年以后新出款的),只能下载1.5B或者3B的模型文件进行尝试;
- M1\2\3\4系列Mac轻薄本,至少需要内存大于等于16GB才能尝试7B的模型(m系列mac内存越大就能尝试参数越大的模型);
- 至少要有英伟达或amd独显,且显存大于8GB才能尝试14B及以上模型;
以上仅为慕雪根据本人的设备和使用体验进行的推测,仅供参考;
我们要下载的文件,是后缀带了GGUF的。为了方便,直接在魔搭社区的搜索栏搜索“通义千问 gguf”关键词即可
这里以“通义千问2.5-7B-Instruct-GGUF”为例,点进去,点击模型文件,建议选择后缀为q2
的模型文件进行下载。
LM Studio配置使用通义千问
创建模型文件路径
下载了模型文件之后,就可以配置lmstudio了,此处有重点需要敲黑板,lmstudio一定要依照特定文件夹层级来放置模型文件,才能正确识别模型。
首先创建一个空的文件夹,比如我在D盘的“Program Files”中创建了一个GPT文件夹
1 | D:\Program Files\GPT |
随后,我们需要按如下格式来创建文件夹,一定要这样创建!
1 | D:\Program Files\GPT\Qwen\Qwen2.5-7B-Instruct-GGUF |
最后,我们将刚刚下载的qwen2.5-7b-instruct-q2_k.gguf
这个文件,放置到上述文件夹中就OK了。
如果我还想下载一个14B的模型咋办?那也要按这个套路去创建文件夹,然后把模型文件塞到这个文件夹里面。
1 | D:\Program Files\GPT\Qwen\Qwen2.5-14B-Instruct-GGUF |
创建好了文件夹之后,在lmstudio的modules页面,选择上级目录作为模型文件的根目录,这样就能显示出模型文件了。按上文给出的例子,需要将D:\Program Files\GPT
选择为模型文件根目录。
在mac电脑上也是同理,也需要按这个层级去创建文件夹和放置模型文件。
只要文件路径ok,最终就能在lmstudio的页面看到你刚刚下载的本地模型。
使用本地模型
接下来就能正常使用啦!进入lmstdio的chat聊天页面,在顶栏选择本地模型,会弹出设置页面让你选择。首先第一个设置上下文长度是这个模型能记住的上下文数量,设置的越多,模型能记住的内容也就越多,但所消耗的内存也就越多。另外,现在的大模型其实还是记不住太多东西, 所以不建议设置成超过10000的数字。这里我直接保持了默认的4096。
然后是GPU卸载,这个翻译不好,英文显示的是GPU OFFLOAD,意思是你希望使用多少CPU,这个参数越小代表CPU压力大,越大代表GPU压力越大。如果设置为0,则是纯CPU推理,如果设置为最大值,则是纯GPU推理。一般情况下建议直接往最大值设置或者设置成最大值的90%让CPU也干点活。
第三个参数CPU Thread Pool Size是一个编程方面的名词,翻译过来是“CPU线程池大小”,理论上来说,这个参数越大性能也就越好。
线程池的最大值一般是你CPU支持的多线程数量,比如我的M3 MBA就只有8核,所以最大值只能设置为8。建议设置为最大值的80%,避免LM Studio吃满所有CPU导致你的电脑变卡,干不了其他事。
剩余参数我也不太懂,建议不要修改。
点击右下角的确定加载模型,接下来就能像在线的网页一样和这些模型聊天了。所有的计算都是在你的机器本地运行的,不会有隐私问题啦!
什么是token/s(token每秒)
在lmstudio的回复中能看到你当前使用的模型的token生成速度tok/sec
,也就是每秒能生成几个token。慕雪其实也不太懂这方面的知识,但是可以简单将每秒的token数理解为每秒本地的大模型能生成几个字。
一般要14token/s才能符合人类阅读的速度,你可以根据这个指标来衡量你的电脑能支撑得起多少B的大模型。
性能参考
下面给出慕雪使用过的设备lmstudio部署本地通义千问模型的性能tok/sec
,仅供参考
主机 | 模型 | 量化 | 生成速度(tok/sec) |
---|---|---|---|
M3 MACBOOK AIR 16GB | Qwen2.5-7B-Instruct-GGUF | q2_k | 18 |
Qwen2.5-3B-Instruct-GGUF | q2_k | 38 | |
Qwen2.5-Coder-1.5B-Instruct-GGUF | q2_k | 63 | |
Qwen2.5-Coder-7B-Instruct-GGUF | q2_k | 18 | |
5700X/7800XT/32GB | Qwen1.5-14B-Instruct-GGUF | q2_k | 36 |
Qwen1.5-7B-Instruct-GGUF | q2_k | 66 | |
Qwen1.5-32B-Instruct-GGUF | q2_k | 6.3 | |
Qwen2.5-Coder-7B-Instruct-GGUF | q2_k | 68 |
拓展:构建本地知识库
构建本地知识库需要下载Anything LLM软件:anythingllm.com/download,参考视频:Qwen2本地部署和接入知识库 支持N卡/A卡/纯CPU_哔哩哔哩_bilibili。
慕雪尝试过,目前效果不咋样,用Qwen2.5-3B-Instruct-GGUF
即便是很小的文档也分析不明白,个人认为处于不可用阶段。也有可能是慕雪的配置有问题,但是懒得折腾了。
如果你感兴趣,可以依据视频的教程自己尝试一下,本文就不演示啦!