Ollama 本地大模型框架
Ollama:
一个用于在本地运行大型语言模型(LLM)的开源框架
安装
Docker Compose(CPU)
1 | services: |
Docker Compose(GPU,NVIDIA)
1 | services: |
使用
浏览器中输入 http://NAS的IP:11434 正常情况显示运行中
TIP:
上面部署的这个只是一个本地运行的框架,下面还需要下载模型才可以运行。如果需要美观的 UI 界面,还需要另外安装其他应用配合。
下载模型
来到 Ollama 官网:https://ollama.com
下载模型,点击右上角“Model”
可以看到目前最火的“deepseek-r1”模型
点击进入查看详情
TIP:
- 7b 大小的模型通常至少需要 8GB RAM
- 13b 大小的模型通常至少需要 16GB RAM
- 33b 大小的模型通常至少需要 32GB RAM
- 70b 大小的模型通常需要至少 64GB RAM
这里可以选择模型大小,不指定的话默认是 7B
复制旁边的代码
打开 Ollama 的终端
TIP:
下载到最后快完成的时候会很慢,不要关闭弹窗不然就看不到进度
拉取 deepseek-r1 模型
1 | ollama run deepseek-r1 |
模型下载完成,自动就会进入模型可以对话
简单使用
因为没有UI界面,所以还是在这个控制台界面操作
列出模型
1 | ollama list |
前面部分就是模型名称,后面是版本标签
运行模型
1 | ollama run 模型名称:版本标签 |
可以直接输入问题,回车确认
1 | hello world! |
中文也是没问题的,而且也有思考的过程
退出
1 | /bye |
删除模型
1 | ollama rm 模型名称:版本标签 |
简单测试
测试机器处理器是 i5-1235U,内存 40GB 4800MHz,运行 deepseek-r1:7b 模型
输入“hello world!”,回答完毕需要大概 9 秒比较流畅,速度要比想象中快很多
资源占用情况,没有加载模型前
资源占用情况,加载模型以后
资源占用情况,回复问题时
这里我还试了一下 14b 的模型
1 | ollama run deepseek-r1:14b |
输入“hello world!”,回答完毕需要大概 14 秒,能明显感觉到卡顿,不太建议用 CPU 跑了
和 7b 对比,两者对 CPU 压力差不多,主要还是内存占用不同
总结
部署和使用其实还是很方便的,没有遇到什么问题,小白也可以轻松上手。本地部署大模型的好处就是不需要联网,数据相当比较安全。虽然运行小模型对设备要求不算太高,但想要有一个比较好的体验还是直接调用官方 API 是最便捷高效的。