Ollama:

一个用于在本地运行大型语言模型(LLM)的开源框架

image.png

安装

Docker Compose(CPU)

1
2
3
4
5
6
7
8
9
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
volumes:
- /vol1/1000/docker/ollama:/root/.ollama
ports:
- 11434:11434
restart: unless-stopped

Docker Compose(GPU,NVIDIA)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
volumes:
- /vol1/1000/docker/ollama:/root/.ollama
ports:
- 11434:11434
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
restart: unless-stopped

使用

浏览器中输入 http://NAS的IP:11434 正常情况显示运行中

image.png

TIP:

上面部署的这个只是一个本地运行的框架,下面还需要下载模型才可以运行。如果需要美观的 UI 界面,还需要另外安装其他应用配合。

下载模型

来到 Ollama 官网:https://ollama.com

image.png

下载模型,点击右上角“Model”

image.png

可以看到目前最火的“deepseek-r1”模型

image.png

点击进入查看详情

image.png

TIP:

- 7b 大小的模型通常至少需要 8GB RAM

- 13b 大小的模型通常至少需要 16GB RAM

- 33b 大小的模型通常至少需要 32GB RAM

- 70b 大小的模型通常需要至少 64GB RAM

这里可以选择模型大小,不指定的话默认是 7B

image.png

复制旁边的代码

image.png

打开 Ollama 的终端

image.png

TIP:

下载到最后快完成的时候会很慢,不要关闭弹窗不然就看不到进度

拉取 deepseek-r1 模型

1
ollama run deepseek-r1

image.png

模型下载完成,自动就会进入模型可以对话

image.png

简单使用

因为没有UI界面,所以还是在这个控制台界面操作

列出模型

1
ollama list

image.png

前面部分就是模型名称,后面是版本标签

image.png

运行模型

1
ollama run 模型名称:版本标签

image.png

可以直接输入问题,回车确认

1
hello world!

image.png

中文也是没问题的,而且也有思考的过程

image.png

退出

1
/bye

删除模型

1
ollama rm 模型名称:版本标签

简单测试

测试机器处理器是 i5-1235U,内存 40GB 4800MHz,运行 deepseek-r1:7b 模型

输入“hello world!”,回答完毕需要大概 9 秒比较流畅,速度要比想象中快很多

image.png

资源占用情况,没有加载模型前

image.png

资源占用情况,加载模型以后

image.png

资源占用情况,回复问题时

image.png

这里我还试了一下 14b 的模型

1
ollama run deepseek-r1:14b

image.png

输入“hello world!”,回答完毕需要大概 14 秒,能明显感觉到卡顿,不太建议用 CPU 跑了

image.png

和 7b 对比,两者对 CPU 压力差不多,主要还是内存占用不同

image.png

总结

部署和使用其实还是很方便的,没有遇到什么问题,小白也可以轻松上手。本地部署大模型的好处就是不需要联网,数据相当比较安全。虽然运行小模型对设备要求不算太高,但想要有一个比较好的体验还是直接调用官方 API 是最便捷高效的。2025-02-04_20-37-47.jpg