兄弟们,老粉都知道,之前带大家折腾本地大模型的时候,评论区哀鸿遍野。绝大多数兄弟不是卡在模型本身,而是被各种环境配置直接劝退了:

  • CUDA 版本跟驱动打架
  • 疯狂报错缺失 .dll
  • CMake 编译直接变“大型翻车现场”

但是今天,时代变了! GitHub 上最火的本地推理框架 llama.cpp 刚刚整了个大活,发布的最新版本直接砸碎了 Windows 用户的门槛。官方直接整好了预编译包,下载、解压、双击,直接起飞!


🛠️ 这一次更新,到底强在哪?

以前 A 卡和 Intel 显卡用户只能看着 N 卡(NVIDIA)吃肉,自己连汤都喝不顺畅。这次官方直接搞定了多平台底层支持,看看你的显卡该怎么选:

显卡阵营推荐选择的版本极客点评
NVIDIA (N卡)CUDA 12.4 / CUDA 13.1RTX 3060 到 4090 兄弟们闭眼选,生产力主力军。
AMD (A卡)HIP / Vulkan终于不用硬啃 ROCm 了!实测 Vulkan 甚至比 HIP 还要稳。
Intel (蓝厂)SYCL / VulkanArc 独显和核显别接灰了,跑个轻量 GGUF 妥妥的。

除了底层优化,现在的 llama.cpp 已经不是单纯的文字聊天工具了,它已经进化成了全能完全体

💡 支持多模态(Vision 视觉模型看图)+ 自带 OpenAI 风格 API + 网页交互端。这波更新,生产力直接拉满。


🚀 3分钟极速开卷(保姆级实操)

别看它牛逼,启动命令其实就一行。把模型丢进 models 文件夹,打开终端敲入:

1
llama-server.exe -m models\你的模型名称.gguf -ngl 999

注:-ngl 999 这个参数听我的,直接拉满,意思是把模型全部塞进显存,压榨干显卡的最后一点性能!

启动后,浏览器直接输入 http://127.0.0.1:8080,专属于你自己的本地无审查 AI 界面就出来了。

如何启动 GGUF 多模态视觉模型?

加载视觉模型需要2个文件,一个是主模型文件,另外一个就是 mmproj 视觉模型加载文件


主模型

Qwen2-VL / Qwen2.5-VL

点击前往】或 【网盘下载】、【备用下载

如果是多模态需求,强烈推荐阿里的这个视觉模型。拿它来做视频封面的点击率(CTR)测试、截图 OCR、网页结构识别,识别率高得离谱。

多模态模型启用:

1
llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999

🔞 极客私房推荐:哪些“无审查”模型值得玩?

既然都本地部署了,不玩点“听话、高效、没道德说教”的无审查模型,简直对不起咱们那张嗷嗷待哺的显卡。

1. Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型

支持中文、日文和英语,非常适合角色扮演。

模型下载:【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式

下载合并为GGUF模型格式

1
huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False

然后用 llama.cpp 转 GGUF:

1
2
3
4
5
6
7
git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

pip install -r requirements.txt

python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf

需要量化成 Q4_K_M的话可以命令:

1
llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M

2. 逻辑与代码怪兽:Gemma-4-31b-jang-crack-Q4_K_M

模型下载:【点击前往】或 【打包下载】、【备用下载

谷歌出品的越狱版。原生支持 128K 超长上下文(甚至能魔改到 256K),你把整个项目的源码或者一整本技术手册喂给它,它都能轻松吃下不失忆。最重要的是,社区技术把原本厚重的“道德补丁”给抠掉了,用来探讨深度的技术方案或搞创意写作,再也不会动不动就弹“对不起,我无法回答”。

多模态启动命令(需要挂载视觉组件):

1
llama-server.exe -m "models\主模型.gguf" --mmproj "models\mmproj视觉模型.gguf" -ngl 999

3. 更多越狱模型:

Hermes-3 【点击下载

Qwen 越狱模型【点击下载

Deepseek 越狱模型【点击下载

🎛️ 嫌麻烦?极客专属“多模型切换脚本”

我知道咱们频道很多“云股东”连敲命令都嫌烦。来,把下面这段代码复制下来,保存为 AI启动器.bat(记得把里面的路径和模型名字改成你自己的),以后双击就能一键选模型切换:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
@echo off
chcp 65001 >nul
cd /d C:\Users\admin\Desktop\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型:
echo 1. Gemma 31B
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字:

if "%choice%"=="1" llama-server.exe -m "models\gemma-4-31b-jang-crack-Q4_K_M.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "models\mmproj-BF16.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

💬 极客总结

这次 llama.cpp 的 Windows 预编译版更新,算是彻底把本地 AI 部署从“极客专属”拉到了“小白通用”的门槛。不仅速度暴涨,还顺带拯救了 A 卡和蓝厂用户的显卡。

兄弟们手里的显卡都按捺不住了吧?你们最想用本地 AI 帮你们干啥?是写代码、调教角色扮演,还是帮自己筛选剪辑素材?欢迎在评论区交作业,咱们下期整活见!