MacBook M4 部署千问模型入门指南：Ollama + llama.cpp 双方案

AI人工智能 2 小时前 0 0

随着 Apple M4 芯片的发布，MacBook 在本地运行大语言模型的能力又上了一个台阶。M4 芯片拥有更高的统一内存带宽和更强的 Neural Engine，非常适合在本地部署和运行大模型。本文将以阿里通义千问（Qwen）模型为例，介绍两种在 MacBook M4 上快速部署的方案。

为什么选择 MacBook M4 跑大模型？

M4 芯片相比前代在 AI 推理方面有显著优势：

统一内存架构：CPU 和 GPU 共享内存，无需数据拷贝，模型加载更快
高内存带宽：M4 Pro/Max 带宽可达 273-546 GB/s，大模型推理不再卡顿
低功耗：相比独立显卡方案，功耗低数倍，笔记本即可长时间运行
大内存选项：M4 Max 最高支持 128GB 统一内存，可跑 70B 级别模型

方案一：使用 Ollama（推荐新手）

Ollama 是目前最简单的本地大模型运行工具，一行命令即可安装和运行模型，适合快速体验。

1. 安装 Ollama

打开终端，执行以下命令：

# 官方一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

# 或者使用 Homebrew 安装
brew install ollama

# 启动 Ollama 服务
ollama serve

安装完成后，Ollama 会自动在后台运行，默认监听 11434 端口。

2. 拉取并运行千问模型

Ollama 官方仓库已收录 Qwen 系列模型，直接按名称拉取即可：

# 拉取 Qwen2.5 7B 模型（约 4.7GB）
ollama pull qwen2.5:7b

# 拉取 Qwen2.5 14B 模型（约 8.9GB）
ollama pull qwen2.5:14b

# 拉取 Qwen2.5 Coder 模型（代码专用）
ollama pull qwen2.5-coder:7b

# 拉取 QwQ 推理模型（32B）
ollama pull qwq:32b

运行模型进入对话模式：

# 运行模型，进入交互式对话
ollama run qwen2.5:7b

# 你会看到类似输出：
# >>> 你好，请介绍一下你自己
# 我是通义千问，由阿里云开发的大语言模型...

3. 模型选择建议

根据你的 MacBook 内存大小选择合适的模型：

MacBook 型号	内存	推荐模型	量化大小
MacBook M4 (基础版)	16GB	qwen2.5:7b	~4.7GB
MacBook M4 (基础版)	24GB	qwen2.5:7b / 14b	~4.7-8.9GB
MacBook M4 Pro	24-48GB	qwen2.5:14b / 32b	~8.9-20GB
MacBook M4 Max	64-128GB	qwq:32b / qwen2.5:72b	~20-42GB

4. 查看运行状态

# 查看已安装的模型
ollama list

# 查看正在运行的模型
ollama ps

# 查看模型详细信息
ollama show qwen2.5:7b

方案二：使用 llama.cpp（进阶用户）

llama.cpp 是一个高性能的 C++ 推理框架，对 Apple Silicon 有专门优化（Metal 加速），比 Ollama 更灵活可控。

1. 编译安装 llama.cpp

# 安装依赖
brew install cmake git

# 克隆仓库
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# 编译（自动启用 Metal 加速）
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j

编译完成后，可执行文件在 build/bin/ 目录下。

2. 下载 GGUF 格式的千问模型

llama.cpp 使用 GGUF 格式模型，推荐从 Hugging Face 下载量化版本：

# 安装 huggingface-cli
pip install huggingface-hub

# 下载 Qwen2.5-7B-Instruct Q4_K_M 量化版（约 4.7GB）
huggingface-cli download \
  Qwen/Qwen2.5-7B-Instruct-GGUF \
  qwen2.5-7b-instruct-q4_k_m.gguf \
  --local-dir ./models

常用量化等级说明：

Q4_K_M：4bit 量化，体积最小，速度最快，推荐日常使用
Q5_K_M：5bit 量化，质量与速度的平衡选择
Q8_0：8bit 量化，质量最好但体积翻倍
F16：半精度浮点，无量化损失，体积最大

3. 运行模型

# 基本对话模式
./build/bin/llama-cli \
  -m ./models/qwen2.5-7b-instruct-q4_k_m.gguf \
  -p "你好，请介绍一下你自己" \
  -n 512 \
  --gpu-layers 99

关键参数说明：

-m：模型文件路径
-p：提示词（prompt）
-n：最大生成 token 数
--gpu-layers 99：将所有层放到 GPU（Metal）上运行
-c 4096：上下文窗口大小（默认 2048）
-t 8：CPU 线程数

4. 交互式对话模式

# 启动交互式对话（类似 ChatGPT 体验）
./build/bin/llama-cli \
  -m ./models/qwen2.5-7b-instruct-q4_k_m.gguf \
  -i -ins \
  -c 4096 \
  --gpu-layers 99 \
  -t 8

参数 -i -ins 表示交互式 + instruction 模式，支持多轮对话。

性能对比

在 MacBook M4 (16GB) 上测试 Qwen2.5-7B Q4_K_M 量化的结果：

方案	加载时间	生成速度	内存占用	易用性
Ollama	~5s	~35 tok/s	~5.5GB	★★★★★
llama.cpp (Metal)	~3s	~40 tok/s	~5.2GB	★★★

结论：llama.cpp 略快一些（直接 Metal 调用，无中间层），但 Ollama 的易用性远胜。日常使用推荐 Ollama，需要精细调优或自定义功能时用 llama.cpp。

常见问题

Q: 如何确认 GPU（Metal）加速已启用？

llama.cpp 启动时会打印 ggml_metal_init: allocating 字样。Ollama 默认自动启用 Metal 加速，可通过活动监视器查看进程的 GPU 使用率确认。

Q: 模型太大会怎样？

如果模型超过可用内存，系统会使用 swap（交换空间），速度会大幅下降（可能慢 10 倍以上）。建议选择量化后大小不超过可用内存 60% 的模型。

Q: 如何卸载模型释放内存？

# Ollama 默认保持模型在内存中 5 分钟
# 手动卸载指定模型
ollama stop qwen2.5:7b

总结

本文介绍了在 MacBook M4 上部署千问模型的两种方案。Ollama 适合快速上手，llama.cpp 适合进阶用户。下一篇文章我们将介绍使用 Apple 官方的 MLX 框架来获得更好的性能，敬请关注。

系列文章

✅ 第一篇：Ollama + llama.cpp 快速部署（本文）
⏳ 第二篇：MLX 框架原生加速运行千问模型
⏳ 第三篇：搭建千问 API 服务和 Web 对话界面

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。