MacBook Air M4 部署 GLM 模型入门指南:使用 Ollama 一键运行
随着 Apple Silicon M4 芯片的发布,MacBook Air 的 AI 推理能力得到了质的飞跃。M4 芯片搭载了 16 核神经引擎和强大的 GPU,使其成为本地运行大语言模型的理想平台。本文将介绍如何使用 Ollama 在 MacBook Air M4 上一键部署 GLM-4 模型,这是最简单、最适合新手入门的方案。
为什么选择在 Mac 上运行 GLM 模型?
GLM-4-9B-Chat 是由智谱 AI 和清华大学联合开发的开源大语言模型,支持中英双语,拥有 128K 超长上下文窗口,在多项评测中表现优异。选择在 MacBook Air M4 上本地运行 GLM 模型有以下几个优势:
- 隐私安全:所有推理在本地完成,数据不出设备
- 零成本调用:不消耗任何 API 额度,无限次对话
- 低延迟体验:无需网络请求,响应速度快
- 离线可用:没有网络也能使用 AI 助手
- M4 芯片加持:Metal GPU 加速 + 统一内存架构,推理效率出色
硬件要求与内存规划
MacBook Air M4 有 8GB / 16GB / 24GB / 32GB 多种内存配置。GLM-4-9B 模型的不同量化版本对内存的需求差异很大,选择合适的量化版本至关重要。
GLM-4-9B 量化版本内存需求一览
| 量化版本 | 模型大小 | 最低内存需求 | 8GB Mac | 16GB Mac | 24GB Mac |
|---|---|---|---|---|---|
| Q2_K | 4.0 GB | 6 GB | ✅ 紧凑 | ✅ | ✅ |
| Q3_K_M | 5.1 GB | 7 GB | ⚠️ 非常紧凑 | ✅ | ✅ |
| Q4_0(默认) | 5.5 GB | 8 GB | ⚠️ 勉强可用 | ✅ | ✅ |
| Q4_K_M | 6.3 GB | 9 GB | ❌ | ✅ 推荐 | ✅ |
| Q5_K_M | 7.1 GB | 10 GB | ❌ | ✅ | ✅ |
| Q6_K | 8.3 GB | 11 GB | ❌ | ✅ | ✅ |
| Q8_0 | 10.0 GB | 13 GB | ❌ | ⚠️ 紧凑 | ✅ |
| FP16(全精度) | 19.0 GB | 22 GB | ❌ | ❌ | ✅ |
建议:8GB 内存的 MacBook Air M4 推荐使用 Q3_K_M 版本;16GB 内存推荐 Q4_K_M 版本(质量与性能的最佳平衡点);24GB 及以上可以大胆使用 Q5_K_M 或更高版本。
第一步:安装 Ollama
Ollama 是一个开源的大模型本地运行框架,支持 macOS、Linux 和 Windows。它简化了模型下载、量化、部署的整个流程,让用户只需一条命令就能运行大语言模型。
方式一:官网下载(推荐)
访问 Ollama 官网 https://ollama.com/download,下载 macOS 版本的安装包(Ollama-darwin.zip),解压后将 Ollama 拖入 Applications 文件夹即可。首次打开时,Ollama 会自动在后台启动服务。
方式二:Homebrew 安装
如果你已经安装了 Homebrew,可以直接通过命令行安装:
# 安装 Ollama
brew install ollama
# 启动 Ollama 后台服务
brew services start ollama
# 验证安装
ollama --version
安装完成后,Ollama 会在本地 11434 端口启动 API 服务。你可以通过浏览器访问 http://localhost:11434 来确认服务是否正常运行,看到 "Ollama is running" 字样即表示成功。
第二步:拉取并运行 GLM-4 模型
运行默认版本
打开终端(Terminal),执行以下命令即可一键拉取并启动 GLM-4 模型:
# 拉取并运行 GLM-4(默认 Q4_0 量化,5.5GB)
ollama run glm4
首次运行时,Ollama 会自动下载模型文件(约 5.5GB),下载完成后自动进入交互式对话界面。你可以直接输入问题与模型对话:
>>> 你好,请用中文介绍一下你自己
我是 GLM-4,由智谱AI和清华大学开发的大语言模型...
>>> /bye
# 输入 /bye 退出对话
选择特定量化版本
如果你的内存有限或追求更高质量,可以指定量化版本:
# 8GB 内存推荐:Q3_K_M(5.1GB,质量略低但内存占用小)
ollama run glm4:9b-chat-q3_K_M
# 16GB 内存推荐:Q4_K_M(6.3GB,质量与性能最佳平衡)
ollama run glm4:9b-chat-q4_K_M
# 追求高质量:Q5_K_M(7.1GB)
ollama run glm4:9b-chat-q5_K_M
# 全精度运行(需 24GB 以上内存)
ollama run glm4:9b-chat-fp16
运行 ChatGLM3(轻量替代方案)
如果你的 MacBook Air M4 只有 8GB 内存,还可以选择更轻量的 ChatGLM3-6B 模型,仅需 3.6GB 内存:
# 运行 ChatGLM3-6B(3.6GB,适合 8GB 内存设备)
ollama run EntropyYue/chatglm3
第三步:管理已下载的模型
# 查看已下载的模型列表
ollama list
# 查看正在运行的模型
ollama ps
# 删除不需要的模型(释放磁盘空间)
ollama rm glm4:9b-chat-q3_K_M
# 查看模型详细信息
ollama show glm4
第四步:通过 API 调用 GLM-4
Ollama 提供了 RESTful API 接口,兼容 OpenAI API 格式,方便你将 GLM-4 集成到各种应用中。
原生 API 调用
# 发送聊天请求
curl http://localhost:11434/api/chat -d '{
"model": "glm4",
"messages": [
{"role": "user", "content": "用 Python 写一个快速排序算法"}
],
"stream": false
}'
OpenAI 兼容接口
Ollama 提供了 OpenAI 兼容的 API 端点,可以直接使用 OpenAI SDK 或任何支持 OpenAI API 的工具:
# OpenAI 兼容接口
curl http://localhost:11434/v1/chat/completions -d '{
"model": "glm4",
"messages": [
{"role": "system", "content": "你是一个专业的编程助手"},
{"role": "user", "content": "解释一下什么是闭包"}
],
"stream": false
}'
Python 调用示例
import requests
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": "glm4",
"messages": [
{"role": "user", "content": "介绍一下 MacBook Air M4 的性能特点"}
],
"stream": False
}
)
result = response.json()
print(result["message"]["content"])
使用 OpenAI SDK 调用
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Ollama 不需要真实 API Key,随便填即可
)
response = client.chat.completions.create(
model="glm4",
messages=[
{"role": "user", "content": "写一首关于春天的诗"}
]
)
print(response.choices[0].message.content)
第五步:性能优化建议
创建自定义模型配置
你可以通过 Modelfile 自定义 GLM-4 的运行参数,创建适合自己使用场景的模型变体:
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM glm4:9b-chat-q4_K_M
# 设置系统提示词
SYSTEM """
你是一个专业的中文AI助手,请用简洁准确的中文回答问题。
"""
# 调整生成参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
PARAMETER num_gpu 99
EOF
# 创建自定义模型
ollama create glm4-custom -f Modelfile
# 运行自定义模型
ollama run glm4-custom
关键优化参数说明
num_ctx:上下文窗口大小,默认 2048。增大可处理更长文本,但会增加内存占用。GLM-4 最大支持 128Knum_gpu:GPU 层数,设为 99 表示尽可能多地将层放到 GPU 上运行temperature:温度参数,0 表示确定性输出,1 表示更随机创造性top_p:核采样参数,控制生成内容的多样性
常见问题排查
1. 模型下载速度慢
Ollama 默认从官方服务器下载模型,国内用户可能会遇到速度较慢的问题。建议使用代理或选择在网络空闲时段下载。也可以尝试先手动下载 GGUF 文件再导入。
2. 内存不足导致崩溃
# 检查当前内存使用情况
vm_stat
# 如果内存不足,换用更小的量化版本
ollama rm glm4:9b-chat-q4_K_M
ollama run glm4:9b-chat-q3_K_M
# 减小上下文窗口大小
# 在 Modelfile 中设置 PARAMETER num_ctx 4096
3. 确认 Metal GPU 加速是否生效
# 查看 Ollama 运行日志
cat ~/.ollama/logs/server.log | grep -i metal
# 正常情况下应看到类似输出:
# ggml_metal_init: allocating
# ggml_metal_init: found device: Apple M4
# ggml_metal_init: loading library
4. 修改 Ollama 服务监听地址
默认情况下 Ollama 只监听 127.0.0.1,如果需要从局域网其他设备访问:
# 设置环境变量监听所有地址
launchctl setenv OLLAMA_HOST 0.0.0.0
# 重启 Ollama 服务
brew services restart ollama
搭配图形界面工具
如果你不喜欢命令行交互,可以搭配以下图形界面工具使用 Ollama:
- Chatbox:跨平台 AI 对话客户端,支持 Ollama,界面美观
- Open WebUI:功能丰富的 Web 界面,类似 ChatGPT 的体验
- LobeChat:现代化聊天界面,支持插件和知识库
- AnythingLLM:支持文档对话和知识库管理的桌面应用
总结
使用 Ollama 在 MacBook Air M4 上部署 GLM-4 模型是最简单的入门方案,只需两条命令即可完成安装和运行。M4 芯片的 Metal GPU 加速和统一内存架构使得 9B 参数的模型也能流畅运行。对于大多数用户来说,Q4_K_M 量化版本在质量和性能之间提供了最佳平衡。
在接下来的系列文章中,我们将介绍更进阶的部署方案:编译 llama.cpp 实现 Metal GPU 加速,以及使用 Apple MLX 框架获得更原生的 Apple Silicon 体验。敬请关注!






