MacBook Air M4 部署 GLM 模型入门指南：使用 Ollama 一键运行

AI人工智能 2 小时前 0 4

随着 Apple Silicon M4 芯片的发布，MacBook Air 的 AI 推理能力得到了质的飞跃。M4 芯片搭载了 16 核神经引擎和强大的 GPU，使其成为本地运行大语言模型的理想平台。本文将介绍如何使用 Ollama 在 MacBook Air M4 上一键部署 GLM-4 模型，这是最简单、最适合新手入门的方案。

为什么选择在 Mac 上运行 GLM 模型？

GLM-4-9B-Chat 是由智谱 AI 和清华大学联合开发的开源大语言模型，支持中英双语，拥有 128K 超长上下文窗口，在多项评测中表现优异。选择在 MacBook Air M4 上本地运行 GLM 模型有以下几个优势：

隐私安全：所有推理在本地完成，数据不出设备
零成本调用：不消耗任何 API 额度，无限次对话
低延迟体验：无需网络请求，响应速度快
离线可用：没有网络也能使用 AI 助手
M4 芯片加持：Metal GPU 加速 + 统一内存架构，推理效率出色

硬件要求与内存规划

MacBook Air M4 有 8GB / 16GB / 24GB / 32GB 多种内存配置。GLM-4-9B 模型的不同量化版本对内存的需求差异很大，选择合适的量化版本至关重要。

GLM-4-9B 量化版本内存需求一览

量化版本	模型大小	最低内存需求	8GB Mac	16GB Mac	24GB Mac
Q2_K	4.0 GB	6 GB	✅ 紧凑	✅	✅
Q3_K_M	5.1 GB	7 GB	⚠️ 非常紧凑	✅	✅
Q4_0（默认）	5.5 GB	8 GB	⚠️ 勉强可用	✅	✅
Q4_K_M	6.3 GB	9 GB	❌	✅ 推荐	✅
Q5_K_M	7.1 GB	10 GB	❌	✅	✅
Q6_K	8.3 GB	11 GB	❌	✅	✅
Q8_0	10.0 GB	13 GB	❌	⚠️ 紧凑	✅
FP16（全精度）	19.0 GB	22 GB	❌	❌	✅

建议：8GB 内存的 MacBook Air M4 推荐使用 Q3_K_M 版本；16GB 内存推荐 Q4_K_M 版本（质量与性能的最佳平衡点）；24GB 及以上可以大胆使用 Q5_K_M 或更高版本。

第一步：安装 Ollama

Ollama 是一个开源的大模型本地运行框架，支持 macOS、Linux 和 Windows。它简化了模型下载、量化、部署的整个流程，让用户只需一条命令就能运行大语言模型。

方式一：官网下载（推荐）

访问 Ollama 官网 https://ollama.com/download，下载 macOS 版本的安装包（Ollama-darwin.zip），解压后将 Ollama 拖入 Applications 文件夹即可。首次打开时，Ollama 会自动在后台启动服务。

方式二：Homebrew 安装

如果你已经安装了 Homebrew，可以直接通过命令行安装：

# 安装 Ollama
brew install ollama

# 启动 Ollama 后台服务
brew services start ollama

# 验证安装
ollama --version

安装完成后，Ollama 会在本地 11434 端口启动 API 服务。你可以通过浏览器访问 http://localhost:11434 来确认服务是否正常运行，看到 "Ollama is running" 字样即表示成功。

第二步：拉取并运行 GLM-4 模型

运行默认版本

打开终端（Terminal），执行以下命令即可一键拉取并启动 GLM-4 模型：

# 拉取并运行 GLM-4（默认 Q4_0 量化，5.5GB）
ollama run glm4

首次运行时，Ollama 会自动下载模型文件（约 5.5GB），下载完成后自动进入交互式对话界面。你可以直接输入问题与模型对话：

>>> 你好，请用中文介绍一下你自己
我是 GLM-4，由智谱AI和清华大学开发的大语言模型...

>>> /bye
# 输入 /bye 退出对话

选择特定量化版本

如果你的内存有限或追求更高质量，可以指定量化版本：

# 8GB 内存推荐：Q3_K_M（5.1GB，质量略低但内存占用小）
ollama run glm4:9b-chat-q3_K_M

# 16GB 内存推荐：Q4_K_M（6.3GB，质量与性能最佳平衡）
ollama run glm4:9b-chat-q4_K_M

# 追求高质量：Q5_K_M（7.1GB）
ollama run glm4:9b-chat-q5_K_M

# 全精度运行（需 24GB 以上内存）
ollama run glm4:9b-chat-fp16

运行 ChatGLM3（轻量替代方案）

如果你的 MacBook Air M4 只有 8GB 内存，还可以选择更轻量的 ChatGLM3-6B 模型，仅需 3.6GB 内存：

# 运行 ChatGLM3-6B（3.6GB，适合 8GB 内存设备）
ollama run EntropyYue/chatglm3

第三步：管理已下载的模型

# 查看已下载的模型列表
ollama list

# 查看正在运行的模型
ollama ps

# 删除不需要的模型（释放磁盘空间）
ollama rm glm4:9b-chat-q3_K_M

# 查看模型详细信息
ollama show glm4

第四步：通过 API 调用 GLM-4

Ollama 提供了 RESTful API 接口，兼容 OpenAI API 格式，方便你将 GLM-4 集成到各种应用中。

原生 API 调用

# 发送聊天请求
curl http://localhost:11434/api/chat -d '{
  "model": "glm4",
  "messages": [
    {"role": "user", "content": "用 Python 写一个快速排序算法"}
  ],
  "stream": false
}'

OpenAI 兼容接口

Ollama 提供了 OpenAI 兼容的 API 端点，可以直接使用 OpenAI SDK 或任何支持 OpenAI API 的工具：

# OpenAI 兼容接口
curl http://localhost:11434/v1/chat/completions -d '{
  "model": "glm4",
  "messages": [
    {"role": "system", "content": "你是一个专业的编程助手"},
    {"role": "user", "content": "解释一下什么是闭包"}
  ],
  "stream": false
}'

Python 调用示例

import requests

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "glm4",
        "messages": [
            {"role": "user", "content": "介绍一下 MacBook Air M4 的性能特点"}
        ],
        "stream": False
    }
)

result = response.json()
print(result["message"]["content"])

使用 OpenAI SDK 调用

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Ollama 不需要真实 API Key，随便填即可
)

response = client.chat.completions.create(
    model="glm4",
    messages=[
        {"role": "user", "content": "写一首关于春天的诗"}
    ]
)

print(response.choices[0].message.content)

第五步：性能优化建议

创建自定义模型配置

你可以通过 Modelfile 自定义 GLM-4 的运行参数，创建适合自己使用场景的模型变体：

# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM glm4:9b-chat-q4_K_M

# 设置系统提示词
SYSTEM """
你是一个专业的中文AI助手，请用简洁准确的中文回答问题。
"""

# 调整生成参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
PARAMETER num_gpu 99
EOF

# 创建自定义模型
ollama create glm4-custom -f Modelfile

# 运行自定义模型
ollama run glm4-custom

关键优化参数说明

num_ctx：上下文窗口大小，默认 2048。增大可处理更长文本，但会增加内存占用。GLM-4 最大支持 128K
num_gpu：GPU 层数，设为 99 表示尽可能多地将层放到 GPU 上运行
temperature：温度参数，0 表示确定性输出，1 表示更随机创造性
top_p：核采样参数，控制生成内容的多样性

常见问题排查

1. 模型下载速度慢

Ollama 默认从官方服务器下载模型，国内用户可能会遇到速度较慢的问题。建议使用代理或选择在网络空闲时段下载。也可以尝试先手动下载 GGUF 文件再导入。

2. 内存不足导致崩溃

# 检查当前内存使用情况
vm_stat

# 如果内存不足，换用更小的量化版本
ollama rm glm4:9b-chat-q4_K_M
ollama run glm4:9b-chat-q3_K_M

# 减小上下文窗口大小
# 在 Modelfile 中设置 PARAMETER num_ctx 4096

3. 确认 Metal GPU 加速是否生效

# 查看 Ollama 运行日志
cat ~/.ollama/logs/server.log | grep -i metal

# 正常情况下应看到类似输出：
# ggml_metal_init: allocating
# ggml_metal_init: found device: Apple M4
# ggml_metal_init: loading library

4. 修改 Ollama 服务监听地址

默认情况下 Ollama 只监听 127.0.0.1，如果需要从局域网其他设备访问：

# 设置环境变量监听所有地址
launchctl setenv OLLAMA_HOST 0.0.0.0

# 重启 Ollama 服务
brew services restart ollama

搭配图形界面工具

如果你不喜欢命令行交互，可以搭配以下图形界面工具使用 Ollama：

Chatbox：跨平台 AI 对话客户端，支持 Ollama，界面美观
Open WebUI：功能丰富的 Web 界面，类似 ChatGPT 的体验
LobeChat：现代化聊天界面，支持插件和知识库
AnythingLLM：支持文档对话和知识库管理的桌面应用

总结

使用 Ollama 在 MacBook Air M4 上部署 GLM-4 模型是最简单的入门方案，只需两条命令即可完成安装和运行。M4 芯片的 Metal GPU 加速和统一内存架构使得 9B 参数的模型也能流畅运行。对于大多数用户来说，Q4_K_M 量化版本在质量和性能之间提供了最佳平衡。

在接下来的系列文章中，我们将介绍更进阶的部署方案：编译 llama.cpp 实现 Metal GPU 加速，以及使用 Apple MLX 框架获得更原生的 Apple Silicon 体验。敬请关注！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。