OpenClaw 语音功能:语音唤醒与对话模式

OpenClaw 支持语音交互,让你的 AI 助手可以听和说。通过语音唤醒和对话模式,你可以更自然地与 AI 助手交流。本文将详细介绍 OpenClaw 的语音功能。

语音功能概述

OpenClaw 提供两种语音交互方式:

  • 语音唤醒(Voice Wake):使用唤醒词激活助手,类似 "Hey Siri"
  • 对话模式(Talk Mode):持续监听语音输入,使用语音输出回复

语音唤醒(Voice Wake)

语音唤醒允许你通过说出唤醒词来激活 OpenClaw 助手。

支持平台

平台 支持状态
macOS ✅ 完全支持
iOS ✅ 完全支持
Android ✅ 完全支持
Linux ⚠️ 部分支持
Windows (WSL2) ⚠️ 部分支持

配置语音唤醒

编辑 ~/.openclaw/openclaw.json

{
  "nodes": {
    "voicewake": {
      "enabled": true,
      "wakeWord": "Hey Claw",
      "sensitivity": 0.5,
      "autoListen": true
    }
  }
}

配置参数

参数 说明 默认值
wakeWord 唤醒词 "Hey Claw"
sensitivity 灵敏度 (0.0 - 1.0) 0.5
autoListen 唤醒后自动开始监听 true
timeout 监听超时(秒) 30

自定义唤醒词

你可以自定义唤醒词:

{
  "nodes": {
    "voicewake": {
      "wakeWord": "Hey Assistant",
      "language": "zh-CN"
    }
  }
}

对话模式(Talk Mode)

对话模式启用语音输入和语音输出,实现完整的语音交互体验。

配置对话模式

{
  "nodes": {
    "talk": {
      "enabled": true,
      "sttProvider": "openai",
      "ttsProvider": "openai",
      "sttModel": "whisper-1",
      "ttsModel": "tts-1",
      "voice": "alloy",
      "language": "zh-CN"
    }
  }
}

语音识别(STT)提供商

提供商 模型 说明
OpenAI whisper-1 高质量,多语言支持
Google speech-to-text 实时性好
本地 Vosk, Whisper.cpp 隐私保护,离线使用

语音合成(TTS)提供商

提供商 声音选项 说明
OpenAI alloy, echo, fable, onyx, nova, shimmer 高质量,自然流畅
Google 多种声音 多语言支持
本地 多种引擎 离线使用

使用 OpenAI 语音服务

配置 OpenAI API

{
  "models": {
    "providers": {
      "openai": {
        "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx"
      }
    }
  },
  "nodes": {
    "talk": {
      "enabled": true,
      "sttProvider": "openai",
      "ttsProvider": "openai"
    }
  }
}

OpenAI Whisper 识别

Whisper 是 OpenAI 的语音识别模型,支持多种语言:

  • whisper-1:最新模型,多语言支持
  • 支持语言:中文、英文、日文等 90+ 语言

OpenAI TTS 合成

OpenAI TTS 提供高质量语音合成:

  • alloy:中性声音,适合通用场景
  • echo:男性声音,沉稳有力
  • fable:英式口音,讲故事风格
  • onyx:低沉声音,适合播报
  • nova:女性声音,清晰明亮
  • shimmer:温柔女性声音

本地语音引擎

Vosk(离线识别)

使用 Vosk 进行离线语音识别:

{
  "nodes": {
    "talk": {
      "enabled": true,
      "sttProvider": "vosk",
      "sttModelPath": "/path/to/vosk-model",
      "language": "zh-CN"
    }
  }
}

Whisper.cpp(离线识别)

使用 Whisper.cpp 进行离线语音识别:

{
  "nodes": {
    "talk": {
      "enabled": true,
      "sttProvider": "whisper-cpp",
      "modelSize": "base",
      "language": "zh"
    }
  }
}

多语言支持

OpenClaw 支持多种语言的语音交互:

语言 代码 支持情况
中文(简体) zh-CN ✅ 完全支持
中文(繁体) zh-TW ✅ 完全支持
英语(美国) en-US ✅ 完全支持
日语 ja-JP ✅ 完全支持
韩语 ko-KR ✅ 完全支持
法语 fr-FR ✅ 完全支持
德语 de-DE ✅ 完全支持

语音命令

你可以使用语音命令控制 OpenClaw:

语音命令 说明
"Hey Claw, 开始监听" 开始语音监听
"Hey Claw, 停止监听" 停止语音监听
"Hey Claw, 切换到中文" 切换语言
"Hey Claw, 更换声音" 更换语音合成声音
"Hey Claw, 关闭语音" 关闭语音交互

实际应用场景

场景 1:智能家居控制

通过语音控制智能家居设备:

用户: Hey Claw, 打开客厅的灯
AI: 好的,已经打开客厅的灯。

用户: Hey Claw, 将空调调到 24 度
AI: 已将空调调到 24 度。

场景 2:日程管理

通过语音管理日程:

用户: Hey Claw, 明天下午 3 点提醒我开会
AI: 已添加提醒:明天下午 3 点开会。

用户: Hey Claw, 查看今天的日程
AI: 今天的日程:...

场景 3:信息查询

通过语音查询信息:

用户: Hey Claw, 今天的天气怎么样
AI: 今天天气晴朗,气温 25 度。

用户: Hey Claw, 现在几点了
AI: 现在是下午 3 点 15 分。

性能优化

降低延迟

优化语音响应延迟:

{
  "nodes": {
    "talk": {
      "streaming": true,
      "latency": "low"
    }
  }
}

减少资源占用

选择更小的模型:

{
  "nodes": {
    "talk": {
      "sttModel": "whisper-tiny",
      "ttsModel": "tts-1-hd"
    }
  }
}

故障排查

语音识别不准确

  • 调整灵敏度:sensitivity
  • 选择更大的模型
  • 确保麦克风正常工作

语音合成质量差

  • 尝试不同的声音
  • 使用更高质量的模型
  • 检查音频输出设备

安全与隐私

  • 本地优先:使用本地引擎保护隐私
  • 数据加密:确保语音数据传输加密
  • 用户控制:用户可以随时关闭语音功能

总结

OpenClaw 的语音功能让你的 AI 助手更加自然和易用。通过语音唤醒和对话模式,你可以解放双手,与 AI 助手进行流畅的语音交互。

相关资源

发表回复

后才能评论