- OpenClawはElevenLabs・OpenAI TTS・Edge TTSの3つのプロバイダーに対応
- Talk Modeで双方向音声会話が可能、Wake Wordでハンズフリー操作も
- Telegram/Discordのボイスメッセージ送受信や電話連携まで幅広く対応
「AIアシスタントと声で会話できたら便利なのに」「Discordのボイスチャンネルで質問に答えてくれるAIが欲しい」——OpenClawの音声機能を使えば、これらすべてが実現できます。
結論から言うと、OpenClawは2026年現在、最も音声機能が充実したAIエージェントプラットフォームです。テキスト→音声の変換(TTS)はもちろん、音声→テキストの変換(STT)、リアルタイム双方向会話、さらにはElevenLabs Agentsを活用した電話連携まで対応しています。
この記事はOpenClaw完全攻略シリーズのEp.18として、音声・TTS機能の設定から活用法までを実践的に解説します。
- OpenClawの音声機能の全体像とアーキテクチャ
- ElevenLabs・OpenAI TTS・Edge TTSの設定方法と比較
- Talk Modeの設定と活用テクニック
- Telegram/Discordでのボイスメッセージ対応方法
OpenClawの音声機能の全体像
STT(音声認識)とTTS(音声合成)の仕組み
OpenClawの音声機能は、**STT(Speech-to-Text)とTTS(Text-to-Speech)**の2つの要素で構成されています。
音声入力 → [STT] → テキスト → [LLM処理] → テキスト → [TTS] → 音声出力
この双方向パイプラインにより、ユーザーは音声でAIアシスタントと会話し、AIの応答も音声で受け取ることができます。
| 機能 | 対応プロバイダー | 主な用途 |
|---|---|---|
| STT | Whisper (OpenAI), Deepgram | 音声メッセージの文字起こし |
| TTS | ElevenLabs, OpenAI TTS, Edge TTS | テキスト応答の音声化 |
| リアルタイム会話 | OpenAI Realtime API | Talk Modeでの双方向会話 |
対応プロバイダー一覧(ElevenLabs・OpenAI・Edge TTS)
OpenClawは複数のTTSプロバイダーに対応しており、用途とコストに応じて最適なものを選べます。

| プロバイダー | 音質 | 速度 | コスト | ボイスクローン |
|---|---|---|---|---|
| ElevenLabs | ★★★★★ | ★★★★☆ | 有料($5〜/月) | ○ |
| OpenAI TTS | ★★★★☆ | ★★★★★ | 有料($15/1M文字) | × |
| Edge TTS | ★★★☆☆ | ★★★★★ | 無料 | × |
TTS設定とプロバイダー選択
ElevenLabsの設定(APIキー・ボイス選択・クローン)
ElevenLabsは最高品質の音声合成を提供するプロバイダーです。自然な抑揚、感情表現、多言語対応が特徴です。
設定手順:
- ElevenLabsでアカウントを作成し、APIキーを取得
- OpenClawの設定ファイルに追記
{
"tts": {
"provider": "elevenlabs",
"apiKey": "your-api-key",
"voiceId": "voice-id-here",
"model": "eleven_multilingual_v2"
}
}
ボイスクローン機能:
ElevenLabsの強力な機能の一つがボイスクローンです。数分の音声サンプルから特定の人物の声を再現できます。
- Instant Voice Cloning: 30秒〜3分の音声サンプルで即座にクローン作成
- Professional Voice Cloning: 高品質なクローンを作成(有料プラン)
OpenClaw入門ガイドで初期設定済みであれば、TTSの追加設定は数分で完了します。
OpenAI TTSの設定と特徴
OpenAI TTSは、高速な応答と安定した品質が特徴です。特に英語の自然さではトップクラスのパフォーマンスを発揮します。
{
"tts": {
"provider": "openai",
"apiKey": "your-openai-api-key",
"voice": "nova",
"model": "tts-1-hd"
}
}
利用可能なボイス:
| ボイス名 | 特徴 | 推奨用途 |
|---|---|---|
| alloy | ニュートラル | ビジネス通知 |
| echo | 低めの声 | ナレーション |
| fable | 柔らかい声 | ストーリーテリング |
| nova | 明るい声 | カジュアルな会話 |
| onyx | 深い声 | プレゼンテーション |
| shimmer | 高めの声 | アシスタント応答 |
Edge TTS(無料オプション)の活用
Edge TTSはMicrosoft Edgeのブラウザ音声合成エンジンをAPIとして利用するもので、完全無料で使えます。
{
"tts": {
"provider": "edge",
"voice": "ja-JP-NanamiNeural"
}
}
日本語対応ボイスも複数用意されています。
ja-JP-NanamiNeural:女性、自然な発音ja-JP-KeitaNeural:男性、落ち着いたトーン
音質はElevenLabsやOpenAI TTSには劣りますが、コストゼロで運用できるのが最大のメリットです。個人利用やプロトタイピングに最適です。
Talk Modeで双方向音声会話
デスクトップアプリのセットアップ
OpenClawのTalk Mode(音声会話モード)を使えば、マイクとスピーカーを使ったリアルタイムの音声会話が可能です。
# Talk Modeの起動
openclaw talk
# または特定のエージェントで起動
openclaw talk --agent my-assistant
Talk Modeでは、OpenAI Realtime APIまたはWhisper + TTSの組み合わせで双方向会話を実現します。
Wake Wordによるハンズフリー起動
Wake Word機能を設定すると、特定のフレーズを検出してAIアシスタントが応答を開始します。
{
"talk": {
"wakeWord": "hey assistant",
"silenceTimeout": 3000,
"autoStart": true
}
}
設定すると、「Hey Assistant」と呼びかけるだけでAIが応答モードに入ります。料理中や作業中でもハンズフリーでAIに質問できるので非常に便利です。
macOS / iOS / Androidでの利用方法
Talk Modeはマルチプラットフォーム対応です。
- macOS: OpenClawデスクトップアプリから直接起動
- iOS: Siriショートカット連携で音声トリガー → OpenClawにテキスト送信 → TTS応答
- Android: Tasker連携で同様のワークフローを構築可能
OpenClaw Slack/Discord連携と組み合わせることで、モバイルからも音声操作が可能になります。
メッセージングチャネルでの音声応答
Telegram / Discordでのボイスメッセージ送受信
OpenClawは、TelegramやDiscordのボイスメッセージに対応しています。
受信(音声→テキスト):
ユーザーがボイスメッセージを送ると、OpenClawは自動的にSTTで文字起こしし、テキストとして処理します。
送信(テキスト→音声):
OpenClawの応答をボイスメッセージとして送信できます。設定で自動音声応答を有効にすることも可能です。
{
"telegram": {
"voiceResponse": true,
"voiceProvider": "elevenlabs"
}
}
Discord Voice Channelでのリアルタイム対話
OpenClawはDiscord Voice Channelに参加してリアルタイムで音声対話する機能も備えています。
チーム開発の場面で、ボイスチャンネルにOpenClawを呼んで技術的な質問をする、という使い方が可能です。
# Discordボイスチャンネルに参加
openclaw discord join-voice --channel "開発チーム"
音声コマンドのスラッシュコマンド変換
音声で送られたメッセージ内にスラッシュコマンド(/status、/weatherなど)が含まれていた場合、OpenClawは自動的にコマンドとして処理します。
「スラッシュステータス」と音声で言えば、/statusコマンドが実行される仕組みです。
電話連携とビジネス活用
ElevenLabs Agents経由での電話制御
ElevenLabsが提供するConversational AI Agentsを活用すると、OpenClawが電話に対応できるようになります。
活用例:
- 営業時間外の問い合わせ対応: AIが一次対応し、重要な内容は人間にエスカレーション
- 予約受付: カレンダー連携で空き枠を確認し、予約を自動確定
- 技術サポート: FAQベースの問い合わせ自動応答
OpenClaw 通知自動化と組み合わせれば、電話対応の結果をSlackやメールで自動通知することも可能です。
Twilio / Telnyx統合のセットアップ
TwilioやTelnyxのようなCPaaS(Communications Platform as a Service)と連携することで、OpenClawを電話システムに統合できます。
{
"phone": {
"provider": "twilio",
"accountSid": "your-account-sid",
"authToken": "your-auth-token",
"phoneNumber": "+81-XX-XXXX-XXXX"
}
}
SES企業の社内業務では、以下のような活用が考えられます。
- エンジニアの稼働確認: 電話で空き状況を自動確認
- 面談日程の調整: カレンダーと連携した自動日程調整
- 緊急連絡の自動発信: システム障害時に担当者へ自動架電
OpenClaw ワークフロー自動化と連携すれば、電話を起点としたワークフローの自動化が実現します。
まとめ:音声でAIアシスタントを最大活用するTips
OpenClawの音声機能は、テキストベースのAIアシスタントを超えた新しい体験を提供します。
| 用途 | 推奨設定 |
|---|---|
| 個人利用(コスト重視) | Edge TTS + Whisper |
| 高品質な音声応答 | ElevenLabs + カスタムボイス |
| ハンズフリー操作 | Talk Mode + Wake Word |
| チーム利用 | Discord Voice Channel連携 |
| ビジネス活用 | Twilio/Telnyx電話連携 |
音声機能を活用することで、AIアシスタントとのインタラクションがよりシームレスになり、作業効率が大幅に向上します。まずはEdge TTS(無料)から始めて、ニーズに合わせてElevenLabsやOpenAI TTSにアップグレードしていくのがおすすめです。
参考: OpenClaw公式ドキュメント「Voice & TTS Configuration Guide」