Merge pull request 'feat: Phone voice command interface (Issue #553)' (#554) from sl-android/issue-553-voice-command into main

2026-03-14 11:36:27 -04:00 · 2026-03-14 11:36:27 -04:00 · 80e3b23aec
commit 80e3b23aec
parent 59d164944d c249b2d74e
1 changed files with 448 additions and 0 deletions
--- a/phone/voice_commander.py
+++ b/phone/voice_commander.py
@ -0,0 +1,448 @@
+#!/usr/bin/env python3
+"""
+voice_commander.py — Phone-based voice command interface for SaltyBot (Issue #553)
+
+Runs on Android/Termux. Listens for the wake word 'Hey Salty', transcribes speech
+via OpenAI Whisper (local), parses robot commands, and publishes to ROS2 topic
+/saltybot/voice/cmd via WebSocket bridge to Jetson Orin. Confirms commands via
+termux-tts-speak.
+
+Supported commands:
+  go forward / go back / go left / go right
+  stop / halt
+  follow me
+  go home
+  look at me
+
+Usage:
+  python3 phone/voice_commander.py [OPTIONS]
+
+Options:
+  --host HOST         Jetson IP or hostname (default: 192.168.1.100)
+  --port PORT         rosbridge WebSocket port (default: 9090)
+  --model MODEL       Whisper model size: tiny/base/small (default: base)
+  --threshold FLOAT   Wake word match threshold 0.0-1.0 (default: 0.6)
+  --record-sec FLOAT  Seconds to record after wake word (default: 3.0)
+  --no-tts            Disable TTS confirmation
+  --debug             Verbose logging
+"""
+
+import argparse
+import json
+import logging
+import os
+import subprocess
+import sys
+import tempfile
+import threading
+import time
+from dataclasses import dataclass, field
+from enum import Enum
+from pathlib import Path
+from typing import Optional
+
+# ── Optional ROS2 ────────────────────────────────────────────────────────────
+try:
+    import rclpy
+    from rclpy.node import Node
+    from std_msgs.msg import String
+    ROS2_AVAILABLE = True
+except ImportError:
+    ROS2_AVAILABLE = False
+
+# ── Whisper (local STT) ───────────────────────────────────────────────────────
+try:
+    import whisper
+    WHISPER_AVAILABLE = True
+except ImportError:
+    WHISPER_AVAILABLE = False
+
+# ── WebSocket client ──────────────────────────────────────────────────────────
+try:
+    import websocket  # websocket-client
+    WS_AVAILABLE = True
+except ImportError:
+    WS_AVAILABLE = False
+
+# ── Constants ────────────────────────────────────────────────────────────────
+WAKE_WORD = "hey salty"
+VOICE_CMD_TOPIC = "/saltybot/voice/cmd"
+SAMPLE_RATE = 16000          # Hz required by Whisper
+WAKE_RECORD_SEC = 1.5        # short clip to check for wake word
+CMD_RECORD_SEC = 3.0         # command clip length after wake word
+RECONNECT_DELAY = 5.0        # seconds between WS reconnects
+CHUNK_BYTES = 4096
+
+
+class Command(Enum):
+    GO_FORWARD  = "go_forward"
+    GO_BACK     = "go_back"
+    GO_LEFT     = "go_left"
+    GO_RIGHT    = "go_right"
+    STOP        = "stop"
+    FOLLOW_ME   = "follow_me"
+    GO_HOME     = "go_home"
+    LOOK_AT_ME  = "look_at_me"
+    UNKNOWN     = "unknown"
+
+
+# ── Command parsing ───────────────────────────────────────────────────────────
+
+# Each entry: (list_of_trigger_phrases, Command)
+COMMAND_TABLE = [
+    (["go forward", "move forward", "forward", "ahead", "go straight"],    Command.GO_FORWARD),
+    (["go back", "go backward", "move back", "reverse", "back up"],        Command.GO_BACK),
+    (["go left",  "turn left",  "move left",  "left"],                     Command.GO_LEFT),
+    (["go right", "turn right", "move right", "right"],                    Command.GO_RIGHT),
+    (["stop", "halt", "freeze", "stay", "stand by"],                       Command.STOP),
+    (["follow me", "come here", "come with me", "follow"],                 Command.FOLLOW_ME),
+    (["go home", "return home", "return to base", "dock"],                 Command.GO_HOME),
+    (["look at me", "face me", "look here", "turn to me"],                 Command.LOOK_AT_ME),
+]
+
+TTS_CONFIRMATIONS = {
+    Command.GO_FORWARD: "Going forward",
+    Command.GO_BACK:    "Going back",
+    Command.GO_LEFT:    "Turning left",
+    Command.GO_RIGHT:   "Turning right",
+    Command.STOP:       "Stopping",
+    Command.FOLLOW_ME:  "Following you",
+    Command.GO_HOME:    "Heading home",
+    Command.LOOK_AT_ME: "Looking at you",
+    Command.UNKNOWN:    "Sorry, I didn't understand that",
+}
+
+
+def parse_command(text: str) -> Command:
+    """Match transcribed text against command table. Returns best match or UNKNOWN."""
+    text = text.lower().strip()
+    for phrases, cmd in COMMAND_TABLE:
+        for phrase in phrases:
+            if phrase in text:
+                return cmd
+    return Command.UNKNOWN
+
+
+def contains_wake_word(text: str, threshold: float = 0.6) -> bool:
+    """Check if transcribed text contains the wake word (fuzzy match)."""
+    text = text.lower().strip()
+    if WAKE_WORD in text:
+        return True
+    # Simple token overlap fallback
+    wake_tokens = set(WAKE_WORD.split())
+    text_tokens = set(text.split())
+    overlap = len(wake_tokens & text_tokens) / len(wake_tokens)
+    return overlap >= threshold
+
+
+# ── Audio capture via termux-microphone-record ────────────────────────────────
+
+def record_audio(duration_sec: float, output_path: str) -> bool:
+    """
+    Record audio using termux-microphone-record.
+    Saves a 16 kHz mono WAV to output_path.
+    Returns True on success.
+    """
+    # termux-microphone-record writes to a file; we start, wait, then stop.
+    try:
+        subprocess.run(
+            [
+                "termux-microphone-record",
+                "-l", str(int(duration_sec)),   # duration in seconds
+                "-r", str(SAMPLE_RATE),          # sample rate
+                "-c", "1",                        # mono
+                "-e", "aac",                      # encoding (aac is reliable on Android)
+                "-f", output_path,
+            ],
+            check=True,
+            timeout=duration_sec + 5,
+            capture_output=True,
+        )
+        return Path(output_path).exists()
+    except (subprocess.CalledProcessError, subprocess.TimeoutExpired, FileNotFoundError) as e:
+        logging.debug("termux-microphone-record error: %s", e)
+        return False
+
+
+def tts_speak(text: str) -> None:
+    """Speak text via termux-tts-speak (non-blocking)."""
+    try:
+        subprocess.Popen(
+            ["termux-tts-speak", text],
+            stdout=subprocess.DEVNULL,
+            stderr=subprocess.DEVNULL,
+        )
+    except FileNotFoundError:
+        logging.debug("termux-tts-speak not available")
+
+
+# ── Whisper STT ───────────────────────────────────────────────────────────────
+
+class WhisperSTT:
+    """Thin wrapper around local Whisper model."""
+
+    def __init__(self, model_size: str = "base"):
+        if not WHISPER_AVAILABLE:
+            raise RuntimeError(
+                "openai-whisper not installed. Run: pip install openai-whisper"
+            )
+        logging.info("Loading Whisper model '%s'...", model_size)
+        self.model = whisper.load_model(model_size)
+        logging.info("Whisper model loaded.")
+
+    def transcribe(self, audio_path: str) -> str:
+        """Transcribe audio file, return lowercase text."""
+        try:
+            result = self.model.transcribe(audio_path, language="en", fp16=False)
+            text = result.get("text", "").strip()
+            logging.debug("Whisper transcription: '%s'", text)
+            return text
+        except Exception as e:
+            logging.warning("Whisper transcription failed: %s", e)
+            return ""
+
+
+# ── Publisher backends ────────────────────────────────────────────────────────
+
+class ROS2Publisher:
+    """Publish voice commands as std_msgs/String on /saltybot/voice/cmd."""
+
+    def __init__(self):
+        rclpy.init()
+        self._node = Node("voice_commander")
+        self._pub = self._node.create_publisher(String, VOICE_CMD_TOPIC, 10)
+        self._spin_thread = threading.Thread(
+            target=lambda: rclpy.spin(self._node), daemon=True
+        )
+        self._spin_thread.start()
+
+    def publish(self, cmd: Command, raw_text: str) -> None:
+        payload = json.dumps({"command": cmd.value, "raw": raw_text, "ts": time.time()})
+        msg = String()
+        msg.data = payload
+        self._pub.publish(msg)
+        logging.info("ROS2 published: %s", payload)
+
+    def shutdown(self) -> None:
+        self._node.destroy_node()
+        rclpy.shutdown()
+
+
+class WebSocketPublisher:
+    """Publish voice commands over rosbridge WebSocket protocol."""
+
+    def __init__(self, host: str, port: int):
+        self.uri = f"ws://{host}:{port}"
+        self._ws: Optional[websocket.WebSocket] = None
+        self._lock = threading.Lock()
+        self._connect()
+
+    def _connect(self) -> None:
+        try:
+            ws = websocket.WebSocket()
+            ws.connect(self.uri, timeout=5)
+            with self._lock:
+                self._ws = ws
+            logging.info("WebSocket connected to %s", self.uri)
+        except Exception as e:
+            logging.warning("WebSocket connect failed (%s): %s", self.uri, e)
+            self._ws = None
+
+    def _ensure_connected(self) -> bool:
+        if self._ws is not None:
+            return True
+        self._connect()
+        return self._ws is not None
+
+    def publish(self, cmd: Command, raw_text: str) -> None:
+        payload = json.dumps({"command": cmd.value, "raw": raw_text, "ts": time.time()})
+        # rosbridge advertise + publish message
+        advertise_msg = json.dumps({
+            "op": "advertise",
+            "topic": VOICE_CMD_TOPIC,
+            "type": "std_msgs/String",
+        })
+        publish_msg = json.dumps({
+            "op": "publish",
+            "topic": VOICE_CMD_TOPIC,
+            "msg": {"data": payload},
+        })
+        with self._lock:
+            if not self._ensure_connected():
+                logging.error("Cannot publish — WebSocket not connected.")
+                return
+            try:
+                self._ws.send(advertise_msg)
+                self._ws.send(publish_msg)
+                logging.info("WS published: %s", payload)
+            except Exception as e:
+                logging.warning("WebSocket send failed: %s", e)
+                self._ws = None
+
+    def shutdown(self) -> None:
+        with self._lock:
+            if self._ws:
+                try:
+                    self._ws.close()
+                except Exception:
+                    pass
+                self._ws = None
+
+
+# ── Main listener loop ────────────────────────────────────────────────────────
+
+@dataclass
+class VoiceCommanderConfig:
+    host: str = "192.168.1.100"
+    port: int = 9090
+    model: str = "base"
+    wake_threshold: float = 0.6
+    record_sec: float = CMD_RECORD_SEC
+    no_tts: bool = False
+    debug: bool = False
+
+
+class VoiceCommander:
+    """
+    Main voice command loop.
+
+    State machine:
+      IDLE → record short clip → check for wake word
+      WAKE_DETECTED → record command clip → transcribe → parse → publish → confirm
+    """
+
+    def __init__(self, config: VoiceCommanderConfig):
+        self.cfg = config
+        self._running = False
+
+        # STT
+        self._stt = WhisperSTT(model_size=config.model)
+
+        # Publisher
+        if ROS2_AVAILABLE:
+            logging.info("Using ROS2 publisher backend.")
+            self._pub: ROS2Publisher | WebSocketPublisher = ROS2Publisher()
+        elif WS_AVAILABLE:
+            logging.info("Using WebSocket publisher backend (%s:%d).", config.host, config.port)
+            self._pub = WebSocketPublisher(config.host, config.port)
+        else:
+            raise RuntimeError(
+                "No publisher backend available. "
+                "Install rclpy (ROS2) or websocket-client: pip install websocket-client"
+            )
+
+    # ── lifecycle ──────────────────────────────────────────────────────────────
+
+    def start(self) -> None:
+        self._running = True
+        logging.info("Voice commander started. Listening for '%s'...", WAKE_WORD)
+        if not self.cfg.no_tts:
+            tts_speak("Hey Salty is ready")
+        try:
+            self._listen_loop()
+        except KeyboardInterrupt:
+            logging.info("Interrupted.")
+        finally:
+            self.stop()
+
+    def stop(self) -> None:
+        self._running = False
+        self._pub.shutdown()
+        logging.info("Voice commander stopped.")
+
+    # ── main loop ─────────────────────────────────────────────────────────────
+
+    def _listen_loop(self) -> None:
+        """Continuously poll for wake word then capture command."""
+        with tempfile.TemporaryDirectory() as tmpdir:
+            wake_audio = os.path.join(tmpdir, "wake.aac")
+            cmd_audio  = os.path.join(tmpdir, "cmd.aac")
+
+            while self._running:
+                # 1. Record short clip for wake word detection
+                logging.debug("Recording %.1fs for wake word...", WAKE_RECORD_SEC)
+                if not record_audio(WAKE_RECORD_SEC, wake_audio):
+                    logging.debug("Wake clip recording failed, retrying.")
+                    time.sleep(0.5)
+                    continue
+
+                wake_text = self._stt.transcribe(wake_audio)
+                if not wake_text:
+                    continue
+
+                if not contains_wake_word(wake_text, self.cfg.wake_threshold):
+                    logging.debug("No wake word in: '%s'", wake_text)
+                    continue
+
+                # 2. Wake word detected — acknowledge and record command
+                logging.info("Wake word detected! Recording command...")
+                if not self.cfg.no_tts:
+                    tts_speak("Yes?")
+
+                if not record_audio(self.cfg.record_sec, cmd_audio):
+                    logging.warning("Command clip recording failed.")
+                    continue
+
+                cmd_text = self._stt.transcribe(cmd_audio)
+                if not cmd_text:
+                    logging.info("No speech detected after wake word.")
+                    continue
+
+                # 3. Parse and dispatch
+                cmd = parse_command(cmd_text)
+                logging.info("Parsed command: %s (from '%s')", cmd.value, cmd_text)
+
+                self._pub.publish(cmd, cmd_text)
+
+                # 4. TTS confirmation
+                if not self.cfg.no_tts:
+                    tts_speak(TTS_CONFIRMATIONS[cmd])
+
+
+# ── Entry point ───────────────────────────────────────────────────────────────
+
+def main() -> None:
+    parser = argparse.ArgumentParser(
+        description="SaltyBot phone voice command interface (Issue #553)"
+    )
+    parser.add_argument("--host",      default="192.168.1.100",
+                        help="Jetson IP/hostname (default: 192.168.1.100)")
+    parser.add_argument("--port",      type=int, default=9090,
+                        help="rosbridge WebSocket port (default: 9090)")
+    parser.add_argument("--model",     default="base",
+                        choices=["tiny", "base", "small"],
+                        help="Whisper model size (default: base)")
+    parser.add_argument("--threshold", type=float, default=0.6,
+                        help="Wake word match threshold 0.0-1.0 (default: 0.6)")
+    parser.add_argument("--record-sec", type=float, default=CMD_RECORD_SEC,
+                        help=f"Seconds to record command (default: {CMD_RECORD_SEC})")
+    parser.add_argument("--no-tts",    action="store_true",
+                        help="Disable TTS confirmation")
+    parser.add_argument("--debug",     action="store_true",
+                        help="Verbose logging")
+    args = parser.parse_args()
+
+    logging.basicConfig(
+        level=logging.DEBUG if args.debug else logging.INFO,
+        format="%(asctime)s [%(levelname)s] %(message)s",
+    )
+
+    if not WHISPER_AVAILABLE:
+        logging.error("openai-whisper not installed. Run: pip install openai-whisper")
+        sys.exit(1)
+
+    cfg = VoiceCommanderConfig(
+        host=args.host,
+        port=args.port,
+        model=args.model,
+        wake_threshold=args.threshold,
+        record_sec=args.record_sec,
+        no_tts=args.no_tts,
+        debug=args.debug,
+    )
+
+    VoiceCommander(cfg).start()
+
+
+if __name__ == "__main__":
+    main()