Merge pull request 'feat: Piper TTS service (Issue #421)' (#425) from sl-mechanical/issue-421-tts-service into main

2026-03-04 23:59:11 -05:00 · 2026-03-04 23:59:11 -05:00 · eda5154650
commit eda5154650
parent a06821a8c8 9e3e586fca
9 changed files with 436 additions and 0 deletions
--- a/jetson/ros2_ws/src/saltybot_tts_service/config/tts_service_params.yaml
+++ b/jetson/ros2_ws/src/saltybot_tts_service/config/tts_service_params.yaml
@ -0,0 +1,11 @@
 /**:
  ros__parameters:
    tts_service:
      voice_model_path: "/models/piper/en_US-lessac-medium.onnx"
      sample_rate: 22050
      speed: 1.0              # Normal playback speed
      pitch: 1.0              # Normal pitch
      volume: 0.8             # 0–1.0 (safety: reduced from 1.0)
      audio_device: "Jabra"   # ALSA device name or alias
      queue_max_size: 16      # Max queued TTS requests
      autoplay: true          # Auto-play TTS on startup
--- a/jetson/ros2_ws/src/saltybot_tts_service/launch/tts_service.launch.py
+++ b/jetson/ros2_ws/src/saltybot_tts_service/launch/tts_service.launch.py
@ -0,0 +1,47 @@
 from launch import LaunchDescription
 from launch_ros.actions import Node
 from launch.actions import DeclareLaunchArgument
 from launch.substitutions import LaunchConfiguration
 import os
 from ament_index_python.packages import get_package_share_directory
 def generate_launch_description():
    """Launch the TTS service node."""
    package_dir = get_package_share_directory("saltybot_tts_service")
    config_path = os.path.join(package_dir, "config", "tts_service_params.yaml")
    # Declare launch arguments
    voice_model_arg = DeclareLaunchArgument(
        "voice_model",
        default_value="/models/piper/en_US-lessac-medium.onnx",
        description="Path to Piper voice model (ONNX)",
    )
    audio_device_arg = DeclareLaunchArgument(
        "audio_device",
        default_value="Jabra",
        description="ALSA audio device name or alias",
    )
    # TTS service node
    tts_node = Node(
        package="saltybot_tts_service",
        executable="tts_service_node",
        name="tts_service",
        parameters=[
            config_path,
            {"voice_model_path": LaunchConfiguration("voice_model")},
            {"audio_device": LaunchConfiguration("audio_device")},
        ],
        respawn=False,
        output="screen",
    )
    return LaunchDescription(
        [
            voice_model_arg,
            audio_device_arg,
            tts_node,
        ]
    )
--- a/jetson/ros2_ws/src/saltybot_tts_service/package.xml
+++ b/jetson/ros2_ws/src/saltybot_tts_service/package.xml
@ -0,0 +1,24 @@
 <?xml version="1.0"?>
 <?xml-model href="http://download.ros.org/schema/package_format3.xsd" schematypens="http://www.w3.org/2001/XMLSchema"?>
 <package format="3">
  <name>saltybot_tts_service</name>
  <version>0.1.0</version>
  <description>Central TTS (text-to-speech) service using Piper with action server, queue management, and Jabra audio output.</description>
  <maintainer email="seb@vayrette.com">seb</maintainer>
  <license>Apache-2.0</license>
  <buildtool_depend>ament_python</buildtool_depend>
  <depend>rclpy</depend>
  <depend>std_msgs</depend>
  <depend>rclcpp_action</depend>
  <test_depend>ament_copyright</test_depend>
  <test_depend>ament_flake8</test_depend>
  <test_depend>ament_pep257</test_depend>
  <test_depend>python3-pytest</test_depend>
  <export>
    <build_type>ament_python</build_type>
  </export>
 </package>
--- a/jetson/ros2_ws/src/saltybot_tts_service/resource/saltybot_tts_service
+++ b/jetson/ros2_ws/src/saltybot_tts_service/resource/saltybot_tts_service
--- a/jetson/ros2_ws/src/saltybot_tts_service/saltybot_tts_service/init.py
+++ b/jetson/ros2_ws/src/saltybot_tts_service/saltybot_tts_service/init.py
--- a/jetson/ros2_ws/src/saltybot_tts_service/saltybot_tts_service/tts_service_node.py
+++ b/jetson/ros2_ws/src/saltybot_tts_service/saltybot_tts_service/tts_service_node.py
@ -0,0 +1,287 @@
 """
 tts_service_node.py — Central TTS service using Piper with queue management and Jabra output (Issue #421).
 Overview
 ────────
 Provides a centralized text-to-speech service using Piper (offline ONNX speech synthesis).
 Manages a priority queue with interrupt capability, outputs to Jabra speaker via ALSA/PulseAudio,
 and publishes TTS state updates.
 Subscribes
 ──────────
  /saltybot/tts_request    std_msgs/String   — text to synthesize (priority 0, deferrable)
 Services (Future)
 ─────────────────
  /saltybot/tts_speak      (action server)   — request with priority/interrupt (WIP)
 Publishers
 ──────────
  /saltybot/tts_state      std_msgs/String   — current state ("idle", "synthesizing", "playing")
 Parameters
 ──────────
  voice_model_path         str    '/models/piper/en_US-lessac-medium.onnx'
  sample_rate              int    22050
  speed                    float  1.0       (1.0 = normal, <1 = slower, >1 = faster)
  pitch                    float  1.0
  volume                   float  1.0       (0–1.0)
  audio_device             str    'Jabra'   (ALSA device hint or empty for default)
  queue_max_size           int    16
  autoplay                 bool   True
 """
 from __future__ import annotations
 import queue
 import threading
 import time
 from typing import Optional
 import rclpy
 from rclpy.node import Node
 from rclpy.qos import QoSProfile
 from std_msgs.msg import String
 class TtsQueueItem:
    """Item in the TTS priority queue."""
    def __init__(self, text: str, priority: int = 0, interrupt: bool = False):
        self.text = text.strip()
        self.priority = priority  # 0 = normal, >0 = high priority
        self.interrupt = interrupt  # True = interrupt current playback
        self.timestamp = time.time()
    def __lt__(self, other):
        """Sort by priority (desc), then by timestamp (asc)."""
        if self.priority != other.priority:
            return self.priority > other.priority
        return self.timestamp < other.timestamp
 class TtsServiceNode(Node):
    """Central TTS service node using Piper with priority queue and Jabra output."""
    def __init__(self):
        super().__init__("tts_service")
        # Parameters
        self.declare_parameter("voice_model_path", "/models/piper/en_US-lessac-medium.onnx")
        self.declare_parameter("sample_rate", 22050)
        self.declare_parameter("speed", 1.0)
        self.declare_parameter("pitch", 1.0)
        self.declare_parameter("volume", 1.0)
        self.declare_parameter("audio_device", "Jabra")
        self.declare_parameter("queue_max_size", 16)
        self.declare_parameter("autoplay", True)
        self._model_path = self.get_parameter("voice_model_path").value
        self._sample_rate = self.get_parameter("sample_rate").value
        self._speed = self.get_parameter("speed").value
        self._pitch = self.get_parameter("pitch").value
        self._volume = self.get_parameter("volume").value
        self._audio_device = self.get_parameter("audio_device").value or "default"
        self._queue_max = self.get_parameter("queue_max_size").value
        self._autoplay = self.get_parameter("autoplay").value
        # Voice model (loaded on startup)
        self._voice = None
        self._voice_lock = threading.Lock()
        self._load_voice_model()
        # Queue and playback state
        self._tts_queue = queue.PriorityQueue(maxsize=self._queue_max)
        self._state = "idle"  # "idle", "synthesizing", "playing"
        self._state_lock = threading.Lock()
        self._current_interrupt = False
        # QoS for publishers/subscribers
        qos = QoSProfile(depth=5)
        # Subscriptions
        self.create_subscription(
            String,
            "/saltybot/tts_request",
            self._on_tts_request,
            qos,
        )
        # Publishers
        self._state_pub = self.create_publisher(String, "/saltybot/tts_state", qos)
        # Worker threads
        if self._autoplay and self._voice is not None:
            self._worker_thread = threading.Thread(
                target=self._playback_worker, daemon=True, name="tts-worker"
            )
            self._worker_thread.start()
        self.get_logger().info(
            f"TtsServiceNode ready  voice={self._model_path}  "
            f"device={self._audio_device}  autoplay={self._autoplay}"
        )
    # ── Voice Model Loading ────────────────────────────────────────────────────
    def _load_voice_model(self) -> None:
        """Preload Piper voice model on startup."""
        try:
            from piper import PiperVoice
            with self._voice_lock:
                if self._voice is not None:
                    return
            self.get_logger().info(f"Loading Piper model: {self._model_path}")
            voice = PiperVoice.load(self._model_path)
            # Test synthesis
            list(voice.synthesize_stream_raw("Hello."))
            with self._voice_lock:
                self._voice = voice
            self.get_logger().info("✓ Piper model preloaded successfully")
        except Exception as e:
            self.get_logger().error(f"✗ Failed to load Piper model: {e}")
            self._voice = None
    # ── Subscriptions ──────────────────────────────────────────────────────────
    def _on_tts_request(self, msg: String) -> None:
        """Handle incoming TTS requests."""
        text = msg.data.strip()
        if not text:
            return
        try:
            item = TtsQueueItem(text, priority=0, interrupt=False)
            self._tts_queue.put_nowait(item)
            self.get_logger().debug(f"Queued TTS: {text[:50]}...")
        except queue.Full:
            self.get_logger().warn("TTS queue full, dropping request")
    # ── Playback Worker ────────────────────────────────────────────────────────
    def _playback_worker(self) -> None:
        """Worker thread for TTS synthesis and playback."""
        while rclpy.ok():
            try:
                # Get next item from priority queue
                item = self._tts_queue.get(timeout=1.0)
                # Check for interrupt
                with self._state_lock:
                    if self._current_interrupt:
                        self.get_logger().info("Interrupted playback")
                        self._current_interrupt = False
                        continue
                self._synthesize_and_play(item)
            except queue.Empty:
                continue
            except Exception as e:
                self.get_logger().error(f"Playback worker error: {e}")
    def _synthesize_and_play(self, item: TtsQueueItem) -> None:
        """Synthesize text and play audio via ALSA/PulseAudio."""
        with self._state_lock:
            self._state = "synthesizing"
        self._publish_state()
        try:
            with self._voice_lock:
                voice = self._voice
                if voice is None:
                    self.get_logger().error("Voice model not loaded")
                    return
            # Synthesize audio
            audio_chunks = list(
                voice.synthesize_stream_raw(
                    item.text,
                    speaker=None,
                )
            )
            # Combine audio chunks into single buffer
            import numpy as np
            audio_data = b"".join(audio_chunks)
            audio_array = np.frombuffer(audio_data, dtype=np.int16)
            # Apply volume scaling
            audio_array = (audio_array * self._volume).astype(np.int16)
            with self._state_lock:
                self._state = "playing"
            self._publish_state()
            # Play audio via ALSA/PulseAudio
            self._play_audio(audio_array)
            self.get_logger().info(f"✓ Played: {item.text[:50]}...")
        except Exception as e:
            self.get_logger().error(f"Synthesis/playback error: {e}")
        finally:
            with self._state_lock:
                self._state = "idle"
            self._publish_state()
    def _play_audio(self, audio_array) -> None:
        """Play audio buffer via ALSA/PulseAudio to Jabra device."""
        try:
            import subprocess
            import numpy as np
            # Convert audio to WAV format and pipe to aplay
            import io
            import wave
            wav_buffer = io.BytesIO()
            with wave.open(wav_buffer, "wb") as wav:
                wav.setnchannels(1)
                wav.setsampwidth(2)
                wav.setframerate(self._sample_rate)
                wav.writeframes(audio_array.tobytes())
            wav_data = wav_buffer.getvalue()
            # Attempt to play via ALSA with Jabra device hint
            cmd = ["aplay", "-D", self._audio_device, "-q"]
            proc = subprocess.Popen(cmd, stdin=subprocess.PIPE, stderr=subprocess.PIPE)
            proc.communicate(input=wav_data, timeout=30)
        except FileNotFoundError:
            self.get_logger().warn("aplay not found; audio playback unavailable")
        except Exception as e:
            self.get_logger().error(f"Audio playback error: {e}")
    # ── State Publishing ───────────────────────────────────────────────────────
    def _publish_state(self) -> None:
        """Publish current TTS state."""
        with self._state_lock:
            state = self._state
        msg = String()
        msg.data = state
        self._state_pub.publish(msg)
 def main(args=None):
    rclpy.init(args=args)
    node = TtsServiceNode()
    try:
        rclpy.spin(node)
    except KeyboardInterrupt:
        pass
    finally:
        node.destroy_node()
        rclpy.try_shutdown()
 if __name__ == "__main__":
    main()
--- a/jetson/ros2_ws/src/saltybot_tts_service/setup.cfg
+++ b/jetson/ros2_ws/src/saltybot_tts_service/setup.cfg
@ -0,0 +1,5 @@
 [develop]
 script_dir=$base/lib/saltybot_tts_service
 [install]
 script_dir=$base/lib/saltybot_tts_service
--- a/jetson/ros2_ws/src/saltybot_tts_service/setup.py
+++ b/jetson/ros2_ws/src/saltybot_tts_service/setup.py
@ -0,0 +1,22 @@
 from setuptools import setup, find_packages
 setup(
    name='saltybot_tts_service',
    version='0.1.0',
    packages=find_packages(),
    data_files=[
        ('share/ament_index/resource_index/packages', ['resource/saltybot_tts_service']),
        ('share/saltybot_tts_service', ['package.xml']),
    ],
    install_requires=['setuptools'],
    zip_safe=True,
    author='seb',
    author_email='seb@vayrette.com',
    description='Central TTS service with Piper, action server, and queue management',
    license='Apache-2.0',
    entry_points={
        'console_scripts': [
            'tts_service_node = saltybot_tts_service.tts_service_node:main',
        ],
    },
 )
--- a/jetson/ros2_ws/src/saltybot_tts_service/test/test_tts_service.py
+++ b/jetson/ros2_ws/src/saltybot_tts_service/test/test_tts_service.py
@ -0,0 +1,40 @@
 """Unit tests for TTS service node."""
 import unittest
 from saltybot_tts_service.tts_service_node import TtsQueueItem
 class TestTtsQueueItem(unittest.TestCase):
    """Test TtsQueueItem priority and sorting."""
    def test_queue_item_creation(self):
        """Test creating a TTS queue item."""
        item = TtsQueueItem("Hello world", priority=0)
        self.assertEqual(item.text, "Hello world")
        self.assertEqual(item.priority, 0)
        self.assertFalse(item.interrupt)
    def test_queue_item_priority_sorting(self):
        """Test that items sort by priority (descending) then timestamp (ascending)."""
        import time
        item1 = TtsQueueItem("Low priority", priority=0)
        time.sleep(0.01)  # Ensure different timestamp
        item2 = TtsQueueItem("High priority", priority=1)
        # item2 should be < item1 in priority queue (higher priority = lower value)
        self.assertTrue(item2 < item1)
    def test_queue_item_strips_whitespace(self):
        """Test that text is stripped of whitespace."""
        item = TtsQueueItem("  Hello world  ")
        self.assertEqual(item.text, "Hello world")
    def test_queue_item_interrupt_flag(self):
        """Test interrupt flag."""
        item = TtsQueueItem("Interrupt me", interrupt=True)
        self.assertTrue(item.interrupt)
 if __name__ == "__main__":
    unittest.main()