2026-03-04 13:30:16 -05:00
2 changed files with 428 additions and 0 deletions
--- a/jetson/ros2_ws/src/saltybot_social/models/hey_salty_synthetic.npy
+++ b/jetson/ros2_ws/src/saltybot_social/models/hey_salty_synthetic.npy
--- a/jetson/ros2_ws/src/saltybot_social_enrollment/saltybot_social_enrollment/social_enrollment_node.py
+++ b/jetson/ros2_ws/src/saltybot_social_enrollment/saltybot_social_enrollment/social_enrollment_node.py
@ -0,0 +1,428 @@
+#!/usr/bin/env python3
+"""social_enrollment_node.py -- First Encounter enrollment with face + voice biometrics.
+
+Triggered by FirstEncounterOrchestrator when state transitions to ENROLL.
+Captures:
+  - Face embedding (via SCRFD + ArcFace from RealSense RGB)
+  - Voice speaker embedding (via ECAPA-TDNN)
+  - RealSense RGB photo snapshot
+  - Metadata (name, context, timestamp)
+
+Stores to:
+  - /home/seb/encounter-queue/{person_id}_{timestamp}.json (for offline cloud sync)
+  - Local speaker_embeddings.json (for immediate voice recognition)
+  - Face gallery (via EnrollPerson service to face_recognizer)
+
+Subscribes to:
+  /social/orchestrator/state (JSON: state, person_id, name, context)
+  /social/faces/embeddings (FaceEmbeddingArray with ArcFace embeddings)
+  /camera/color/image_raw (RealSense RGB for snapshots)
+  /social/speech/speaker_embedding (speaker embedding from ECAPA-TDNN)
+
+Publishes:
+  /social/enrollment/status (JSON: person_id, status, person_db_id)
+"""
+
+import json
+import time
+import threading
+import numpy as np
+from pathlib import Path
+from dataclasses import dataclass, asdict
+from typing import Optional, Dict
+from datetime import datetime
+
+import rclpy
+from rclpy.node import Node
+from rclpy.qos import QoSProfile, ReliabilityPolicy, DurabilityPolicy
+from std_msgs.msg import String
+from sensor_msgs.msg import Image
+import cv2
+from cv_bridge import CvBridge
+
+from saltybot_social_msgs.msg import FaceEmbeddingArray
+from saltybot_social_msgs.srv import EnrollPerson
+from saltybot_social_enrollment.person_db import PersonDB
+
+
+@dataclass
+class EnrollmentRequest:
+    """Enrollment request from first encounter."""
+    person_id: str
+    name: str
+    context: Optional[str] = None
+    timestamp: float = 0.0
+    face_embedding: Optional[np.ndarray] = None
+    voice_embedding: Optional[np.ndarray] = None
+    photo_data: Optional[bytes] = None  # JPEG encoded
+
+
+class SocialEnrollmentNode(Node):
+    """Face + voice enrollment during first encounter."""
+
+    def __init__(self):
+        super().__init__('social_enrollment')
+
+        # Parameters
+        self.declare_parameter('encounter_queue_dir', '/home/seb/encounter-queue')
+        self.declare_parameter('speaker_embeddings_path', '/home/seb/speaker_embeddings.json')
+        self.declare_parameter('photos_dir', '/home/seb/encounter-photos')
+        self.declare_parameter('face_recognizer_service', '/social/face_recognizer/enroll')
+        self.declare_parameter('embedding_dim_face', 512)
+        self.declare_parameter('embedding_dim_voice', 192)
+
+        self.queue_dir = Path(self.get_parameter('encounter_queue_dir').value)
+        self.speaker_embeddings_path = Path(self.get_parameter('speaker_embeddings_path').value)
+        self.photos_dir = Path(self.get_parameter('photos_dir').value)
+        self.face_service_name = self.get_parameter('face_recognizer_service').value
+        self.face_emb_dim = self.get_parameter('embedding_dim_face').value
+        self.voice_emb_dim = self.get_parameter('embedding_dim_voice').value
+
+        # Create directories
+        self.queue_dir.mkdir(parents=True, exist_ok=True)
+        self.photos_dir.mkdir(parents=True, exist_ok=True)
+
+        # Initialize PersonDB
+        self._db = PersonDB(str(self.queue_dir.parent / 'persons.db'))
+        self.get_logger().info(f'PersonDB initialized')
+
+        # CV bridge for image conversion
+        self._bridge = CvBridge()
+
+        # State
+        self._enrollment_request: Optional[EnrollmentRequest] = None
+        self._lock = threading.Lock()
+        self._latest_face_embedding: Optional[np.ndarray] = None
+        self._latest_voice_embedding: Optional[np.ndarray] = None
+        self._latest_image: Optional[Image] = None
+        self._face_embedding_timestamp = 0.0
+        self._voice_embedding_timestamp = 0.0
+        self._image_timestamp = 0.0
+
+        # QoS profiles
+        best_effort_qos = QoSProfile(
+            depth=10,
+            reliability=ReliabilityPolicy.BEST_EFFORT,
+            durability=DurabilityPolicy.VOLATILE,
+        )
+        reliable_qos = QoSProfile(
+            depth=1,
+            reliability=ReliabilityPolicy.RELIABLE,
+            durability=DurabilityPolicy.VOLATILE,
+        )
+
+        # Subscriptions
+        self.create_subscription(
+            String, '/social/orchestrator/state',
+            self._on_orchestrator_state, reliable_qos
+        )
+        self.create_subscription(
+            FaceEmbeddingArray, '/social/faces/embeddings',
+            self._on_face_embeddings, reliable_qos
+        )
+        self.create_subscription(
+            Image, '/camera/color/image_raw',
+            self._on_camera_image, best_effort_qos
+        )
+        self.create_subscription(
+            String, '/social/speech/speaker_embedding',
+            self._on_speaker_embedding, best_effort_qos
+        )
+
+        # Service clients
+        self._enroll_face_client = self.create_client(
+            EnrollPerson, self.face_service_name
+        )
+
+        # Publishers
+        self._pub_status = self.create_publisher(
+            String, '/social/enrollment/status', reliable_qos
+        )
+
+        # Timer for enrollment timeout handling
+        self.create_timer(0.5, self._enrollment_timeout_check)
+
+        self.get_logger().info(
+            f'Social enrollment node initialized. '
+            f'Queue: {self.queue_dir}, '
+            f'Speakers: {self.speaker_embeddings_path}'
+        )
+
+    def _on_orchestrator_state(self, msg: String) -> None:
+        """Handle orchestrator state transitions."""
+        try:
+            state_data = json.loads(msg.data)
+            state = state_data.get('state')
+
+            if state == 'ENROLL':
+                person_id = state_data.get('person_id')
+                name = state_data.get('name')
+                context = state_data.get('context')
+
+                with self._lock:
+                    self._enrollment_request = EnrollmentRequest(
+                        person_id=person_id,
+                        name=name,
+                        context=context,
+                        timestamp=time.time()
+                    )
+                    self._face_embedding_timestamp = 0.0
+                    self._voice_embedding_timestamp = 0.0
+                    self._image_timestamp = 0.0
+
+                self.get_logger().info(
+                    f'Enrollment triggered: {name} (ID: {person_id})'
+                )
+
+        except json.JSONDecodeError as e:
+            self.get_logger().error(f'Invalid orchestrator state JSON: {e}')
+
+    def _on_face_embeddings(self, msg: FaceEmbeddingArray) -> None:
+        """Capture face embedding from social face recognizer."""
+        if not msg.embeddings:
+            return
+
+        with self._lock:
+            if self._enrollment_request is None:
+                return
+
+            # Take first detected face embedding
+            face_emb = msg.embeddings[0]
+            emb_array = np.frombuffer(face_emb.embedding, dtype=np.float32)
+
+            if len(emb_array) == self.face_emb_dim:
+                self._latest_face_embedding = emb_array.copy()
+                self._face_embedding_timestamp = time.time()
+                self.get_logger().debug(
+                    f'Face embedding captured: {face_emb.track_id}'
+                )
+
+    def _on_speaker_embedding(self, msg: String) -> None:
+        """Capture voice speaker embedding from ECAPA-TDNN."""
+        try:
+            emb_data = json.loads(msg.data)
+            emb_values = emb_data.get('embedding')
+
+            if emb_values:
+                with self._lock:
+                    if self._enrollment_request is None:
+                        return
+
+                    emb_array = np.array(emb_values, dtype=np.float32)
+                    if len(emb_array) == self.voice_emb_dim:
+                        self._latest_voice_embedding = emb_array.copy()
+                        self._voice_embedding_timestamp = time.time()
+                        self.get_logger().debug(
+                            f'Voice embedding captured: {len(emb_array)} dims'
+                        )
+
+        except json.JSONDecodeError as e:
+            self.get_logger().error(f'Invalid speaker embedding JSON: {e}')
+
+    def _on_camera_image(self, msg: Image) -> None:
+        """Capture RealSense RGB image for enrollment photo."""
+        try:
+            with self._lock:
+                if self._enrollment_request is None:
+                    return
+
+                # Store latest image
+                self._latest_image = msg
+                self._image_timestamp = time.time()
+
+        except Exception as e:
+            self.get_logger().error(f'Error capturing camera image: {e}')
+
+    def _enrollment_timeout_check(self) -> None:
+        """Check if enrollment data is ready or timed out."""
+        with self._lock:
+            if self._enrollment_request is None:
+                return
+
+            now = time.time()
+            timeout = 10.0  # 10 seconds to collect embeddings
+
+            # Check if all data collected
+            has_face = self._latest_face_embedding is not None and \
+                      (now - self._face_embedding_timestamp < 5.0)
+            has_voice = self._latest_voice_embedding is not None and \
+                        (now - self._voice_embedding_timestamp < 5.0)
+            has_image = self._latest_image is not None and \
+                       (now - self._image_timestamp < 5.0)
+
+            # If we have face + voice, proceed with enrollment
+            if has_face and has_voice:
+                self._complete_enrollment()
+            # If timeout exceeded, save what we have
+            elif (now - self._enrollment_request.timestamp) > timeout:
+                self.get_logger().warn(
+                    f'Enrollment timeout for {self._enrollment_request.name}. '
+                    f'Proceeding with available data.'
+                )
+                self._complete_enrollment()
+
+    def _complete_enrollment(self) -> None:
+        """Complete enrollment process."""
+        request = self._enrollment_request
+        if request is None:
+            return
+
+        try:
+            # Save enrollment data to queue
+            enroll_data = {
+                'person_id': request.person_id,
+                'name': request.name,
+                'context': request.context,
+                'timestamp': request.timestamp,
+                'datetime': datetime.fromtimestamp(request.timestamp).isoformat(),
+                'face_embedding_shape': list(self._latest_face_embedding.shape)
+                    if self._latest_face_embedding is not None else None,
+                'voice_embedding_shape': list(self._latest_voice_embedding.shape)
+                    if self._latest_voice_embedding is not None else None,
+            }
+
+            # Save queue JSON
+            queue_file = self.queue_dir / f"enrollment_{request.person_id}_{int(request.timestamp)}.json"
+            with open(queue_file, 'w') as f:
+                json.dump(enroll_data, f, indent=2)
+            self.get_logger().info(f'Enrollment data queued: {queue_file}')
+
+            # Save photo if available
+            photo_id = None
+            if self._latest_image is not None:
+                photo_id = self._save_enrollment_photo(request)
+
+            # Add to PersonDB with embeddings
+            person_db_id = self._db.add_person(
+                name=request.name,
+                embedding=self._latest_face_embedding,
+                sample_count=1,
+                metadata={
+                    'encounter_person_id': request.person_id,
+                    'context': request.context,
+                    'photo_id': photo_id,
+                    'timestamp': request.timestamp,
+                }
+            )
+            self.get_logger().info(f'Added to PersonDB: ID {person_db_id}')
+
+            # Update speaker embeddings JSON
+            self._update_speaker_embeddings(person_db_id, request)
+
+            # Enroll face via face_recognizer service
+            self._enroll_face(person_db_id, request)
+
+            # Publish success status
+            self._publish_enrollment_status('success', person_db_id)
+
+        except Exception as e:
+            self.get_logger().error(f'Enrollment failed for {request.name}: {e}')
+            self._publish_enrollment_status('failed', None)
+        finally:
+            self._enrollment_request = None
+            self._latest_face_embedding = None
+            self._latest_voice_embedding = None
+            self._latest_image = None
+
+    def _save_enrollment_photo(self, request: EnrollmentRequest) -> str:
+        """Save enrollment photo from RealSense."""
+        try:
+            if self._latest_image is None:
+                return None
+
+            cv_image = self._bridge.imgmsg_to_cv2(self._latest_image, 'bgr8')
+            photo_id = f"{request.person_id}_{int(request.timestamp)}"
+            photo_path = self.photos_dir / f"{photo_id}.jpg"
+
+            cv2.imwrite(str(photo_path), cv_image)
+            self.get_logger().info(f'Enrollment photo saved: {photo_path}')
+            return photo_id
+
+        except Exception as e:
+            self.get_logger().error(f'Failed to save enrollment photo: {e}')
+            return None
+
+    def _update_speaker_embeddings(self, person_db_id: int, request: EnrollmentRequest) -> None:
+        """Update speaker_embeddings.json with voice embedding."""
+        try:
+            if self._latest_voice_embedding is None:
+                return
+
+            # Load existing embeddings
+            speaker_db = {}
+            if self.speaker_embeddings_path.exists():
+                with open(self.speaker_embeddings_path, 'r') as f:
+                    speaker_db = json.load(f)
+
+            # Add new embedding
+            speaker_db[str(person_db_id)] = {
+                'name': request.name,
+                'person_id': request.person_id,
+                'embedding': self._latest_voice_embedding.tolist(),
+                'timestamp': request.timestamp,
+            }
+
+            # Save updated embeddings
+            with open(self.speaker_embeddings_path, 'w') as f:
+                json.dump(speaker_db, f, indent=2)
+
+            self.get_logger().info(
+                f'Speaker embedding saved for {request.name}'
+            )
+
+        except Exception as e:
+            self.get_logger().error(f'Failed to update speaker embeddings: {e}')
+
+    def _enroll_face(self, person_db_id: int, request: EnrollmentRequest) -> None:
+        """Enroll face via face_recognizer service."""
+        try:
+            if self._latest_face_embedding is None:
+                return
+
+            if not self._enroll_face_client.wait_for_service(timeout_sec=2.0):
+                self.get_logger().warn(
+                    f'Face recognizer service not available. Skipping face enrollment.'
+                )
+                return
+
+            # Call EnrollPerson service
+            req = EnrollPerson.Request()
+            req.name = request.name
+            req.mode = 'face'
+            req.n_samples = 1
+
+            future = self._enroll_face_client.call_async(req)
+            self.get_logger().info(f'Face enrollment service called for {request.name}')
+
+        except Exception as e:
+            self.get_logger().error(f'Face enrollment service call failed: {e}')
+
+    def _publish_enrollment_status(self, status: str, person_db_id: Optional[int]) -> None:
+        """Publish enrollment completion status."""
+        try:
+            status_msg = {
+                'status': status,
+                'person_id': self._enrollment_request.person_id if self._enrollment_request else None,
+                'name': self._enrollment_request.name if self._enrollment_request else None,
+                'person_db_id': person_db_id,
+                'timestamp': time.time(),
+            }
+            self._pub_status.publish(String(data=json.dumps(status_msg)))
+        except Exception as e:
+            self.get_logger().error(f'Failed to publish enrollment status: {e}')
+
+
+def main(args=None):
+    rclpy.init(args=args)
+    node = SocialEnrollmentNode()
+    try:
+        rclpy.spin(node)
+    except KeyboardInterrupt:
+        pass
+    finally:
+        node.destroy_node()
+        rclpy.shutdown()
+
+
+if __name__ == '__main__':
+    main()