2026-02-07 15:47:37 +00:00
2 changed files with 41 additions and 0 deletions
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -191,6 +191,8 @@ services:
      REDIS_HOST: mvp-redis
      REDIS_PORT: 6379
      REDIS_DB: 1
    volumes:
      - vin-debug:/tmp/vin-debug
    networks:
      - backend
      - database
@@ -396,3 +398,5 @@ volumes:
    name: mvp_loki_data
  mvp_grafana_data:
    name: mvp_grafana_data
  vin-debug:
    name: mvp_vin_debug
--- a/ocr/app/extractors/vin_extractor.py
+++ b/ocr/app/extractors/vin_extractor.py
@@ -1,8 +1,10 @@
 """VIN-specific OCR extractor with preprocessing and validation."""
 import io
 import logging
 import os
 import time
 from dataclasses import dataclass, field
 from datetime import datetime
 from typing import Optional
 import magic
@@ -57,9 +59,31 @@ class VinExtractor(BaseExtractor):
    # VIN character whitelist for Tesseract
    VIN_WHITELIST = "ABCDEFGHJKLMNPRSTUVWXYZ0123456789"
    # Fixed debug output directory (inside container)
    DEBUG_DIR = "/tmp/vin-debug"
    def __init__(self) -> None:
        """Initialize VIN extractor."""
        pytesseract.pytesseract.tesseract_cmd = settings.tesseract_cmd
        self._debug = settings.log_level.upper() == "DEBUG"
    def _save_debug_image(self, session_dir: str, name: str, data: bytes) -> None:
        """Save image bytes to the debug session directory when LOG_LEVEL=debug."""
        if not self._debug:
            return
        path = os.path.join(session_dir, name)
        with open(path, "wb") as f:
            f.write(data)
        logger.debug("Saved debug image: %s (%d bytes)", name, len(data))
    def _create_debug_session(self) -> Optional[str]:
        """Create a timestamped debug directory. Returns path or None."""
        if not self._debug:
            return None
        ts = datetime.now().strftime("%Y%m%d_%H%M%S_%f")
        session_dir = os.path.join(self.DEBUG_DIR, ts)
        os.makedirs(session_dir, exist_ok=True)
        return session_dir
    def extract(
        self, image_bytes: bytes, content_type: Optional[str] = None
@@ -89,10 +113,14 @@ class VinExtractor(BaseExtractor):
            )
        try:
            debug_session = self._create_debug_session()
            logger.debug(
                "VIN extraction input: %d bytes, content_type=%s",
                len(image_bytes), content_type,
            )
            if debug_session:
                self._save_debug_image(debug_session, "01_original.jpg", image_bytes)
            # Apply VIN-optimized preprocessing
            preprocessing_result = vin_preprocessor.preprocess(image_bytes)
@@ -100,6 +128,10 @@ class VinExtractor(BaseExtractor):
            logger.debug(
                "Preprocessing steps: %s", preprocessing_result.preprocessing_applied
            )
            if debug_session:
                self._save_debug_image(
                    debug_session, "02_preprocessed_adaptive.png", preprocessed_bytes
                )
            # Perform OCR with VIN-optimized settings
            raw_text, word_confidences = self._perform_ocr(preprocessed_bytes)
@@ -121,6 +153,11 @@ class VinExtractor(BaseExtractor):
                    "Otsu preprocessing steps: %s",
                    otsu_result.preprocessing_applied,
                )
                if debug_session:
                    self._save_debug_image(
                        debug_session, "03_preprocessed_otsu.png",
                        otsu_result.image_bytes,
                    )
                raw_text, word_confidences = self._perform_ocr(otsu_result.image_bytes)
                logger.debug("Otsu PSM 6 raw text: '%s'", raw_text)