Skip to content

Latest commit

 

History

History
71 lines (49 loc) · 1.93 KB

File metadata and controls

71 lines (49 loc) · 1.93 KB

이미지-텍스트 매칭 규칙

기준

COMBINED 모드에서는 텍스트가 기준입니다.

  • 텍스트를 먼저 파싱합니다.
  • 가까운 이미지가 있으면 그 이미지를 함께 처리합니다.
  • 이미지가 없으면 텍스트만 처리합니다.

파일명 규칙

파일명 형식은 아래를 전제로 합니다.

prefix_YYYYMMDD_HHMMSS.ext

예:

ixsbscs0v3_20260329_024000.tif
ixsbscs0v3_20260329_024500.txt

매칭 조건

  1. prefix가 같아야 합니다.
  2. image_ts <= text_ts 여야 합니다.
  3. 시간 차이는 5분 이하여야 합니다.
  4. 후보가 여러 개면 text_ts와 가장 가까운 이미지 1개를 고릅니다.
  5. 한 번 매칭된 이미지는 같은 실행 안에서 다시 쓰지 않습니다.

수식으로 쓰면 다음과 같습니다.

min(text_ts - image_ts)
where image_ts <= text_ts
and (text_ts - image_ts) <= 5분

처리 흐름

COMBINED는 아래 순서로 동작합니다.

  1. 전날 + 입력일/RUBI/RUIP 파일을 모두 먼저 다운로드
  2. 텍스트를 시간순으로 정렬
  3. 각 텍스트마다 가장 가까운 이미지 1개를 찾음
  4. 매칭 이미지가 있으면 PNG를 준비하고 업로드 큐에 넣음
  5. 매칭 이미지가 없으면 텍스트만 DB 저장
  6. 마지막 업로드 단계에서 성공한 항목만 DB finalize 후 FTP 원본 삭제

즉 핵심은 아래 한 줄입니다.

텍스트 기준으로 가까운 이미지 1개를 붙이고, 업로드까지 성공한 매칭만 최종 완료로 본다.

경로 규칙

  • 원본 이미지: /RUIP/...
  • 원본 텍스트: /RUBI/...
  • 결과 이미지: rbi/ruip/.../*.png

업로드 경로는 RUIP 세그먼트를 기준으로 잘라 rbi/ruip/... 아래로 미러링합니다.

로컬 파일 정책

  • raw txt/tif: 처리 직후 삭제
  • png: 재업로드 캐시로 3일 유지
  • 3일 지난 png: 배치 시작 시 정리