자막제작자포럼

Sub To Smi 관련 질문있습니다

2 더치커피 2 709

늘 다른분들 고생한걸 받아만 보다가 모처럼 옛날 미드 시리즈인 스파르타쿠스  sub to smi 작업을 하고 있는데요

 

처음 하다보니 여러모로 답답한게 많네요

 

1. subtitle edit 최신버전을 쓰는데

 

OCR인식 방식이 두가지 있습니다.

 

Tesseract 와 Binary image compare

 

보통 어떤걸 쓰시나요? 서로간에 누적데이터 호환이 되는건가요?

 

 

2. 바이너리 방식으로 할때

 

픽셀크기를 바꿔봐도 도저히 인식을 못하는 글자들이 있네요

 

주로 "싸" "사" => 이글자를 인식 못하네요.

 

픽셀을 줄이면 ㅆ  ㅅ  늘리면 다음글자까지 인식

 

방법이 있을까요?

 

 

3. C:\Documents and Settings\user\Application Data\Subtitle Edit\ocr 폴더 안에 korean.db라는 화일이 있긴한데

 

과연 컴퓨터를 꺼도 데이터 축적이 되는건가요?

 

어제 시즌1 마칠때쯤엔 인식률이 높아져서 꽤 빨리 끝냈는데

 

오늘 컴퓨터를 키고 시즌2를 시작하니 거의 대부분의 글자를 다시 인식시켜줘야 되네요.

 

이게 시즌이 달라져 자막의 폰트나 크기가 달라져서 그런건지 데이터 저장이 안되서 그런건지 좌절하고 있습니다.

 

 

고수분들의 조언 부탁드립니다 

  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글플러스로 보내기
  • 카카오스토리로 보내기
  • 네이버밴드로 보내기
  • 네이버로 보내기
  • 텀블러로 보내기
  • 핀터레스트로 보내기

Author

Lv.3 3 더치커피  실버(2등급)
2,572 (17%)

등록된 서명이 없습니다.

Comments

S 맨발여행
1. Binary image compare 를 씁니다. 다른 건 인식 오류가 너무 심합니다.

2. 한글은 초중성이 조합되는 특성상 인식이 잘 되지 않는 글자가 좀 있습니다.
서체에 따라서도, SUB의 이미지 상태에 따라서도 다릅니다.
DVD SUB는 세로 높이를 14, SUP는 24~26 정도에 두면 인식이 잘 되지 않던 '응' 같은 글자가 한방에 되더군요.
글자에 따라 가감이 필요합니다.

3. PC 환경에 따라서 DB 경로는 조금 다릅니다.
다음 경로들의 데이터를 다른 곳에 가끔 백업해두세요.
제 경우 OCR 데이터의 경로는 다음입니다.
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\VobSub
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\Ocr

OCR의 단어 자동교정 목록은 다음 경로입니다.
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\Dictionaries

4. 자동 입력을 원활하게 하려면 허용 오차를 0%에 둬야 하는데
서체가 미세하게 바뀌어도 다시 해줘야 합니다.
DB 경로가 그대로라면 서체가 미세하게 바뀌었을 가능성이 큽니다.
획에 미세한 점 하나만 있어도 다른 글자로 인식하거든요.
시즌1과 시즌2의 서체가 좀 달랐던 모양이네요.
그리고 이건 사람이 구축한 DB에 따라서도 달라집니다.
사람A는 잘 되지 않는데, 사람B는 거의 손대지 않고 끝내는 경우도 있어요.
2 더치커피
정성스런 답변 정말 감사드립니다.
직접해보니 이거 정말 손이 많이 가는 작업이었네요.
시즌2 마치고 오늘 시즌3 들어가니 또 새로 입력...ㅜ.ㅜ
주말까지 몰아서 다 하는건 포기해야겠습니다.