Sub To Smi 관련 질문있습니다

11 더치커피 알려주삼 2 2550 1 2018.03.23 13:44

늘 다른분들 고생한걸 받아만 보다가 모처럼 옛날 미드 시리즈인 스파르타쿠스 sub to smi 작업을 하고 있는데요

처음 하다보니 여러모로 답답한게 많네요

1. subtitle edit 최신버전을 쓰는데

OCR인식 방식이 두가지 있습니다.

Tesseract 와 Binary image compare

보통 어떤걸 쓰시나요? 서로간에 누적데이터 호환이 되는건가요?

2. 바이너리 방식으로 할때

픽셀크기를 바꿔봐도 도저히 인식을 못하는 글자들이 있네요

주로 "싸" "사" => 이글자를 인식 못하네요.

픽셀을 줄이면 ㅆ ㅅ 늘리면 다음글자까지 인식

방법이 있을까요?

3. C:\Documents and Settings\user\Application Data\Subtitle Edit\ocr 폴더 안에 korean.db라는 화일이 있긴한데

과연 컴퓨터를 꺼도 데이터 축적이 되는건가요?

어제 시즌1 마칠때쯤엔 인식률이 높아져서 꽤 빨리 끝냈는데

오늘 컴퓨터를 키고 시즌2를 시작하니 거의 대부분의 글자를 다시 인식시켜줘야 되네요.

이게 시즌이 달라져 자막의 폰트나 크기가 달라져서 그런건지 데이터 저장이 안되서 그런건지 좌절하고 있습니다.

고수분들의 조언 부탁드립니다

Author

Lv.11 11 더치커피 골드(3등급)

등록된 서명이 없습니다.

+2 03.23 Sub To Smi 관련 질문있습니다

2 Comments

S 맨발여행 2018.03.23 16:40

1. Binary image compare 를 씁니다. 다른 건 인식 오류가 너무 심합니다.

2. 한글은 초중성이 조합되는 특성상 인식이 잘 되지 않는 글자가 좀 있습니다.
서체에 따라서도, SUB의 이미지 상태에 따라서도 다릅니다.
DVD SUB는 세로 높이를 14, SUP는 24~26 정도에 두면 인식이 잘 되지 않던 '응' 같은 글자가 한방에 되더군요.
글자에 따라 가감이 필요합니다.

3. PC 환경에 따라서 DB 경로는 조금 다릅니다.
다음 경로들의 데이터를 다른 곳에 가끔 백업해두세요.
제 경우 OCR 데이터의 경로는 다음입니다.
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\VobSub
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\Ocr

OCR의 단어 자동교정 목록은 다음 경로입니다.
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\Dictionaries

4. 자동 입력을 원활하게 하려면 허용 오차를 0%에 둬야 하는데
서체가 미세하게 바뀌어도 다시 해줘야 합니다.
DB 경로가 그대로라면 서체가 미세하게 바뀌었을 가능성이 큽니다.
획에 미세한 점 하나만 있어도 다른 글자로 인식하거든요.
시즌1과 시즌2의 서체가 좀 달랐던 모양이네요.
그리고 이건 사람이 구축한 DB에 따라서도 달라집니다.
사람A는 잘 되지 않는데, 사람B는 거의 손대지 않고 끝내는 경우도 있어요.

11 더치커피 2018.03.24 12:53

정성스런 답변 정말 감사드립니다.
직접해보니 이거 정말 손이 많이 가는 작업이었네요.
시즌2 마치고 오늘 시즌3 들어가니 또 새로 입력...ㅜ.ㅜ
주말까지 몰아서 다 하는건 포기해야겠습니다.

로그인한 회원만 댓글 등록이 가능합니다.

이전 다음 검색 목록