Sub To Smi 관련 질문있습니다
늘 다른분들 고생한걸 받아만 보다가 모처럼 옛날 미드 시리즈인 스파르타쿠스 sub to smi 작업을 하고 있는데요
처음 하다보니 여러모로 답답한게 많네요
1. subtitle edit 최신버전을 쓰는데
OCR인식 방식이 두가지 있습니다.
Tesseract 와 Binary image compare
보통 어떤걸 쓰시나요? 서로간에 누적데이터 호환이 되는건가요?
2. 바이너리 방식으로 할때
픽셀크기를 바꿔봐도 도저히 인식을 못하는 글자들이 있네요
주로 "싸" "사" => 이글자를 인식 못하네요.
픽셀을 줄이면 ㅆ ㅅ 늘리면 다음글자까지 인식
방법이 있을까요?
3. C:\Documents and Settings\user\Application Data\Subtitle Edit\ocr 폴더 안에 korean.db라는 화일이 있긴한데
과연 컴퓨터를 꺼도 데이터 축적이 되는건가요?
어제 시즌1 마칠때쯤엔 인식률이 높아져서 꽤 빨리 끝냈는데
오늘 컴퓨터를 키고 시즌2를 시작하니 거의 대부분의 글자를 다시 인식시켜줘야 되네요.
이게 시즌이 달라져 자막의 폰트나 크기가 달라져서 그런건지 데이터 저장이 안되서 그런건지 좌절하고 있습니다.
고수분들의 조언 부탁드립니다
2 Comments
1. Binary image compare 를 씁니다. 다른 건 인식 오류가 너무 심합니다.
2. 한글은 초중성이 조합되는 특성상 인식이 잘 되지 않는 글자가 좀 있습니다.
서체에 따라서도, SUB의 이미지 상태에 따라서도 다릅니다.
DVD SUB는 세로 높이를 14, SUP는 24~26 정도에 두면 인식이 잘 되지 않던 '응' 같은 글자가 한방에 되더군요.
글자에 따라 가감이 필요합니다.
3. PC 환경에 따라서 DB 경로는 조금 다릅니다.
다음 경로들의 데이터를 다른 곳에 가끔 백업해두세요.
제 경우 OCR 데이터의 경로는 다음입니다.
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\VobSub
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\Ocr
OCR의 단어 자동교정 목록은 다음 경로입니다.
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\Dictionaries
4. 자동 입력을 원활하게 하려면 허용 오차를 0%에 둬야 하는데
서체가 미세하게 바뀌어도 다시 해줘야 합니다.
DB 경로가 그대로라면 서체가 미세하게 바뀌었을 가능성이 큽니다.
획에 미세한 점 하나만 있어도 다른 글자로 인식하거든요.
시즌1과 시즌2의 서체가 좀 달랐던 모양이네요.
그리고 이건 사람이 구축한 DB에 따라서도 달라집니다.
사람A는 잘 되지 않는데, 사람B는 거의 손대지 않고 끝내는 경우도 있어요.
2. 한글은 초중성이 조합되는 특성상 인식이 잘 되지 않는 글자가 좀 있습니다.
서체에 따라서도, SUB의 이미지 상태에 따라서도 다릅니다.
DVD SUB는 세로 높이를 14, SUP는 24~26 정도에 두면 인식이 잘 되지 않던 '응' 같은 글자가 한방에 되더군요.
글자에 따라 가감이 필요합니다.
3. PC 환경에 따라서 DB 경로는 조금 다릅니다.
다음 경로들의 데이터를 다른 곳에 가끔 백업해두세요.
제 경우 OCR 데이터의 경로는 다음입니다.
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\VobSub
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\Ocr
OCR의 단어 자동교정 목록은 다음 경로입니다.
C:\Users\계정 이름\AppData\Roaming\Subtitle Edit\Dictionaries
4. 자동 입력을 원활하게 하려면 허용 오차를 0%에 둬야 하는데
서체가 미세하게 바뀌어도 다시 해줘야 합니다.
DB 경로가 그대로라면 서체가 미세하게 바뀌었을 가능성이 큽니다.
획에 미세한 점 하나만 있어도 다른 글자로 인식하거든요.
시즌1과 시즌2의 서체가 좀 달랐던 모양이네요.
그리고 이건 사람이 구축한 DB에 따라서도 달라집니다.
사람A는 잘 되지 않는데, 사람B는 거의 손대지 않고 끝내는 경우도 있어요.