안녕하세요.
죄송해요. 그냥 올려봅니다.
[.SUB] 파일은 자막이 문자로 되어있지 않고 이미지 파일로 되어있습니다.
따라서 문자로 변환하려면 OCR 프로그램으로 이미지의 글자를 문자인식해서 문자자막으로 변환해야 하겠죠.
1. Subtitle Edit 자막 프로그램을 실행합니다.
2. 이미지로 된 [.SUB] 자막 파일을 드래그 앤 드롭으로 Subtitle Edit 프로그램 창에 떨굽니다. 또는 [File]-[Open] 메뉴를 선택하여 해당 [.SUB]파일을 불러옵니다.
그러면 아래 창이 뜨게 됩니다.
3. 저는 예시로 사용하는 자막이 일본어 자막이기 때문입니다만, 다른 언어일 경우에는 설정만 조금 바꿔주시면 됩니다.
- OCR Method : [Tesseract 4.00] 으로 맞춰줍니다.
- Language : [.SUB]파일의 언어에 맞춰주시면 됩니다. 제 경우 일본어이기 때문에 [Japanese]로 맞췄고 중국어, 영어, 프랑스어, 기타등등 알맞은 언어로 맞춰주시면 됩니다.
- Engine mode : 그냥 [Default, based on what is available] 기본으로 해도 별 문제는 없더군요. 하지만, 저는 [Tesseract + LSTM] 또는 [Original Tesseract only (can detect italic)] 을 사용합니다. ^^;;;;
- Italic에 v 체크.
- Music symbol에 v 체크.
- Fix OCR errors에 v 체크.
- Prompt for unknown words, Try to guess unknown words, Auto break paragraph if more than two lines 모두 v 체크 하지 않습니다.
위와같이 설정하셨다면 [Start OCR] 버튼을 누릅니다.
4. OCR 문자인식이 모두 끝났다면 수동으로 검사를 해야 합니다.
문자인식이 잘 된 곳은 초록색이며 문자인식이 잘 되지 않은 곳은 주황색으로 되어있습니다.
주황색인 곳은 클릭을 한 뒤 [Start OCR]버튼 좌측의 빈 칸에 직접 타이핑을 해주시면 됩니다.
영어일 경우 그냥 타이핑하시면 되고 일본어, 중국어인 경우 알아서 타이핑하시면 되겠습니다. ^^;;;;;
[우측 상단]은 이미지 자막이 보이는 것이고 [좌측 하단]이 문자 인식된 곳이며 문자 인식은 자기가 알아볼 수 있으면 되기 때문에
[우측 상단]의 이미지 자막을 읽어서 자신이 알아볼 수 있도록 메모하면 됩니다.
아래 화면에서는 [言う 言う 言う]가 문자 인식이 되지 않았습니다. [言う 言う 言う]를 직접 적어 넣으셔도 되겠지만, 어차피 번역할 것으므로 [말할게, 말할게, 말할게]로 적으셔도 되겠습니다.
자신이 알아볼 수 있으면 됩니다.
5. 점검이 끝났다면 [OK]버튼을 누릅니다. 그러면 OCR 문자인식 창이 닫히고 문자 인식된 자막이 보입니다.
6. 창의 메뉴에서 [File]-[Save As...] 로 저장하시면 되겠습니다.
VOB 자막 추출은 어쩌다 해보는 일이라 늘 까먹게 되거든요.
이런 글이 많이 쌓이다보면 FAQ 같은 설명서로 만들어도 좋을 것 같습니다.
전문적인 답변(뭔가를 알고 기술한)도 아니기 때문에 추천할 내용은 아니네요.
근데 동아시아 언어 중 중국어나 일본어같이 글자들이 정해진 경우는 이런 식으로 해결이 가능한데 문제는 한글 아닌가요?
자음-모음 조합이 너무 많아서 하다가 열 받아서 집어 치운 적이 많아서...
한글 이미지 자막을 srt로 바꾸는 건 차라리 처음부터 자막을 제작하는 게 시간이 덜 걸리더라구요. 쩝...
테저렉트가 버전 업 하면 더 나아지겠죠. ^^;;;;;;;;;;
이미 아실테지만 유명한 sub to srt 사이트입니다
영어는 거의 80%이상 한국어는 60% 이상
정확하게 srt로 만들어줍니다
다만 일본어나 중국어처럼 한자가 들어간
경우는 아예 에러가 나더군요
아무튼 조금은 도움이 되기는 합니다
저위의 %는 글자가 제대로 안나오든지
깨진다든지 경우입니다
결국 사람손을 안거치고 프로그램만으로는 한계가 있다는 거죠
추카추카 28 Lucky Point!
감사합니다.
언제 어떻게 필요할지 모르니 일단 메모. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
그런 사이트는 없더군요
스크랩합니다.^^