이미지 자막을 텍스트로 바꾸는 법

자유게시판

이미지 자막을 텍스트로 바꾸는 법

23 이미나에게로 5 336 1

* 블루레이/dvd 추출 자막을 변환하는 법


준비물은 필요에 따라지만 설치하는데는 별로 어렵지 않습니다.

subresync

python

구글 드라이브

subtitle edit

notepad++


subresync

- 단점, 끄면 다시 입력


subtitle edit

- subresync와 달리 db를 저장할 수 있어 같은 폰트 db가 쌓일수록 점점 변환 속도가 줄어듭니다. 쉬운 폰트는 40분 -> 20분 -> 10분, 어려운 폰트는 1시간 20분 -> 50분 -> 30분

- subresync와 같은 단축키

- 빠르면 같은 글자 한번씩 입력하고 아무것도 없는 db 상태에서 타이핑이 느려도 30~40분이 변환 가능

힘든 폰트는 1시간~1시간 30분 정도

미드 같은 경우 총 10~22편 드라마 변환 2~2시간 반, 수정 1시간 정도

경우에 따라 다르지만 한글 sub/sup 변환이 가장 쉽고, 시간이 가장 짧게 걸림

영문의 같은 경우 i, l 구분 인식이 잘되지 않아서 변환하고 스펠체크가 필수입니다. 

변환에는 몇가지가 있지만 최신기준 3가지

  이미지 비교에 의한 OCR... - subresync와 같은 방식 db에 저장되고 쌓이면 변환이 빨라짐

  Tesseract - 자동 인식 변환, 한글 인식률 처참, 영문 계열만 사용하는 게 좋습니다. 변환 후 스펠체크 했지만 오자를 빠트릴 수 있습니다. 

   NOCR에 의한 OCR - 백터 방식, 영문 전용, 한글은 글자수가 많고 복잡해서 도움 안됨(3.5.16이상)


- 변환 속도, db가 없는 처음 변환할 때 기준

이미지 비교에 의한 OCR - 이탤릭 없는 쉬운 폰트 한글(30-40분, 타자속도 빠르면 20분내), 영문변환후 스펠체크

Tesseract - 영문 변환 후 스펠체크, 스펠체크 시간까지 합산하면 이미지 비교에 의한 OCR보다 느릴 수 있습니다.


imgmerge, png2srt -구글 ocr, 변환은 자동이나 수정하는게 오래걸립니다. 변환 후 수정을 아예 하지 않던가, 아니면 참 오래 걸림

최신 imgmerge버전은 바로 아래 링크 - Download ZIP

https://gist.github.com/wyb330/e7710eeb6b2fede89f405387116533be

http://cineaste.co.kr/bbs/board.php?bo_table=psd_capmakef&wr_id=27049 - 이 게시물은 해당링크를 보충설명입니다.

프로그램을 만들어주신 darong 님에게 감사드립니다.


이미지 150개 파일을 하나로 묶으려면 메모장등 편집기에서 imgmerge.py 내용 중 .png을 .jpg로 수정합니다.


포춘 쿠키 (The Fortune Cookie, 1966)폰트 인식률이 매우 나빠 NOCR에 의한 OCR, 이미지 비교에 의한 OCR..., imgmerge 여러가지 방법으로 시도해서 시간이 오래걸렸습니다.


* 차체 동영상 자막을 텍스트로

- 영문 싱크에 화면 자막을 보면서 타이핑, 단점 영문과 한글 싱크가 달라 재조정하거나 영문싱크에 맞춰 글자를 나눠서 타이핑

- videosubfinder에서 캡쳐된 싱크를 가지고 타이핑, 누락된 싱크만 삽입 후 타이핑

- videosubfinder + 구글 ocr(imgmerge 무료/png2srt 유료)

https://github.com/Zarxrax/png2srt 

https://www.clien.net/service/board/cm_nas/13721077 

http://www.2cpu.co.kr/nas/27035 

png2srt 기본세팅 언어가 일본어인 이유는 일본에 사는 외국인을 위한 만들 프로그램이고 넷플릭스 이미지 변환 용이지만 sub/sup 자막도 변환이 됩니다.


videosubfinder 에서 캡쳐된 이미지를 imgmerge로 합치고 구글로 자동 ocr나온 결과물 수정

  팔이 아프게 타이핑할 필요없이 텍스트로 자동 변환이 됩니다.

- imgmerge ocr 과정

  1. videosubfinder로 이미지를 캡쳐합니다.

  2. 파이썬 설치 -  필히 path 추가 체크합니다. 3.7버전을 설치합니다.

cmd 창에서 입력하는 법 - 복사 붙여넣기 엔터, 소스에 있는 내용 입니다.


pip install 안먹이면 아래 링크대로 오래전이라 기억안나지만 구글링에서 찾아 링크합니다.

https://dora-guide.com/pip-install/

https://antilibrary.org/2325

https://bootstrap.pypa.io/get-pip.py 에서 다운 받고 python get-pip.py 와 명령후 아래와 같이 입력

pip install opencv-python

pip install numpy

pip install bs4


  3. imgmerge 또는 png2srt로 이미지를 합칩니다. png2srt는 6번 과정으로 넘어갑니다.

  cmd 창에서 입력하는 법은 아래 링크 참조, 타이핑하거나 경로를 입력할 필요없습니다. 탐색기 경로 복사는 아래 링크 참조

  그게 귀찮으면 배치파일을 만듭니다. 텍스트 파일 확장자를 .bat로 바꿉니다. ansi형식으로 반드시 저장합니다. 그렇지 않으면 실행 에러 발생합니다. 경로명에는 한글이 있거나 경로끝에 역슬래시가 있으면 또한 에러 발생

  해당 폴더가 있어야 에러가 없이 정상적으로 실행됩니다. 경로명에 공백있으면 안돼서 경로 앞뒤로 "따옴표를 붙입니다.

  imgmerge.py -i "C:\videosubfinder\RGBImages\*.*" -o "C:\mergeimage" -b 150

  합친 이미지가 10mb가 넘으면 변환이 되지 않으니 크기를 9,600Kbyte이하로 맞춥니다. -b 150에서 10씩 줄입니다. -b 140, - b 130

   

  4. 합친 이미지를 구글 드라이브에 업로드합니다.

  5. subtitle edit에서 타임코드 인식할 수 있게 notepad++ or editplus 등 에서 텍스트 파일을 한꺼번에 열어 모두 글자를 삭제합니다. 예) |

  6. 나눠진 텍스트를 하나의 자막으로 합칩니다. 도구 --> 새자막 등록

  7. 잘못 인식된 글자를 일부 지우거나 교정합니다. 도구 --> 일반적인 오류 수정, 바꾸기 또는 다중 바꾸기, 아래 오타 교정 이용 '받침ㅆ+에 --> 받침ㅆ어로 자동교정하기'

  8. 검수합니다.

  - 자체 자막을 재생 비교하면서 검수합니다. 시간을 줄이려면 빠른 배속 재생합니다.

  - 또는 블루레이 영상을 보면서 다른 자체 자막 에디터(subtitle edit) 창을 띄우고 검수합니다.


- 다른 조합으로 videosubfinder + FineReader 가능합니다.

- 구글 api를 이용한 png2srt처럼 다른 포털 사이트도 일정기간 무료 및 그 이상은 유료로 제공하고 있습니다.

  MS(5000건) > 구글(1000건) > 다음(500건) > 네이버(100건) 순으로 무료 제공량이 가장 많은, 제공건수를 확실지 않습니다.

  윈도우 10에서도 ocr 툴이 내장되어 있습니다. 그 툴이 포함되어 있는 번역기가 'MORT - 실시간 게임 번역기'


아래는 구글링으로 찾은 팁


* 탐색기에서 경로를 복사하는 법  

https://hkebi.tistory.com/1594


* 드래그 앤 드롭으로 cmd에 경로 붙이기

https://www.snoopybox.co.kr/1550


* 탐색기에서 cmd 입력법

https://ttend.tistory.com/476 


* 원하는 곳에서 cmd입력법과 cmd창에 경로복사하는 법

https://www.youtube.com/watch?v=-9fKZcPGVhg 


* 받침ㅆ+에 --> 받침ㅆ어로 자동교정하기, 자막을 input.srt 변경후 .py 파일을 클릭하면 교정된 output.srt로 출력됩니다. 예) 였에, 됐에 --> 였어, 됐어, 우측 download버튼을 누르면 다운로드

https://pastebin.com/h0suaJAA 


저는 그냥 봐도 상관없는데

큰 화면으로 보시는 분들, vod 자체 자막은 화질/음질에 만족 못 하시분들을


Facebook Twitter GooglePlus KakaoStory NaverBand 신고
 
5 Comments
7 장곡  
대단들 하시네요
전 그냥 여러분들이 수고하신 자막을 잘 활용하겠습니다.
감사합니다.
21 CINWEST  
그간 VOD 파일은 엄청 모아놨는데 이거 나이가 들어서 그런가 도무지 모르겠더군요..ㅠㅠ
2 bluechhc  
자막 작업하시는 분들 존경합니다.!!!
우워 subtitle edit에서도 되는 거였군요.
조금씩 조금씩 배워나가야 되겠습니다.
자료 너무 감사합니다~
스크랩! ^^