영상 자체 자막 추출 팁

자막제작자포럼

영상 자체 자막 추출 팁

이전에 영상 자체 자막에 대한 글을 올렸었는데, 이번에 좀 더 자세한 과정을 설명드릴려고 합니다.


사전 준비물:

python 설치 및 소스 실행에 필요한 패키지 설치

- python 설치에 대해서는 따로 설명을 드리지 않고 패키지 설치는 shell에서 아래의 명령을 실행합니다.


pip install opencv-python

pip install numpy


자제 자막 추출 과정은
1. videosubfinder를 이용하여 자막 이미지를 캡처한다.
2. 캡처한 자막 이미지를 합친 다음 구글 드라이브에 업로드한다.
3. Google Docs를 이용하여 자막 이미지에서 텍스트를 추출한다.
4. 추출한 텍스트를 교정한 다음 srt 형식으로 저장한다.

videosubfinder를 실행한 후 videosubfinder이 설치된 디렉토리 아래 RGBImages에 캡처한 자막 이미지가 저장됩니다.

이 이미지를 첨부한 Iimgmerge.py를 이용하여 합치게 됩니다.
shell에서 아래 명령을 실행합니다.

python imgmerge.py -i C:/videosubfinder/RGBImages/*.jpeg -o C:/videosubfinder/TXTImages -b 50

경로는 videosubfinder가 설치된 디렉토리로 바꿔주세요.
-b 옵션은 합칠 이미지 수인데, 너무 크면 구글 독스에서 제대로 처리하지 못하므로 적당한 크기를 지정해 주세요.

위 과정이 끝나면 videosubfinder의 TXTImages 디렉토리에 합쳐진 이미지가 저장됩니다.
그 이미지를 보면 아래 그림과 같이 자막의 타임코드가 들어가 있는 것을 볼 수 있습니다.

d14aafe8737438b8e1afcb3739efe4a6_1559560864_178.png

이제 합쳐진 이미지들을 구글 드라이브로 모두 업로드합니다.
그런 다음 이미지를 아래와 같이 Google Docs로 불러옵니다.


d14aafe8737438b8e1afcb3739efe4a6_1559560871_0168.png

그럼 아래와 같이 이미지가 텍스트로 변환된 결과를 볼 수 있습니다.

d14aafe8737438b8e1afcb3739efe4a6_1559560872_8912.png


텍스트를 복사한 다음 에디터에 붙여넣기합니다.
그럼 아래와 같이 자막 타임코드와 자막이 추출됩니다.
여기서 타임코드에 이상이 있는 부분을 수정합니다.
이 과정을 합쳐진 이미지에 대해서 모두 반복한 다음 srt 파일로 저장하면 됩니다. 


d14aafe8737438b8e1afcb3739efe4a6_1559560874_8664.png


=============================================================================================
추가)
자체 자막 추출 소스를 오픈소스로 공개했습니다.
아래 github에 가시면 소스를 다운로드 받을 수 있습니다.
imgmerge.py는 image 디렉토리에 있습니다.



 

Facebook Twitter GooglePlus KakaoStory NaverBand 신고
32 Comments
1 후니주니  
감사합니다!~
32 ScsiC  
덕분에 많은 프로그램 배웠습니다
감사합니다