영상 자제 자막 추출

자막제작자포럼

영상 자제 자막 추출

2 darong 20 3223 2

개인적으로 영상의 자제 자막(하드섭이라 불리는)을 추출할 일이 있어서 자막의 타임 코드를 검출하고,

검출한 타임코드 프레임에 있는 자막을 Teseract OCR를 이용해 자막을 추출하는 프로그램을 만들었습니다.

하지만 Tesseract OCR의 인식율이 너무 낮아서 사용할 수 없는 상태가 돼버렸습니다.


그래서 대안을 고민하다가 구글 Vision API의 OCR 인식 성능이 만족할 만한 수준이라는 걸 알았습니다.

다만 구글 Vision API는 비용이 들어가기 때문에 구글 드라이브를 이용하면 공짜로 이용할 수 있는 방법이 있습니다.

자막 이미지를 구글 드라이브에 올린 다음에 Open With->Google Doc로 불러오면 이미지 속 텍스트를 추출해 줍니다.


그런데 이미지 하나씩 위의 작업을 반복하면 너무 비효율적이라 이미지를 합친 다음 올리면 더 편하게 이미지를 텍스트로 변환할 수 있습니다.

이 작업을 해주는 python 코드를 첨부하니 필요하신 분은 받아서 사용하세요.

소스에서는 Videosubfinder에서 캡처한 이미지를 합치는 걸로 작성했습니다.


실행은 python imgmerge.py 하시면 되고, 디렉토리는 videosubfinder가 설치된 경로로 바꿔주시면 됩니다.

(python이 설치가 되어 있어야 하고, 소스에 필요한 python 패키지를 설치해야 합니다.

필요한 패키지는 소스 맨 위에 적혀 있습니다.)



Facebook Twitter GooglePlus KakaoStory NaverBand 신고
20 Comments
22 routine  
와.. 어찌 됐건 결과적으로 타이핑 할 필요가 없다는 게 최대 이점이군요... 대단하십니다
2 darong  
그렇죠. 타이핑하는 수고를 많이 덜어주죠. 다만 인식이 잘못되는 경우가 있어서 교정을 거쳐야 합니다.
S 맨발여행  
대단하시네요.
살짝 어려워 보이지만 한번 해봐야겠습니다.
감사합니다.
24 Hsbum  
인공지능의 혜택(?)이 자막에도 미치기 시작하는군요.
2 darong  
영화나 드라마 자막은 natural image 속에서 텍스트를 인식해야 하기 때문에
고전적인 이미지 처리 방식의 OCR로는 한계가 분명하죠.
그래서 딥러닝(인공지능) 방식의 OCR이 해결책이라 할 수 있습니다.
18 자막줭  
구글의 OCR인식률이 정말 높은 편입니다. 저도 가끔 사용하는데 한글이 아닌 한자나 히라가나를 인식해야 할 경우 사용하는 편입니다. 말씀처럼 구글 드라이브를 이용하면 이미지문자를 쉽게 추출이 용이합니다. 근데 Vision API 서비스는 제가 알기론 무료평가판이 있는 걸로 알고 있습니다.
2 darong  
처음 1000개까지 무료라 1.5불 정도밖에 안하네요.
구글 클라우드 플랫폼에 가입하면 300불 무료로 사용 가능한데 이미 써버려서...
Vision API를 사용하더라도 1000개당 1.5불이니 괜찮은 가격 같기도 하네요.
25 cliche  
좋은 정보 감사합니다. 구글 기술력이면 음성 인식 텍스트 파일을 OCR하는 것까지도 가능하겠네요. 비디오서브파인더와 Subtitle Edit가 초라해 보일 지경...
2 darong  
요즘은 딥러닝이 자연언어 처리와 오디오 처리에 뛰어난 성능을 보이고 있죠.
저도 구글에서 공개한 오픈소스를 이용해 음성인식과 음성합성을 해봤는데, 성능이 꽤 좋았습니다.
25 cliche  
제가 좀 어설프게 이해한 상태에서 이야길 했네요. 그러니까 현재 나날이 발전하고 있는 구글의 음성인식 기술이면 문자인식(OCR) 정도는 쉬운 일이 아닌가 하는 거였습니다.

추카추카 18 Lucky Point!

25 cliche  
혹시 현재 OCR 성능이 어느 정도인지 알 수 있을까요? 1,000개 기준이면 대략 몇 퍼센트의 정확성을 보이는지 궁금합니다.
2 darong  
많이 테스트 해본 것은 아니지만 체감적으로 인식율이 90% 이상은 되는 것 같습니다.
25 cliche  
그 정도 인식률이면 물리적으로 해야 할 일이 검수뿐이겠네요. 그동안 타이핑했던 영화들이 주마등처럼 스쳐가는 건 왜인지 ㅠㅠ
22 routine  
댓글내용 확인
2 darong  
OCR에서 인식한 것과 타임코드를 맞춰는 것은 저도 생각하고 있는데,
이걸 맞춰주는 유틸리티를 만들게 되면 이에 대해 다시 글을 작성하도록 하겠습니다.
14 푸른눈  
헉!
완전 대박입니다.
한번 해보야겠군요
정말 수고하셨습니다
1 스토리xp  
영상의 자막을 텍스트로 저장하고 싶어서 여러군데 사이트 찾다가 알게 되었습니다
현재 videosubfinder를 사용하는데 타임코드 에러가 있을 더 좋은 프로그램이 있으면 알려주시면 감사하겟습니다
2 darong  
sub/idx같이 자막 이미지의 포맷이 있는 경우는 Subtitle Edit로 자막 이미지와 타임코드를 따로 추출할 수 있습니다.
subtitle edit 외에도 다른 유틸리티 프로그램이 있는 걸로 알고 있습니다.
1 스토리xp  
Subtitle Edit로 이미지에 자막과 타임코드를 같이 추출이 가능한가요???
2 darong  
영상에 자체 내장된 자막은 안되고 sub/idx와 같이 특정 포맷이 있는 자막은 이미지와 타임코드를 추출할 수 있습니다.