한글 자막용 OCR

자유게시판

한글 자막용 OCR

2 darong 10 1976 3
Tesseract나 구글 비전 API OCR은 한글 인식 성능이 떨어지거나 유료라는 단점이 있습니다.
그래서 구글 비전 API 수준의 성능의 한글 OCR를 만들 수 있는지 프로토타입을 만들어 보기로 했습니다.
20만개의 문장, 그리고 2000개의 배경 이미지의 학습 데이터를 구축하고 딥러닝을 이용해 학습시켰습니다.

결과 예



아래는 자료실에 있는 자막을 동영상에 입힌 다음 OCR 인식 성능을 테스트한 결과입니다.



여러 자막에 대해 테스트 결과 인식이 잘 되는 경우도 많았지만, 자막이 두 줄인 경우  줄 단위로 영역을 검출하지 못해
인식에 실패하는 경우도 발생했습니다.

결론적으로 학습 데이터를 더 많이 구축해서 학습시키면 구글 비전 API 수준의 성능이
가능할 것 같다는 생각이 들었습니다.

차후에 학습 데이터를 더 구축해서 실사용이 가능한 수준의 인식 성능이 나오는지 테스트해 볼 예정입니다.
Facebook Twitter GooglePlus KakaoStory NaverBand 신고
 
10 Comments
35 그리핀  
오 능력자시군요.
아무쪼록 좋은 결과 있었음 좋겠군요.
1 puma0924  
응원합니다!
16 o지온o  
호오.. 화이팅~
Subtitle Edit의 Tesseract에는 아쉬움이 좀 크죠.
그래도 무료이기 때문에 잘 사용하고는 있습니다만.. ㅋㅋㅋㅋ
구글쪽 OCR이 확실히 인식률이 더 좋기는 하더라구요.
어쩌다가 인식 못하는 문자가 있고 소소하게 틀리는 부분이 있지만
Subtitle Edit의 Tesseract 보다는 훨씬 인식이 잘 되는 듯.
S 맨발여행  
DVD에 든 SUB 자막이 특히 힘들 겁니다.
폰트 가독성이 떨어지고 해상도 자체가 낮거든요.

SMI, SRT보다는 SUB 자막으로 해보세요.
자막 만드는 분이 텍스트 형식의 자막을 이용할 때는 주로 외국어 자막을 번역하는 경우일 텐데...
그럴 때는 OCR까지 쓸 일이 적을 듯하네요.
2 darong  
DVD Sub 자막을 테스트해 보고 싶은데 DVD가 없어서 테스트를 할 수 없네요.
폰트나 해상도 문제는 그런 이미지를 많이 학습시키면 인식 성능을 대폭 높일 순 있는데,
그런 자막 이미지를 구할 수 없는 게  문제군요.
22 CINWEST  
멋집니다!
제가 상당한 VOD 영화들을 모으고 있는데 덕분에 손쉽게 텍스트화되는 날이 올지도 모르겠네요^^
S MacCyber  
근래에는 VOD용으로 KORSUB 동영상이 사실상 전부이니
그쪽에서만 인식율이 잘 나와도 대성공이라고 생각됩니다.
화이팅입니다~  .
22 routine  
항상 응원합니다
30 여보밥줘  
darong님은 정말 능력자시군요!!! 응원하겠습니다!!!
1 치악산호랭이  
응원합니다