한글 자막용 OCR

자유게시판

자유롭게 다양한 글을 남겨주세요 !

한글 자막용 OCR

2 darong 10 1976 3 2019.11.12 11:43

Tesseract나 구글 비전 API OCR은 한글 인식 성능이 떨어지거나 유료라는 단점이 있습니다.
그래서 구글 비전 API 수준의 성능의 한글 OCR를 만들 수 있는지 프로토타입을 만들어 보기로 했습니다.
20만개의 문장, 그리고 2000개의 배경 이미지의 학습 데이터를 구축하고 딥러닝을 이용해 학습시켰습니다.

결과 예

아래는 자료실에 있는 자막을 동영상에 입힌 다음 OCR 인식 성능을 테스트한 결과입니다.

여러 자막에 대해 테스트 결과 인식이 잘 되는 경우도 많았지만, 자막이 두 줄인 경우 줄 단위로 영역을 검출하지 못해
인식에 실패하는 경우도 발생했습니다.

결론적으로 학습 데이터를 더 많이 구축해서 학습시키면 구글 비전 API 수준의 성능이
가능할 것 같다는 생각이 들었습니다.

차후에 학습 데이터를 더 구축해서 실사용이 가능한 수준의 인식 성능이 나오는지 테스트해 볼 예정입니다.

좋아요
멋져요
기뻐요
슬퍼요
힘내요

Author

Lv.2 2 darong 실버(2등급)

등록된 서명이 없습니다.

+
커뮤니티인기글

+7 13시간전 빼앗기는 것과 나누는 것

+2 15시간전 소장 영화 드라마들을 x265 HEVC로 교채할까 고민 중인데

+5 2시간전 자막 다운 받으러 왓더니

+1 22시간전 마스크 꼭 쓰고 다녀요

+1 7시간전 타란티노 소식

+8 11시간전 뼈해장국

Previous Next

10 Comments

35 그리핀 2019.11.12 15:56

신고

오 능력자시군요.
아무쪼록 좋은 결과 있었음 좋겠군요.

0

1 puma0924 2019.11.12 16:12

신고

응원합니다!

0

16 o지온o 2019.11.12 16:12

신고

호오.. 화이팅~
Subtitle Edit의 Tesseract에는 아쉬움이 좀 크죠.
그래도 무료이기 때문에 잘 사용하고는 있습니다만.. ㅋㅋㅋㅋ
구글쪽 OCR이 확실히 인식률이 더 좋기는 하더라구요.
어쩌다가 인식 못하는 문자가 있고 소소하게 틀리는 부분이 있지만
Subtitle Edit의 Tesseract 보다는 훨씬 인식이 잘 되는 듯.

0

S 맨발여행 2019.11.12 16:43

신고

DVD에 든 SUB 자막이 특히 힘들 겁니다.
폰트 가독성이 떨어지고 해상도 자체가 낮거든요.

SMI, SRT보다는 SUB 자막으로 해보세요.
자막 만드는 분이 텍스트 형식의 자막을 이용할 때는 주로 외국어 자막을 번역하는 경우일 텐데...
그럴 때는 OCR까지 쓸 일이 적을 듯하네요.

0

2 darong 2019.11.12 17:16

신고

DVD Sub 자막을 테스트해 보고 싶은데 DVD가 없어서 테스트를 할 수 없네요.
폰트나 해상도 문제는 그런 이미지를 많이 학습시키면 인식 성능을 대폭 높일 순 있는데,
그런 자막 이미지를 구할 수 없는 게 문제군요.

0

22 CINWEST 2019.11.12 17:23

신고

멋집니다!
제가 상당한 VOD 영화들을 모으고 있는데 덕분에 손쉽게 텍스트화되는 날이 올지도 모르겠네요^^

0

S MacCyber 2019.11.13 12:23

신고

근래에는 VOD용으로 KORSUB 동영상이 사실상 전부이니
그쪽에서만 인식율이 잘 나와도 대성공이라고 생각됩니다.
화이팅입니다~ .

0

22 routine 2019.11.13 19:07

신고

항상 응원합니다

0

30 여보밥줘 2019.11.14 18:01

신고

darong님은 정말 능력자시군요!!! 응원하겠습니다!!!

0

1 치악산호랭이 2019.11.14 21:26

신고

응원합니다

0

로그인한 회원만 댓글 등록이 가능합니다.

이전 다음 목록