한글 자막용 OCR

자막제작자포럼

한글 자막용 OCR

2 darong 26 2398 4

안녕하세요

그동안 개발해 오던 한글 자막용 OCR이 어느 정도 개발이 되어서 공개할려고 합니다.

두 가지 기능을 지원하는데 하나는 단일 이미지 OCR이고,

다른 하나는 멀티 이미지 OCR를 이용하여 자막을 생성하는 것입니다.

(영상 자체 자막이나 DVD SUB 자막 이미지 등)

서버는 현재 운영하고 있는 자막 번역 서버에 일시적으로 추가해 놓은 상태입니다.


단일 이미지 OCR은 http://www.blueai.co.kr/ocr 에서 테스트해 볼 수 있습니다.

멀티 이미지 OCR은 서버에 많은 부하를 주기 때문에 쪽지로 신청하시는 분에게 접속 주소를 알려드리겠습니다.

OCR 인식 성능은 아직 만족할 수준은 아니지만 차차 개선해 나갈 예정입니다.


서버가 이미지 인식을 처리하기에는 부족한 사양이라 처리에 많은 시간이 걸리니

이점을 고려하시고 사용해 주시면 감사하겠습니다.


Facebook Twitter GooglePlus KakaoStory NaverBand 신고
26 Comments
10 Clayton22  
댓글내용 확인
2 darong  
댓글내용 확인
10 Clayton22  
댓글내용 확인
2 darong  
댓글내용 확인
10 Clayton22  
댓글내용 확인
30 여보밥줘  
안녕하세요!! 그동안 고생 많으셨겠어요!!! 잊고 있었는데 약속을 기가막히게 지키시네요 ㅎㅎ
1 영화알아가기  
40 백마  
수고하셨습니다^^
16 o지온o  
후오~ 고생하셨어요.
음.. 한글 인식해야 하는 자막 좀 찾아봐야 하겠습니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
18 자막줭  
개인적인 테스트 결과로는 쉼표를 - 로 인식한다든가 'ㄴ'받침을 놓치는 것 말고는 거의 일치해서 앞으로도 기대가 되는군요. 굉장히 훌륭한 성과물인 것 같습니다. 더욱 발전된 모습 기대하고 응원하겠습니다.
3 불꽃문  
대단하십니다. 좋은 발전이 계속 되시길 기원합니다. 화이팅!
18 조니존  
우와..이런것도 개발하시다니..정말 대단하시네요..
기대됩니다..감사합니다
2 WRABIT  
자체자막에 자주 사용되는 폰트, 태그들 또한 테스트가 필요해 보입니다.
저는 배경이미지와 자막부분을 분리 작업해서 OCR 인식을 해보려고 했었는데, 아직 실행에 옮기진 못 했네요.
2 darong  
일단은 윈도우에서 사용하는 대표적인 글꼴만 가지고 학습시켰는데
차차 가능한 많은 글꼴로 학습시킬 생각입니다.
30 여보밥줘  
sub/idx로 테스트 해 봤어요. 흔한 글꼴의 경우는 인식률이 좋아요. 10줄에 한 번정도 오타가 나오네요
흔하지 않은 폰트는 인식률이 10%도 안되는거 같아요. 많은 폰트를 공부시켜야 겠어요..
아무튼 더욱 더 발전하시길 바랄게요!!!
2 darong  
제가 테스트해본 결과 줄 간격이 좁은 자막이나 이탤릭체 글꼴인 경우 인식이 잘 안되어서
이걸 개선하는 걸 다음 목표로 삼고 있습니다.
테스트해 주셔서 감사합니다.
2 SY0208  
우와~정말 세상엔 대단하신분들이 많은거 같아요ㅠ
24 바보정  
일단 자체한글영상에서 jpg파일 추출하는 작업이 가장 중요한 거군요
좀더 공부해야겠습니다~
1 kokoas  
서버 사양이 어느정도이신줄은 모르겠으나
밑의 사양보다 좋지 못하시다면
Homelab용 서버에 docker 형식이나 kvm 방식으로 지원 가능합니다.

CPU: 3900X OC 4.3 ( 12c / 24t )
RAM: 128GB
SSD: 1TB Gen.4 or HDD
NAT: 1기가랜 * 2 ( 별도 회선 )
2 darong  
지금 사용하고 있는 서버는 8CPU, 16RAM, 320Storage 서버입니다.
처리속도 개선을 위해 고스펙의 서버로 변경하는 것보다는 딥러닝 모델을 경량화해서
처리 속도를 빠르게 하는 방안을 우선으로 생각하고 있습니다.
24 바보정  
작업해본 결과 비슷한 결과가 나왔습니다
간격이 좁은 1~2글자 자막과 색깔 자막 등이
인식이 잘 안되더군요
이건 거의 마찬가지 아닐까 싶습니다
그래도 우수한 편입니다^^
타자치는 시간이 훨씬 줄어드네요^^
좀더 시도해 봐야 겠습니다^^
2 darong  
처음 공개 후 약간의 모델 업그레이드해서 줄간격이 좁은 경우도 인식 성능이 좋아졌지만
아직까지 잘 인식이 안되는 경우도 있네요.
색깔이 있는 자막의 경우 학습할 때 색깔 자막도 학습 데이터로 구축했지만, 그 비중이 낮아서
인식률이 낮게 나오지 않았나 합니다. 다음에 학습시킬때는 색깔 자막의 비중을 좀 더 높이도록 하겠습니다.
24 바보정  
대충 글자 등에서 보면 네 응 그래 등등이나
숫자 하나 둘 이런건 거의 인식이 안되더군요

그치만 이정도면 적어도 70~80%이상의 놀라운 인식률이라고 봐야 합니다
정말 놀라우십니다^^

앞으로 점점 dvd 출시는 적어지고 다운로드 시대로 돌입하므로
자막 제작자들의 고생도 많이 줄어들거라 생각합니다
정말 고생 많으셨습니다^^
2 darong  
딥러닝이란 게 학습 데이터가 많을수록 정확도가 올라갑니다.
이번 OCR 처리를 위해서 약 100만개의 문장 이미지를 학습시켰습니다.  만약 천만 문장 정도의 데이터로
학습시키면 오인식이 많이 줄어들 겁니다. 하지만 학습 시간이 너무 오래걸려서 그렇게 하기는 힘듭니다.
(GTX 1080TI로 100만 문장 학습하는데 일주일 정도 걸립니다.)

현재도 OCR 성능 향상을 위해 학습을 틈틈히 시키고 있어서 점차 인식 성능이 좋아질걸로 기대합니다.
24 바보정  
오오 마치 파파고 같은 방식이군요
제가 많이 이용하면 성능도 많이 늘어나겠군요 ㅎㅎㅎ
1 사각김밥  
너무 최고! 너무 좋아요. 항상 잘 사용하고 있답니다. 너무 감사드립니다.