한글 자막용 OCR
darong
10
1976
3
2019.11.12 11:43
Tesseract나 구글 비전 API OCR은 한글 인식 성능이 떨어지거나 유료라는 단점이 있습니다.
그래서 구글 비전 API 수준의 성능의 한글 OCR를 만들 수 있는지 프로토타입을 만들어 보기로 했습니다.
20만개의 문장, 그리고 2000개의 배경 이미지의 학습 데이터를 구축하고 딥러닝을 이용해 학습시켰습니다.
결과 예
아래는 자료실에 있는 자막을 동영상에 입힌 다음 OCR 인식 성능을 테스트한 결과입니다.
여러 자막에 대해 테스트 결과 인식이 잘 되는 경우도 많았지만, 자막이 두 줄인 경우 줄 단위로 영역을 검출하지 못해
인식에 실패하는 경우도 발생했습니다.
결론적으로 학습 데이터를 더 많이 구축해서 학습시키면 구글 비전 API 수준의 성능이
가능할 것 같다는 생각이 들었습니다.
차후에 학습 데이터를 더 구축해서 실사용이 가능한 수준의 인식 성능이 나오는지 테스트해 볼 예정입니다.
그래서 구글 비전 API 수준의 성능의 한글 OCR를 만들 수 있는지 프로토타입을 만들어 보기로 했습니다.
20만개의 문장, 그리고 2000개의 배경 이미지의 학습 데이터를 구축하고 딥러닝을 이용해 학습시켰습니다.
결과 예
아래는 자료실에 있는 자막을 동영상에 입힌 다음 OCR 인식 성능을 테스트한 결과입니다.
여러 자막에 대해 테스트 결과 인식이 잘 되는 경우도 많았지만, 자막이 두 줄인 경우 줄 단위로 영역을 검출하지 못해
인식에 실패하는 경우도 발생했습니다.
결론적으로 학습 데이터를 더 많이 구축해서 학습시키면 구글 비전 API 수준의 성능이
가능할 것 같다는 생각이 들었습니다.
차후에 학습 데이터를 더 구축해서 실사용이 가능한 수준의 인식 성능이 나오는지 테스트해 볼 예정입니다.
10 Comments