MakehardSub을 활용한 영상 자체자막 이미지 보정(darong님이 올리신 파이썬 스크립트 활용)

1 fontcreator 오순도순 3 1510 0 2020.01.15 14:54

darong님 께서 올리신 MakehardSub을 활용해서 추출을 하는 중에 영상이 흰색 이거나 밝은 색이면 구글독스에서 OCR이 제대로 되지 않아서 뭔가 방법이 없을까 생각중에

아래 방법으로 해보니 중문, 영문 인식률이 꽤 좋아서 활용하실 분들이 계시면 한 번 해보시면 좋겠다 해서 올립니다.

MakehardSub에 있는 imgmerge.py는 제가 임의로 수정을 조금 했습니다. 이미지 세로를 55000 정도로 했습니다.

이러면 한 이미지당 자막이 130~200개 사이로 합쳐집니다.

구글독스에서 어느정도 길이까지 인식하는지는 몰라서 이렇게 했고, 파일 크기는 10메가가 넘어가면 안됩니다.

1. 비디오 서브 파인더로 캡쳐한 이미지들을 합칩니다.

2. 이프란뷰어로 (https://www.irfanview.com/) 일괄이미지 변환을 해줍니다. 파일 - 일괄 변환 / 이름 바꾸기

옵션은 맨아래 이미지. 영상에 입혀진 자막에 따라 오른쪽 상단에 있는 샤픈값을 수정하면서 봐야합니다. 검정테두리가 좀 있는경우는 8정도로 해도되고

영상 해상도가 720에 테두리가 없으면 많이 올려줘야 됩니다. 50정도까지 줘야 하는 경우도 있습니다.

3.이프란 뷰어로 변환한 이미지를 포토샵으로 열어서 이미지 변환을 해줍니다.

1. Image-Adjustments-Threshold 메뉴 선택 후에 글자가 변하는 정도를 보면서 수치를 조금씩 조정해 줍니다.

2. Image-Adjustments-Posterize 에서 수치를 2로 해줍니다, Filter-Other-Custom 에서 가운에 5 오른쪽 1 아래쪽 1, 이렇게 하면 일괄로 됩니다.

포토샵에서 이미지 변환시에는 1번이나 2번이나 선택을 해서 좋게 나오는걸로 하면 됩니다.

영상캡쳐 이미지가 밝은경우는 글씨부분말고 흰색 점들이 나올때가 있는데 그런건 지우개 툴 같은걸로 지워주면 됩니다.

많은 흰색 점들이 나올때도 있고 없을때도 있고 그렇습니다... 많이 나오면 노가다 좀 해야죠 ㅎㅎ

암튼... 이미지 저렇게 만들어 주면 인식률이 95퍼 이상입니다. 중문도 특정 글자(잘 안되는 글자가 있어요 ;) 제외하고는 굉장히 잘 됩니다.

Lv.1 1 fontcreator 실버(2등급)

등록된 서명이 없습니다.

3 Comments

24 Hsbum 2020.01.15 21:10

능력자분들이 많이 계시는군요.

16 o지온o 2020.01.22 07:51

올~~ 보다보니 신기하네요. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
화면에서 자막 부분만 선명한 흰 색이고
나머지를 모두 검은 색으로 할 수가 있군요.
멋집니다.

22 routine 2020.01.23 21:30

곧 있으면 자체자막도 자동화 가능할 듯
대단하십니다

이전 다음 목록