일본어의 특정 한자 출력 문제.. 다들 어떻게 하시나요?
제이순
13
1578
0
2019.02.12 12:16
예를 들어서 자막에
'落ち込む' 라는 일본어 단어가 있다고 한다면,
만약 자막이 ANSI 소스의 포멧이라면 '落ち○む' 이렇게 나오겠죠
- '込'라는 한자를 인식 못해서 '○' 이런식으로 출력합니다
그리고 자막이 UTF-8 포멧이라면 '落ち込む' 이렇게 모두 정상적으로 나올겁니다
- 그런데 특정 프로그램에서는 오히려 한글이 안나올수도 있다는게 문제죠
그래서 저는 지금까지 자막을 ANSI 포멧을 선호했는데요
저 일본어 단어처럼 특정 한자가 깨지는 현상을 보면
UTF-8 포멧이 맞는건가 싶기도 하고,
지금까지는 한국에서는 ANSI로 가는게 맞는게 아닌가 생각했었는데...
다소 머리속에 혼란이 오네요
한글과 일본어가 둘 다 있는 자막에서
자막 제작자 분들은 이 문제를 어떻게 해결 하시나요?
저런 특수 한자는 전체로 보면 적은 수니까 그냥 포기하는게 맞는 걸까요?
'落ち込む' 라는 일본어 단어가 있다고 한다면,
만약 자막이 ANSI 소스의 포멧이라면 '落ち○む' 이렇게 나오겠죠
- '込'라는 한자를 인식 못해서 '○' 이런식으로 출력합니다
그리고 자막이 UTF-8 포멧이라면 '落ち込む' 이렇게 모두 정상적으로 나올겁니다
- 그런데 특정 프로그램에서는 오히려 한글이 안나올수도 있다는게 문제죠
그래서 저는 지금까지 자막을 ANSI 포멧을 선호했는데요
저 일본어 단어처럼 특정 한자가 깨지는 현상을 보면
UTF-8 포멧이 맞는건가 싶기도 하고,
지금까지는 한국에서는 ANSI로 가는게 맞는게 아닌가 생각했었는데...
다소 머리속에 혼란이 오네요
한글과 일본어가 둘 다 있는 자막에서
자막 제작자 분들은 이 문제를 어떻게 해결 하시나요?
저런 특수 한자는 전체로 보면 적은 수니까 그냥 포기하는게 맞는 걸까요?
13 Comments
![](https://cineaste.co.kr/data/member_image/ch/cha98os.gif)
![](https://cineaste.co.kr/data/member_image/lj/ljscia.gif)
![](https://cineaste.co.kr/data/member_image/lj/ljscia.gif)
그렇기도 하겠네요. 흠..
하지만, 아직까지 문제가 없었으므로 개인적으로 그냥 사용하는 것으로 만족해야겠네요.
아래 설명을 보자면 유니코드는 전 세계의 모든 문자를 일관되게 표현하기 위해서 만들어진 것이라고 설명되어 있네요.
물론, 일본어도 포함되어 있으리라 생각됩니다.
UNICODE는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현할 수 있도록 고안된 코드 조합이다.
전세계 거의 모든 문자를 2bytes 숫자로 1:1 매핑 시킨 것이다. 유니코드_목록을 통해 매핑 테이블을 확인할 수 있다.
한글은 한글_목록을 보면 된다.
여기서 '가'를 찾아보면 유니코드 값이 'AC00' 인 것을 알 수 있다. 16진수 AC00은 10진수로 44,032 인데 8bit로 나누기에 너무 크다. 이 값을 8bit 단위로 쪼개어 저장하는 방법이 UTF-8이다.
윈도우 비스타 이상에서는 유니코드를 UTF-16으로 인코딩한다.
유니코드 값을 바로 사용하지 않고 UTF-8을 이용하여 사용하다보니 UTF-8 = UNICODE 라 생각하기 쉬운데 별 생각 없이 유니코드 목록에서 값을 찾게 되면 맨붕에 빠지기 쉬우니 주의하도록 하자.
하지만, 아직까지 문제가 없었으므로 개인적으로 그냥 사용하는 것으로 만족해야겠네요.
아래 설명을 보자면 유니코드는 전 세계의 모든 문자를 일관되게 표현하기 위해서 만들어진 것이라고 설명되어 있네요.
물론, 일본어도 포함되어 있으리라 생각됩니다.
UNICODE는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현할 수 있도록 고안된 코드 조합이다.
전세계 거의 모든 문자를 2bytes 숫자로 1:1 매핑 시킨 것이다. 유니코드_목록을 통해 매핑 테이블을 확인할 수 있다.
한글은 한글_목록을 보면 된다.
여기서 '가'를 찾아보면 유니코드 값이 'AC00' 인 것을 알 수 있다. 16진수 AC00은 10진수로 44,032 인데 8bit로 나누기에 너무 크다. 이 값을 8bit 단위로 쪼개어 저장하는 방법이 UTF-8이다.
윈도우 비스타 이상에서는 유니코드를 UTF-16으로 인코딩한다.
유니코드 값을 바로 사용하지 않고 UTF-8을 이용하여 사용하다보니 UTF-8 = UNICODE 라 생각하기 쉬운데 별 생각 없이 유니코드 목록에서 값을 찾게 되면 맨붕에 빠지기 쉬우니 주의하도록 하자.
추카추카 15 Lucky Point!
![](https://cineaste.co.kr/data/member_image/ch/cha98os.gif)