1. 개요
텍스트의 인코딩과 디코딩이 잘못됐을 때 생기는 문자열. 한자인 占(점령할/점칠 점)의 음을 따서 '점쏙옙'이라고도 부른다.<colbgcolor=#dddddd,#212121> UTF-8 | � | � | ||||
바이트 | EF | BF | BD | EF | BF | BD |
EUC-KR | 占 | 쏙 | 옙 |
UTF-8로 저장하는 과정 중 뭔가 꼬여서 온전하게 저장되지 못한 문서를 EUC-KR로 불러오면 이렇게 된다. 문서를 UTF-8로 저장할 때, UTF-8에서 유효하지 않은 byte sequence는 모두 �(U+FFFD, REPLACEMENT CHARACTER)로 대체되는데, 이 �는 UTF-8에서 EF BF BD라는 세 바이트로 저장된다. UTF-8에서 �가 두 번 붙은 ��는 EF BF BD / EF BF BD가 되는데, 이것을 EUC-KR로 해석하면 EF BF / BD EF / BF BD로 나눠지고 셋은 각각 '占', '쏙', '옙'에 대응된다. 이와 같이 UTF-8 문서 저장 과정에서 뭔가 잘못된 경우, 저장된 문서를 다시 열어보면 문서의 모든 내용이 占쏙옙으로만 채워져 있다. 불러올 대상이 이미 �로 깨져있어야만 일어나는 오류이기 때문에, 占쏙옙이 이미 일어난 상태에서는 뭔 짓을 해도 원래 나왔어야 할 문서는 못 본다.
어쨌든 데이터 저장 과정상의 오류이므로 웹에서 이 문제가 실제로 일어난다면 서버 측의 오류일 수도 있고, 클라이언트 측의 오류일수도 있다. 서버 상에서 한글 처리 오류가 발생해 입력받은 문서가 전부 �로 저장되거나, 업로드 시점에서 이미 데이터가 �로 깨져서 올라간 상태에서 사이트 기본 인코딩이 EUC-KR로 지정되어 있으면 이 문제가 일어나며, 반대로 서버와 서버 상의 데이터에는 문제가 없는데 클라이언트 상에서의 오류로 인해 서버에서 불러오는 한글이 전부 �로 깨져서 캐싱돼도 이 문제가 일어난다. 당연히 일부러 �로 깨진 페이지를 불러와서 인코딩을 EUC-KR로 강제 지정하면 맘껏 감상할 수 있다.
2. 변형
- 베리에이션으로 占쌩쏙옙, 占싱깍옙, 占긍궔옙, 占신되억옙, 占쌀곤옙, 占싼깍옙, 占싹놉옙, 占싱몌옙, 占쌉뤄옙, 占쌍듸옙, 占쌀븝옙, 占쌌니댐옙, 占싹시울옙, 占실심받아왔댐옙 등이 있으며, 여태까지 발견된 것 중 제일 긴 것은 '占쌩싱귐귤됐왔늡심받아왔니시왔늡싣왔늡심받아왔달앵억옙'(27자)이다. 종류가 다 적지 못할 정도로 많다. 占ㅆ~옙(내지는 占ㅅ~옙)하는 글자들은 전부 같은 원리로 생성된다. 참고로 ~옙으로 끝나지 않는 것도 있으며 占썩본, 占썰구, 占싹기도, 占썩서, 占싫, 占쌍, 占 썸남, 占 스울 등이 있다. 占쏙옙이 아닌 수백가지의 베리에이션들. 한때 이글루스에서 占쏙옙 때문에 대란을 겪은 적이 있으며, 이후에도 잊을 만하면 가끔씩 출몰했다.
- 자매품으로는 '竊잞폕'[1]과 '용습계품'[2][3]이 있다.
- 가끔씩 占쏙옙과 竊잞폕이 합쳐진 占竊잞폕옙(¼?¿½) 이나 占쏙폕(�?) 혹은 竊잞옙(?�) 출현하는 경우가 있는데, 이 경우는 매우 드물다.
- '占쏙옙'의 간체자판은 锟斤拷이며, 일본어판은 鐃緒申(EUC-JP), �ソス(SHIFT-JIS)이다.
- 영미권 ISO/IEC 8859-1에서는 �으로 표시된다. UTF-8로 저장된 �의 EF, BF, BD 세 바이트가 ISO/IEC 8859-1에서는 각각 ï, ¿, ½에 대응되기 때문이다.
- 해외 게임이나 기타 소프트웨어의 저장 파일이 원드라이브 등에 "臾몄꽌"이라는 폴더에 저장된다. # # #
3. 예시
- 인터넷 기사에도 출연한 적이 있다. 원본은 삭제되었다.
- 상록수의 덥스텝 곡인 '占쏙옙占쏙옙'도 여기에서 비롯되었다.( 링크)
- SCP 재단에도 나타났다. SCP-404-KO-J( 해설) 참고.
- 일본 센다이시의 공공 와이파이를 통해 일부 한국어 페이지 접속 시 오류로 모든 한국어 문자가 占쏙옙으로 나타나기도 한다.
- JR 동일본에서 기명식 관광 티켓을 발급할 때 한글 이름이 占쏙옙으로 노출된다.
- JR 도카이 한국어 홈페이지에서도 나타난다. #
- 위메이드 엔터테인먼트의 인트라넷 로그인 시 비밀번호를 틀리면 '占쎈챷'이 출현한다.
- 구글에서 "占쏙옙"을 검색하면 "9占쏙옙 占쏙옙치 占쏙옙f 占쌔곤옙"이라는 이름으로 검색결과에 등장하기도 한다.( 그 검색결과에 들어갔을 때 나오는 페이지) 위의 그것인 오라클과 Java관련 사이트에서 유난히 많이 보이는데 구글에 占쏙옙을 검색하면 오라클 페이지가 흔히 보인다.
-
占쏙옙은 우리 근처 어디에나 있습니다.
무섭다 - Baekjoon OJ에서 문제로 제공 중. [답][힌트]
- "占쏙옙"이라는 문자로 도배한 문장을 영어로 변환한 모습
- 유플러스 인터넷 서비스에서도 출현. 정확히는 UTF-8을 EUC-KR로 잘못 읽어서 발생한 것이다.
- 이 문서가 깨진 버전
- epic pen 이라는 판서 프로그램 설치 화면에서 占쏙옙이 나온다.
- 유튜브에 '占쏙옙'을 검색하면 수 많은 국뽕튜브 채널 봇들이 나온다. 해당 계정들은 전부 베트남 계정들로 각국 언어로 자동번역 및 자동 업로드를 하는 과정에서 인코딩이 깨진걸 인지하지 못하고 그대로 올렸을 가능성이 크다. 때문인지 일본어판인 '鐃緒申'을 검색해도 일뽕 튜브들이 잔뜩 나온다.
- CGV의 포토플레이에서도 나타난다.
- Apple 공식 홈페이지에서도 나타난다. # #
4. 임의로 만드는 법
- 메모장을 연 뒤 '�'로 도배한 후 인코딩을 UTF-8로 설정한 뒤 파일 형식을 html로 저장한 다음 Internet Explorer로 열어서 마우스 우클릭을 한 다음 인코딩을 한국어로 하면 나타난다. 또한 메모장에 문구를 적은 뒤 이걸 Internet Explorer로 연 뒤에, 거기 적힌 문자들을 복사해서 메모장에 다시 붙여넣기 하고, 다시 그걸 Internet Explorer로 열면 占쏙옙이 나타난다.
- 그림판을 열고 이 색(#BDBFEF, 빨강 189, 녹색 191, 파랑 239)으로 채운 뒤, 24비트 BMP로 저장한 다음 그림 파일을 메모장으로 열면 된다. 윗부분에 占쏙옙 하나만 나타나는 게 아니고 전체로 도배되며, 앞부분에 헤더 정보가 담긴 제어 문자가 등장한다.[6] 만약 Windows 10 2004 미만의 윈도우를 쓰고 있을 때 png로 저장하면 커널 패닉이 발생한다.
5. 나올 수 있는 문자
여기에 서술된 문자들은 EUC-KR 기준으로, 앞의 占과 뒤의 옙 사이에 이 문자가 걸렸다면 십중팔구 占쏙옙이라 봐도 된다.코드 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F |
BDA0 | 숯 | 숱 | 숲 | 숴 | 쉈 | 쉐 | 쉑 | 쉔 | 쉘 | 쉠 | 쉥 | 쉬 | 쉭 | 쉰 | 쉴 | |
BDB0 | 쉼 | 쉽 | 쉿 | 슁 | 슈 | 슉 | 슐 | 슘 | 슛 | 슝 | 스 | 슥 | 슨 | 슬 | 슭 | 슴 |
BDC0 | 습 | 슷 | 승 | 시 | 식 | 신 | 싣 | 실 | 싫 | 심 | 십 | 싯 | 싱 | 싶 | 싸 | 싹 |
BDD0 | 싻 | 싼 | 쌀 | 쌈 | 쌉 | 쌌 | 쌍 | 쌓 | 쌔 | 쌕 | 쌘 | 쌜 | 쌤 | 쌥 | 쌨 | 쌩 |
BDE0 | 썅 | 써 | 썩 | 썬 | 썰 | 썲 | 썸 | 썹 | 썼 | 썽 | 쎄 | 쎈 | 쎌 | 쏀 | 쏘 | 쏙 |
BDF0 | 쏜 | 쏟 | 쏠 | 쏢 | 쏨 | 쏩 | 쏭 | 쏴 | 쏵 | 쏸 | 쐈 | 쐐 | 쐤 | 쐬 | 쐰 |
코드 | 0EF | 1EF | 2EF | 3EF | 4EF | 5EF | 6EF | 7EF | 8EF | 9EF | AEF | BEF | CEF | DEF | EEF | FEF |
A000 | ∽ | ? | o | ㅿ | ο | ? | ㏆ | ⑨ | ⑼ | わ | ワ | э | ? | ? | ? | |
B000 | 깍 | 뀐 | 놂 | 댐 | 듸 | 띰 | 뤄 | 몌 | 뱄 | 븝 | 삼 | 쇽 | 쏙 | 억 | 울 | |
C000 | 쟁 | 즉 | 찍 | 췹 | 쿤 | 퇘 | 폄 | 헬 | 흥 | 感 | 建 | 逕 | 工 | 膠 | 眷 | |
D000 | 器 | 爛 | 紐 | 刀 | 鈍 | 閭 | 牢 | 鯉 | 盟 | 畝 | 盤 | 梵 | 蓬 | 比 | 蛇 | 徐 |
E000 | 涉 | 碎 | 舜 | 薪 | 埃 | 俺 | 烈 | 吳 | 寥 | 旭 | 愈 | 倚 | 逸 | 獐 | 全 | 程 |
F000 | 卒 | 楫 | 瓆 | 蒼 | 剃 | 逐 | 駝 | 派 | 爆 | 闔 | 俠 | 哄 | 誨 | 姬 |
6. 해외에서
6.1. 출입국 심사 문제
최근[7] 한국 컨텐츠(노래, 영화, 드라마 등)의 국제적 위상이 올라가자, 한국인과 외모가 비슷한 국가에서 온 사람들이 각국의 출입국에서 본인은 한국인이라고 주장하며 위장을 하는 사례가 있다.이에 각국 출입국에선 이런 사람들을 무작위로 선정하여 출입을 승인하기 이전에 한국인임을 입증하기 위해 한국의 역사와 관용어 등의 내용이 포함된 질문지를 만들어 풀게 하고 있는데, 당연히 하나라도 틀리면 입국이 거부된다. 당연히 역사와 관용어의 경우 한국인들도 모르는 사람은 모를 수밖에 없는데, 이 때문에 한국인들 역시 이 시험에서 걸러져 몇백만원의 항공값을 그대로 날리고 꼼짝없이 강제 귀국당하는 경우가 적지 않다고 한다.
개중에는 제작된 문항이 전달되는 과정에서 인코딩 오류가 발생해서 질문지가 위 문서에서 언급된 문자로 바뀌어서 인쇄되는 경우가 종종 있다고 한다. 대표적으로 유럽 연합 및 솅겐 협정 범위 내 국가에서 상당히 빈번하며 미국 샌프란시스코 국제공항에서도 보고된 바 있다. 문제는 입국 심사관이 한글을 모르는 사람인 경우 문제지의 한글이 오류로 잘못 기재되었음을 알 수 없기 때문에 공항 측에서 별도의 통역사가 제공되어 도움을 받을 수 있는 상황이 아닌 이상 아무리 문제지에 출제 오류가 있음을 호소해도 이를 심사관에게 입증하기가 불가능에 가깝다는 것에 있다. 시험으로 치자면 출제오류가 발생하여 억울하게 오답 처리되었음에도 응시자가 출제오류를 입증할 수단이 존재하지 않는 경우라 할 수 있다. 이 문제는 여전히 현재진행형이다.
7. 관련 문서
[1]
전각 물음표 두 개(??)를 UTF-8로 저장한 뒤 CP949로 열면 이렇게 된다. UTF-8: EF BC 9F (?) / EF BC 9F (?)→CP949: EF BC (竊) / 9F EF (잞) / BC 9F (폕). 여담으로 竊는 '훔칠 절'자이다("절도" 등).
[2]
외국 사이트에 적힌 한국어에서 자주 발생하며, 占쏙옙이나 竊잞폕과는 다르게 어감이 뭔가 그럴싸하기 때문인지 외국의 어느 게임 회사가 게임명을 한국어로 번역하려다 인코딩 오류로 저게 뜬 걸 그대로 제목으로 붙여버린
웃지 못할 사례도 있다. 저들이 원했던 번역명은 '에어포스 X'.
또 다른 용습계품들.용지지지지 용지지지지
[3]
123rf라는 사이트에서 거의 모든 텍스트가 용습계품일 정도로 용습계품이 매우 많이 있다.
[답]
문제에서 占쏙옙을 모두 제거하면 내용이 나온다./ 정답은 占쏙옙
� 이다. 정확히 말하자면 �문자를 복사해 Text로 제출하면 된다.
[힌트]
이 문제는 예제를 채점하지 않습니다. 데이터는 한개입니다. 입력을 받을 필요는 없다.
[6]
실패하는 경우도 있는데, 파일을 1px X 1px로 저장하고 메모장으로 실행하면 BM: 6 ( � 이 나타나며 실패한다.
[7]
리버전 분석 결과 2022년 9월부터 발생되는 문제로 추정.