최근 수정 시각 : 2024-10-29 14:57:58

Wayback Machine

웨이백머신에서 넘어옴
<colcolor=#373a3c,#ddd> 웨이백 머신
Wayback Machine
파일:Wayback Machine 로고.svg
설립 1996년 5월 10일
공개 2001년 10월 24일
소유 Internet Archive
유형 저장, 미러
상태 사용 가능
광고 없음
회원가입 선택
작성 언어 C언어, Perl
링크 https://archive.org/
https://archive.org/web

1. 개요2. 상세3. 기능4. 삭제 요청 확인5. 문제점
5.1. 법률적 문제5.2. 아카이빙 관련
6. 사건사고
6.1. 인터넷 아카이브 저작권 소송사건6.2. 인터넷 아카이브 DDoS 및 데이터 유출 사고
7. 여담8. 관련 문서

[clearfix]

1. 개요

브루스터 케일이 창립한 미국의 비영리재단인 인터넷 아카이브(Internet Archive)에서 제작한 디지털 타임캡슐이다. 전세계의 각종 웹사이트를 크롤링한 뒤 날짜와 시간대별로 저장, 보존하여 해당 웹사이트의 과거 모습을 다시 볼 수 있게 해 주는 서비스로, 2024년 9월 2일 기준 현재 8660억 개의 페이지가 아카이브되어 있다. 알렉사 인터넷의 컨텐츠와 함께 유지되고 있다.

정보의 바다라고 불리는 인터넷이지만, 인터넷상의 정보는 생각보다 쉽게 사라져 버린다. 작성자가 게시글을 삭제하지 않는다고 하더라도, 웹사이트를 운영하는 회사의 사정으로 서비스가 중단되거나[1] 개편되는 등의 원인으로 지금 이 순간에도 수많은 하이퍼링크가 끊어지고 있다. 미국 퓨 리서치 센터의 2023년 연구에 따르면, 2013년에는 접속 가능했던 웹페이지 중 38%가 10년 뒤인 2023년에는 접속할 수 없게 되었고, 또 영어 위키백과의 인용/출처 란에 달린 링크 중 절반 이상은 이미 접속 불가능 상태였다고 한다[2](링크 부패/Link Rot). 이런 현실에서, 웨이백 머신은 인터넷 정보의 보존에 큰 기여를 하고 있다.

하지만 아카이브 서비스 자체의 특성상 잊힐 권리 저작권 관련 문제점들이 존재하는 것도 사실이다. 이에 관련된 내용은 이 문서의 문제점 문단에 서술되어 있다.

2. 상세

웨이백 머신에서 자체적으로 보존한 웹 페이지는 저장하고 6~12개월 후에 공개된다. 저장하는 주기가 다르기 때문에 업데이트 때마다 추적, 기록하는 건 아니다. 하지만 어떤 웹사이트는 몇 주 간격이나 또는 하루도 안되어 공개되는 경우도 있다. 게다가 해당 시간대의 들어간 사이트는 검색도 아예 못하게 되어 있다.

특정 웹 페이지의 아카이브를 원하는 경우 https://web.archive.org https://archive.org/web/으로 들어가서 자신이 아카이브 하기 원하는 페이지의 주소를 넣으면 된다.

이 방법으로 들어가는 사이트마다 자동으로 아카이브되게 할 수도 있다. 다만 회원제 사이트는 아카이브되지 않고, 방화벽이나 클라우드 플레어가 있는 경우도 아카이브되지 않을 수 있다. 물론 이는 개인정보를 어느 정도 보호할 수 있다는 뜻이기도 하다.

방대한 규모의 웹사이트들이 웹 크롤링을 통해 자동으로 아카이브에 저장된다.

robots.txt 크롤링을 막아놓으면 크롤링하지 않는다. archive.is와 달리 자동화된 로봇으로 크롤링을 하여 아카이빙을 하기 때문이다.

PC 버전 웹페이지 주소를 입력했는데 자동으로 모바일 버전 웹페이지로 저장하는 경우가 있다.

URL의 날짜부분 끝에 fw_ 를 붙이면 툴바가 삭제된다.[예시][원본]

3. 기능

4. 삭제 요청 확인

[email protected] 로 삭제 요청을 한 경우, 다음의 방법으로 자신의 요청이 어떤 상황인지 대략적으로 알 수 있다.
1. https://archivesupport.zendesk.com/ 으로 간다.
2. Sign in 을 클릭한 후 나오는 화면에서 Forgot password 를 입력.
3. 다음 화면에서, 삭제요청을 했을 당시의 본인의 이메일 주소를 입력한 후 Submit 를 클릭.
4. 그러면 본인의 이메일로 패스워드를 새로 설정하라는 메일이 archive.org 에서 오게 된다.
5. 링크를 클릭해서 나오는 화면에서 원하는 패스워드를 설정한다.
6. 다시 https://archivesupport.zendesk.com/ 로 가서 Sign in 을 클릭한 후, 본인의 이메일과 방금 설정한 패스워드로 로그인을 한다.
7. 로그인 후 https://archivesupport.zendesk.com/hc/en-us/requests 로 이동. My requests 항목에 자신의 요청이 있는 것을 확인. 내용을 클릭하면 요청이 제대로 들어간건지 알 수 있다. 만약 보낸 내용이 매우 길 경우 시스템에서 스팸으로 블락 했을수도 있으니 확인하는게 좋다.

로그아웃은 https://archivesupport.zendesk.com/access/logout 로 할 수 있다.

참고로 Status 항목에 open 이라고 써 있는것은 요청 처리중이라는 뜻 인데, Last activity 부분의 날짜가 한달을 넘었는데도 그대로면 무시당했다고 보면 된다.
또한 Status 가 solved 라고 나와있으면서 어두운 회색일 때는 처리 완료 되었다는 뜻인데, 그럼에도 불구하고 실제로 아무것도 해결되지 않았을 경우, 마찬가지로 무시당했다고 보면 된다.
만약 무시당한 것에 대해 계속해서 항의 메일을 보내면, 해당하는 zendesk 계정이 블럭당하는 것을 볼 수 있으며, 또 해당 웹사이트의 포럼에 이에 대해 항의 글을 올릴 경우, 해당하는 archive.org 계정이 블럭당하는 것을 볼 수 있다.

5. 문제점

5.1. 법률적 문제

웨이백 머신, 나아가 인터넷 아카이브 전체가 단순한 박제를 위한 아카이브는 아니지만, 근본적으로 archive.today의 문제점 중 일부 문제(특히 저작권)를 공유한다. 아카이빙 자체가 합법이 되려면, 대상이 되는 홈페이지나 웹사이트 혹은 인터넷상의 해당 컨텐츠 저작권자들의 허가를 먼저 받은 후 진행해야 하는데, 그냥 일단 무단으로 아카이빙 해 놓고, 후에 항의를 받으면 삭제하는 방식이기 때문. 심지어 삭제 요청에 대해서도, 상대방이 힘 없는 개인이다 싶으면 답신도 없이 그냥 무시하는 경향이 크다.

DMCA 관련 문제는 '받아주는' 편이지만, 어지간한 이유나 법적 근거가 있지 않는 한 전부 받아줘야 한다. DMCA 요청 자체가 정확한 법 조항을 근거로 요청자의 법적 신분을 공개하고 선서를 동봉해서 보내는 것이므로 법적 효력이 있기 때문이다. 얼티밋 워리어의 옛 블로그가 이런 식으로 아카이빙에서 제외된 바 있다. # Gizmodo 뉴스

wayback machine 검색창에서 abandonware 가 아닌, 현재도 저작권이 엄연하게 따로 존재하는 음악이나, 영화, 게임, 서적등 디지털 데이터로서 존재하고 공유할 수 있는 것들을 '잘' 검색해 보면 금방 찾을 수 있다. 물론 해당 웹사이트에 신고를 하면 삭제하긴 하지만, 근본적으로 업로드 자체를 막고 있는 것이 아니기 때문에 어차피 금방 또 다시 올라오는 데다가, 관리 인력이 충분하지 않아서 수많은 자료들 중 신고되지 않은 자료들까지 관리자측에서 일일이 찾아가면서 제거하는 것이 현실적으로 불가능하다. 심지어 archive.org 에서는 유저들의 ip를 기록하지 않고 있다고 주장하기 때문에, 저작권 침해로 피해를 입은 사람들이 침해한 자들을 찾아 고소하기도 굉장히 힘든 상황이다.

5.2. 아카이빙 관련

  • 유튜브를 포함한 동영상은 소수의 케이스로 보관이 된 경우도 있지만 대체로 보관되지않고 영상도 재생되지 않는다.
  • 트위터의 많은 트윗이 보관중이기 때문에 트윗을 보관하는 데 시간이 오래 걸린다. 그러나 저장이 되면 이미지도 같이 저장된다.
  • 인스타그램 게시물은 저장이 되지 않는다.
  • Tumblr는 게시물에 글만 있을 때 저장이 되며 사진과 동영상은 저장이 안 된다.
  • 나무위키 문서들은 예전에는 저장이 됐으나 현재는 아이피가 데이터센터 대역이라며 차단되어서 저장이 되지 않는다.

6. 사건사고

6.1. 인터넷 아카이브 저작권 소송사건


소송 타임라인

2020년 코로나19가 강타했을 때 미국 전역에 있는 도서관들이 문을 닫는 일이 생기자, 인터넷 아카이브는 동년 3월 24일부터 6월 16일까지 대출 시간을 1시간에서 2주로 늘리는 National Emergency Library를 운영하였다.[7] 그러다 동년 7월 1일에 Hachette Book Group, Inc외 3사에서 인터넷 아카이브 측에 공정사용이 아니라는 이유로 소송을 제기했다.[8]

약 3년 뒤인 2023년 3월 24일에 법원이 인터넷 아카이브가 Hachette사 외 3사의 저작권을 침했다는 판결을 내렸다.[9] 현재 인터넷 아카이브 측은 항소를 진행하고 있다. 샌프란시스코 시청 계단에서 집회를 하였다. 이유는 디지털 대출을 찬성하라는 집회였다.

현재도 진행형인 사건이며, 인터넷 아카이브는 이후 대부분의 도서 자료를 삭제하였다.

6.2. 인터넷 아카이브 DDoS 및 데이터 유출 사고

2024년 10월부터 웨이백 머신을 포함한 인터넷 아카이브 산하 여러 웹사이트에 과부하가 걸리는 DDoS 현상이 발생하였다.

그러다가 10월 9일, 갑자기 웨이백 머신 홈페이지가 뒤바뀌어버리는 디페이싱(defacing)[10] 사고가 발생하였다. 내용은 인터넷 아카이브와 웨이백 머신의 보안을 조롱하는 내용이었으며, 약 3100만명의 사용자 데이터가 유출되었다는 메시지였다. # # 주요 정보 보안 관련 외신들도 이 사고를 일제히 보도하였다. # [11] 이후 러시아의 DDoS 그룹 SN_BLACKMETA 측에서 자신이 DDoS를 벌였다고 주장하며 화제가 되었다.[12] 그룹은 X를 통해 " 웨이백 머신은 미국 산하의 기관이며, 팔레스타인의 자유를 위해서 미국 산하의 사이트를 공격하였다"는 성명을 발표하였다. #

인터넷상에서는 이 그룹에 대해 전세계적인 비난이 쏟아졌다. 일단 웨이백 머신은 미국과 아무런 관련이 일제 없으며, 애초에 비영리 기업이다. 팔레스타인 지지자들도 입을 모아 이 DDoS 공격을 비난하였는데, 정작 인터넷 아카이브는 팔레스타인과 그 국민들이 받는 탄압을 다루는 자료도 많이 소장하고 있기 때문이다. 거기다가 하필 인터넷 아카이브도 비슷한 시기에 공격을 당했기에 매우 민감한 상황이다.

정보 보안 관련 X 유저 vx_underground는 "나는 DDoS 그룹이 이토록 많은 비난과 증오를 받는 것을 본적이 없었다"면서 정치 성향, 국적을 불문하고 전세계인들 모두가 증오라는 목적 단 하나만을 위해 합세하는 것이 신기하다는듯 X에 올려 게시하였다. #

현재 사이트는 10일 오전 (한국 시간) 일부 복구되었으나, 이후 10일 저녁 DDoS 공격이 재감행되어 다시 내려간 상태이다.

인터넷 아카이브의 데이터는 손상되지 않았으며, 현재 내부 시스템을 업그레이드 중이기 때문에 접속할 수 없다고 한다. #

한국 시간으로 10월 14일 오후 2시경 복구되었으나, 아직 새로운 페이지를 저장할 수는 없다.

이후 10월 20일, 추가적인 공격 상황이 전해졌다. 인터넷 아카이브에서 사용하던 고객 응대 업체인 젠데스크[13] 이메일 API가 해커에 의해 노출되어 있다는 사실이 알려졌으며, 약 80만 명의 사용자 데이터와 이 사용자들이 인터넷 아카이브 고객 지원팀과 주고 받은 이메일 및 민감한 개인 정보등이 싸그리 털렸다는 사실이 추가로 확인되었다. #

사태가 이 정도로 심각해지자 여론은 둘로 나뉘었다. 인터넷 아카이브 웨이백 머신에 대한 무차별적인 공격 중단을 촉구하는 여론이 있는가 하면, "이미 한번 해킹당하고 유출당한지 며칠도 안되서 또 해킹 당하는 거냐"는 불만 내지는 실망의 목소리도 나오고 있다. 게다가 이번 유출은 단순 이메일 주소뿐만 유출된 것이 아니라 주고받은 이메일 내용까지 유출되었을 가능성이 크며, 이메일 내용에 개인 사생활이나 기업 기밀 등 매우 민감한 정보가 들어 있을 수 있어 사태는 비교도 안 될 정도로 커질 수 있다. 게다가 유출된 경로가 단순히 API 키가 유출된 것으로 인해 해킹당한 것으로 추측되고 있는데, 이러한 API 키는 손쉽게 변경 가능하므로 해킹 및 유출 사실이 밝혀졌을 때 재빨리 변경했어야 함에도 하지 않았다는 것은 인터넷 아카이브 팀의 실책이라는 것이 중론이다.[14]

사태가 장기화되자 음모론도 나돌기 시작하였는데, 인터넷 아카이브 공격을 사주한 것이 아카이브에 소장된 자료를 모두 없애려 하는 정부 또는 대기업이라는 설이다. 실제로 인터넷 아카이브가 도서 이용으로 인해 저작권 시비를 받고 있다는 것을 생각하면 대기업에서 저작권을 빌미로 인터넷 아카이브가 눈엣가시로 보이는 것은 당연한 일이다.

이후 한국 시각 10월 22일 오전 5시 경 (현지 시각 10월 21일), 파일 업로드나 로그인 등을 제외한 웹사이트 모든 부분[15]이 복구되었다. # # 인터넷 아카이브 측은 블로그 게시글에서 젠데스크 해킹 사태를 간략히 언급하였으며 웹사이트 보안을 강화하기 위해 최선을 다하겠다고 해명했다.

10월 23일 다시 접속이 불가능하다.

7. 여담

  • 위키백과에 InternetArchiveBot 이라는 봇이 있다. 이 봇의 역할은 깨진 링크를 웨이백 머신 링크로 대체하는 것이다.
  • 인터넷 아카이브에서 운영하는 Wayforward Machine이라는 사이트도 있다. 말 그대로 웹사이트들의 미래를 볼수 있는 곳이다. 인터넷에 여러 제한사항이 생겨 자유로운 이용이 불가능해질 것을 경고하며 이를 막기 위한 캠페인을 홍보하는 사이트이다.
  • 파일:Internet Archive servers.jpg

    • 파일:wayback machine server.jpg

    웨이백 머신의 서버는 이렇게 생겼다. 랙 캐비넷의 이름은 페타박스(Petabox)이고, 위쪽이 신형 버전, 아래쪽이 구형 버전이다. 서버 옆에 있는 사람이 바로 창립자 브루스터 케일이다.
  • 오래된 웹 페이지를 통째로 복원하는 HTTP 프록시 프로젝트인 Protoweb도 있다.[16] Protoweb에선 오래된 웹 페이지를 열람하는것 외에도 warpstream이라는 YouTube 미러서비스로 동영상을 시청할수 있다. Wayback Machine도 제공하는데 기능을 쓰기 위해서는 주소창에서 도메인 뒤 포트번호에 원하는 년도를 넣으면 된다.[17] 메인 페이지인 inode.com에서도 이용할수 있다. Action Retro가 개발한 HTML 변환 검색엔진인 Frog find와 구글 뉴스 미러 페이지인 68k News도 제공한다.
    • 같은 서비스로 아예 DNS로 서비스하는 ucanet이 있다. Protoweb이랑 협약을 맻어서 Protoweb에서 복원한 페이지도 제공한다.
  • 1996년 5월에 설립되었기에 1995년까지의 인터넷 사이트 기록은 없다.
  • 웹 크롤링 저장은 1996년 10월 29일[18] 시작되었다. #1 #2

8. 관련 문서



[1] 한국어 웹의 예를 들면, 이글루스, 다음 블로그가 서비스 종료되면서 해당 블로그들에 접속할 수 없게 되었다. 해당 블로그 서비스를 이용하던 블로거가 손수 블로그 내용을 백업받아 다른 사이트로 옮기지 않았다면, 그 블로그에 올라왔던 글들은 모두 삭제된 것이다. [2] Chapekis, A.; Bestvater, S.; Remy, E.; Rivero, G. (2024-05-17). " When Online Content Disappears". Pew Research Center. [예시] https://web.archive.org/web/20180101010338fw_/http://www.example.com:80/ [원본] https://web.archive.org/web/20180101010338(비움)/http://www.example.com:80/ [5] 대부분이 있다는 것은 꽤 신기한 내용인데, 없을 것 같으면서도 있는 경우가 꽤 있다. 나온 지가 엄청 오래되어 공식 홈페이지가 폐쇄되어 더 이상 패치를 받을 수 없게 된 수많은 고전게임들도 웨이백머신을 사용하면 웬만한 패치를 받을 수 있을 정도. [6] 단 Windows 95의 중요 업데이트 같은건 소스를 뜯어서 링크를 얻어내야 한다. [7] # [8] 뉴욕타임즈 [9] 판결문 타임즈 보도 [10] 해커에 의해 웹사이트 내용이 변조되는 행위 [11] 유출된 데이터는 회원들의 이메일 주소, 닉네임 및 해시값으로 저장된 비밀번호라고 한다. [12] 현재 아직까지 이 주장이 실제로 검증되지는 않았으며, 이 그룹과 데이터 유출이 관련되어 있는지는 확인되지 않았다. [13] 인터넷 아카이브 뿐만이 아니라 구글, 애플을 포함하여 세계 여러 기업에서 사용중인 유명한 서비스이다. [14] 단, 인터넷 아카이브가 금전적 이익 없이 자원 봉사 및 기부로 운영되는 업체라는 것을 기억해야 한다. 인터넷 아카이브는 소장하고 있는 자료를 통해 그 어떤 이익도 얻지 않으며 순수히 유저들의 기부를 통해서만 유지비 및 인건비를 충당하고 있기 때문에 이러한 문제에 있어서 취약할 수 있는 것은 당연하다. [15] 웨이백 머신을 포함한 인터넷 아카이브 웹사이트 전체 [16] Toasty Tech의 운영자인 Nathan Lineback이 만들었다. [17] Protoweb에선 자체적으로 보관하고있는 웹페이지가 얼마 없는데다 수많은 웹페이지들을 다 보관하지 못한다. 거기다가 저작권 문제같은 변수도 있고.. 문제는 일부 URL에서 경로가 포함된 경우 좀 기다렸다가 새로고침을 하면 가능하지만 이렇게해도 불가능한 경우가 있다.. [18] 당시 WWW의 크기는 2.5 테라바이트에 불과했다.