웹 보존하기

in #kr6 years ago

웹은 영구적이지 않다. 원한다면 언제나 즐길 수 있을 것만 같던 사운드클라우드와 유튜브의 미디어는 창작자의 변심으로 삭제되고, 리트윗과 마음을 찍었던 트윗은 '트윗 청소기'라는 무시무시한 도구나 계정의 비공개 혹은 탈퇴로 사라진다. 서비스 하나가 통째로 사라지거나 오류가 발생하는 것은 물론이고 서버에 재난이 발생할 수도 있다. 구글 검색은 세상의 모든 정보를 보여줄 수 있을 것 같지만 사라진 데이터에는 속수무책이다. 웹을 아카이빙하는 것은 이에 대해 부족하게나마 대응할 수 있는 방법이다. 

Wayback Machine(웨이백 머신)은 각종 디지털 컨텐츠를 보존하는 단체이자 도서관인 인터넷 아카이브에서 운영하는 대표적인 웹 아카이빙 서비스다. 사이트 위의 검색창에 URL을 입력해서 저장된 사본을 찾거나 우측 하단의 입력란에 URL을 입력해서 페이지를 곧바로 보존할 수 있다. 나는 이를 간편하게 하기 위해 브라우저에서 웨이백 머신을 검색 엔진으로 추가하고 단축 문자를 등록해서 사용한다. 크롬이나 파이어폭스, 혹은 이를 기반으로 한 웹 브라우저에 있는 기능으로 예를 들어 'ㄴ'을 네이버 검색의 단축 문자로 설정했다면 주소창에 'ㄴ 아카이빙'을 입력해서 네이버로 '아카이빙'을 검색하는 식이다. 나는 이 기능으로 주소 앞에 'a'를 넣어서 띄워 이동하면 해당 페이지의 인터넷 아카이브 사이트로 이동하도록 해 두었다. 맥이라면 같은 방식으로 Alfred를 사용할 수도 있다. 혹은 브라우저 확장 프로그램을 사용하는 방법도 있다. 크롬 기반 브라우저용으로는 archive.org 버튼archive.is 버튼이 있고, 파이어폭스용으로도 비슷한 프로그램을 찾을 수 있다. 원하는 페이지나 링크 위에서 우클릭으로 메뉴를 선택하거나 확장 프로그램의 아이콘을 누르면 된다. iOS의 경우 자동화 앱인 Workflow를 사용하면 간편하다. Internet Archive 워크플로우를 앱에 추가한 뒤 브라우징 중 원하는 사이트에서 공유 버튼을 눌러 Workflow를 열고 실행하면 된다.

하지만 웨이백 머신도 만능은 아니다. 사이트에 따라서는 모든 내용을 완벽하게 보존하지 못하기도 하고, 검색 로봇의 수집 여부를 설정하는 권장 규약인 robots.txt를 지키기 때문에 사이트에서 이를 통해 크롤링을 금지하면 사이트를 보존하지 않고 기존에 보존된 데이터도 삭제한다. 또 검색 엔진을 구현하기를 희망한다고만 밝히고 있을 뿐, 현재로서는 해당 페이지의 주소나 제목을 알지 못한다면 검색으로 아카이빙된 페이지의 내용을 찾을 방법이 없다. 아카이빙된 내용이 사실상 고립될 수도 있는 것이다.  때문에 나는 손쉬운 검색과 URL 기록을 위해 에버노트로 사이트를 함께 보존하고, 때로는 archive.is를 사용하기도 한다. archive.is 역시 웨이백 머신과 같은 웹 아카이빙 서비스로, robots.txt를 무시한다는 점에서 문제의 여지가 있지만 그와 동시에 이로 인한 장점을 갖기도 하다. 더불어 이는 구글과 같은 검색 엔진에 노출된다.

가장 중요한 것은 정보의 생산자가 컨텐츠의 중요성을 깨닫는 것이다. 중요한 컨텐츠는 거창한 것만이 아니다. 짤막하게 쓴 글도 도움이 될 수 있고, 어설프게 만든 음악도 감동과 즐거움을 줄 수 있다. 블로그는 컨텐츠를 정리하고 공유할 수 있는 좋은 장소다. 트위터나 페이스북, 인터넷 커뮤니티만이 웹의 전부가 아니다. 자신의 컨텐츠를 소유하자. 그리고 멋지게 전시하자. 


이 글은 블로그에 앞서 올라간 글입니다.

Coin Marketplace

STEEM 0.17
TRX 0.12
JST 0.027
BTC 61251.21
ETH 2951.27
USDT 1.00
SBD 2.52