webarchive(ウェブアーカイブ)とは?
webarchiveとは、Webサイト上の情報や記録などを保存することを指します。
webarchiveによって過去Webサイト上に記載されていた情報が半永久的に閲覧できるため、歴史や記録を振り返ったり、情報を集めたりする際に困りません。
webarchiveの目的
webarchiveの目的は、移り変わりが早いWeb上の情報や記録を残し続けることです。本や雑誌などの紙媒体とは違い、Webサイト上のデータはすぐに更新されたり、削除されたりなど変化が大きくみられます。
そのため、Webサイト上の情報や記録は残りにくく、収集する際に苦労します。しかし、webarchiveサービスが普及したことで、過去の歴史や情報、記録などを簡単に振り返ることが可能になりました。
過去の情報や記録を収集している方などにとっては、webarchiveは欠かせないサービスとなっています。
アーカイブの種類
アーカイブはデータの保存方法別に、以下の3種類があります。
- サーバーサイド
- クライアントサイド
- トランザクションベース
複数のアーカイブを組み合わせたり、1つだけのアーカイブで十分だったりと、サイトによってアーカイブの必要性も異なります。
バックアップとの違い
バックアップとアーカイブの違いは以下のとおりです。
- バッグアップ:Webサイト上の情報や記録などのデータ保存がメイン
- アーカイブ:Webサイトの成長過程を記録するための手段
バックアップは、Webサイト上に残るデータを保存することが目的です。しかし、アーカイブでは、データ保存よりも見た目に比重が置かれています。
そのため、webarchiveを実行する際は、バックアップとアーカイブどちらも実行することが大切です。
webarchiveを利用する4つのタイミング
ここでは、webarchiveを利用する4つのタイミングをまとめました。
- 過去の情報を活用したいとき
- 過去のWebサイトを閲覧したいとき
- 削除したWebページをユーザーに提供したいとき
- 検索順位変動の理由を知りたいとき
順番に解説します。
1.過去の情報を活用したいとき
webarchiveは、過去の情報を活用したいときの利用がおすすめです。当時の情報や記録の状態で閲覧できるため、必要な情報だけをピックアップできます。
また、トップページだけでなく、リンクページの閲覧も可能です。過去の情報を早く探して活用したいと考えている方にとって、webarchiveは便利なサービスと感じるでしょう。
2.過去のWebサイトを閲覧したいとき
webarchiveは、Webサイト上の過去の状態や情報を閲覧したいときに利用します。Webサイトが保存されていれば、過去の状態や記録をいつでも閲覧可能です。
また、自分だけでなく、ユーザーにとってWebサイトの閲覧が必要なのであれば、リンクURLを設置してあげることでユーザーも閲覧できます。
3.削除したWebページをユーザーに提供したいとき
webarchiveをアーカイブに保存することで、削除したWebページをユーザーに提供できます。URLの設置だけで提供できるため、使用者・ユーザーどちらにも負荷がかかりません。
Webサイトを管理する際、古いページを維持するのが難しいときにもwebarchiveは有用です。
4.検索順位変動の理由を探りたいとき
webarchiveは、検索順位変動の理由を知りたいときにも活用できます。そのため、自社サイトの検索順位改善に大きく役立てることができます。
検索順位変動の理由が分かることで、「どういったコンテンツが検索順位に関係しているのか」「自社サイトに追加すべきコンテンツ・内容はなにか」など、検索順位向上に向けて様々な施策を取ることが可能です。
国内のwebarchiveサービス2選
ここでは、国内で利用できるwebarchiveサービスを2つご紹介します。
- Web魚拓
- 国立国会図書館インターネット資料収集保存事業
1つずつ解説します。
1.Web魚拓
Web魚拓は、株式会社アフィリティーが提供しているwebarchiveサービスです。サイトURLやフリーワードを検索することで、Web魚拓に保存されている過去の記録や情報を確認できます。
取得済みの記録や情報が見つからない場合は「このまま魚拓を取る」という項目で取得可能です。そのため、過去の情報や記録を収集して活用したい方に便利なサービスでしょう。
ただしクローラーのアクセスが禁止されているWebサイトでは、過去の記録や情報の取得が行えないため、注意が必要です。
2.国立国会図書館インターネット資料収集保存事業
国立国会図書館が実施するインターネット資料収集保存事業では、国の期間や地方自治体など公的機関期間のWebサイト情報を保存しています。
公的機関以外の情報は、Webサイト所有者の許可が得られた場合に保存されています。自らのサイトURLを貼ることも可能です。
2019年度の時点で保存タイトル数は約1万件、保存ファイル数は約85億と数多くの情報を保有しており、国内で主要なwebarchiveサービスといえるでしょう。
海外のwebarchiveサービス6選
次に、海外で利用できるwebarchiveサービスを6つご紹介します。
- Stanford Web Archive Portal
- UK Government Web Archive
- UK Parliament Web Archive
- Library of Congress
- Tweet Save
- Wayback Machine
順番に解説します。
1.Stanford Web Archive Portal
Stanford Web Archive Portalは、アメリカ・スタンフォード大学が収集しているwebarchiveサービスです。保存量はそれほど多くないものの、さまざまな言語のWebサイト情報が収集されているのが特徴です。
使用方法やデザインなどは「Wayback Machine」に似ていますが、扱っている情報が異なります。
2.UK Government Web Archive
UK Government Web Archiveは、The National Archives(英国国立公文書館)が運営するwebarchiveサービスです。Webサイトの情報だけでなく、SNSやYouTubeなどのデータも保存しています。
イギリス政府も情報発信のために利用していると言われています。
3.UK Parliament Web Archive
UK Parliament Web Archiveは、英国議会が運営するwebarchiveサービスです。Webサイトの文書だけでなく、PDFや画像、動画など、さまざまな内容が収集されています。
毎年60〜70TBずつ保存容量が増えているため、情報種類も増加傾向にあります。収集された保存データは、英国図書館・英国図書館分館・スコットランド国立図書館・ウェールズ国立図書館の4つの図書館に保存されています。
4.Library of Congress
2000年にサービスが開始されたLibrary of Congressは、アメリカ国内外の政府機関や政党、宗教団体などさまざまな人が閲覧できるwebarchiveサービスです。
Recommending Officersによって人文社会学・欧州学・経済学および自然科学の3分野に分類し、Web上の情報が収集・保存されています。
Library of Congress内にある「Archived Web Sites」にキーワードを入力することで、調べたい情報が表示されるため、効率的に検索が可能です。
5.TweetSave
Tweet Saveは、Twitterのツイートを保存するwebarchiveサービスです。
該当のツイートURLを入力することで、ツイートを確認できます。残しておきたいツイートのURLを入力し、SAVEをクリックすると、元のツイートが消去されてもアーカイブ上に保存されます。
6.Wayback Machine
Wayback Machineは世界中のWebサイト情報を収集している、人気のwebarchiveサービスです。2015年6月現在で4820億のデータ保存量を誇っており、文書だけでなく、PDFや画像、音楽などが保存されています。
膨大な情報量を有するため、他のwebarchiveサービスでは収集できなかった情報も、Wayback Machineであれば収集できる可能性があります。
Wayback Machineの使い方
ここでは、定番のwebarchiveサービス「Wayback Machine」の使い方をご紹介します。
- 過去のサイト情報を確認する手順
- ページ情報をキャッシュさせる方法
- サイト情報を削除する方法
それぞれ解説します。
過去のWebサイト情報を確認する手順
Wayback Machineで過去のサイト情報を確認する手順は以下のとおりです。
- Wayback Machineにアクセス
- 過去の情報や記録を確認したいサイトURLを入力
- カレンダーから日付選択
実行中に15回/1分のペースでページリクエストをすると、エラーが発生する可能性が高くなります。エラーになると画面がブロックされるため注意しましょう。
ページ情報をキャッシュさせる方法
Wayback Machineでページ情報をキャッシュさせるには「Save Page Now」から手動でWebサイトを保存する方法が挙げられます。
Wayback Machineはクローラーの巡回頻度が少なく、Webサイトがキャッシュされないことがあります。キャッシュを起こす必要がある場合は、手動でページ情報をキャッシュさせましょう。
サイト情報を削除する方法
Wayback Machineに掲載されているWebサイトの情報を削除するためには「info@archive.org」宛てにメールを送信し、削除申請を行いましょう。
所有者の確認が必要となるため、サイト内に記載されているメールアドレスまたはTwitterアカウントが必要です。
スムーズにWebサイト情報を削除するためにも、事前に所有者をキャッシュさせておき、その証拠を申請書類として提出し、サーバー解約前にWayback Machineの削除を済ませましょう。
過去の情報を確認できない3つの原因
最後に、Wayback Machineによって過去の情報を確認できない3つの原因をご紹介します。
- クローラーの拒否設定をしている
- キャッシュがない
- キャッシュを削除している
順番に解説します。
1.クローラーの拒否設定をしている
Wayback Machineではクローラーの拒否設定により、過去の情報を確認できないことがあります。クローラーの拒否設定を解除するためには、robots.txtに以下のコードを記述する必要があります。
User-agent: ia_archiver
Disallow: /
上記のコードを記述することで、サーバーのトップディレクトリにアップロードが行えます。
2.キャッシュがない
Wayback Machineにキャッシュがないと、過去の情報は閲覧できません。キャッシュ方法は各サービスによって異なりますが、過去情報を閲覧したい場合は使用サービスに沿ってキャッシュを行なっておきましょう。
3.キャッシュを削除している
キャッシュを削除していることで、Wayback Machineで過去の情報が見られないといったことが起こります。そもそも、アーカイブにWebサイト所有者が削除申請を出していると、過去のWebサイト情報は残りません。
過去の情報が見られない状況になっている方は、削除申請したかどうかの有無を確認しましょう。
webarchive使い方まとめ
webarchiveは、過去のWebサイト情報や記録を保存し、閲覧することができるサービスのことです。そのため、過去の情報を収集して活用したい方や検索順位変動の理由を知りたい方など様々な目的・用途で使用することができます。
無料で閲覧できるサービスも多く、様々な言語を扱っているため、気になる方はwebarchiveを利用してみるとよいでしょう。