Web archiveの使い方って簡単?Web archiveの概要や各サービスも紹介

Web archiveの使い方って簡単?Web archiveの概要や各サービスも紹介

Wayback Machineとは?

Wayback Machineとは、Internet Archive(インターネットアーカイブ)が運営する過去のWebページを検索・閲覧できるツールです。Webサイトは日々の更新により、古い記事が削除されたり、差し替えられたりしていきます。過去の記事を検索しても見つからない場合はWayback Machineを使うことで見つけられるかもしれません。Wayback Machineは運営費が寄付で賄われているため、無料で使うことが可能です。ここでは、Wayback Machineを紹介していきます。

Wayback Machineの検索方法

Wayback Machineの検索方法は以下の2つです。

  • キーワード検索
  • URL検索

順に詳しく見ていきましょう。

キーワード検索

まずはhttps://archive.org/webにアクセスしましょう。

アクセスすると「enter URL or keywords」とある検索窓が出てくるので、その中に任意のキーワードを入力します。入力するとキーワードに関連するサイト一覧が出てくるので、その中から見たいサイトを選びます。

検索窓に入れるキーワードは単一のワードだけではなく「朝ごはん レシピ」のように複合キーワードも入力可能です。見たいサイトが決まっており、表示されるサイトを絞りたい場合は複合キーワードで検索しましょう。

URL検索

キーワード検索と同様にWayback Machineにアクセスしましょう。先ほどキーワードを入れた検索窓にURLを入力すると、そのサイトの履歴が出てきます。

例えば、Yahoo!(www.yahoo.co.jp)のアドレスを検索すると、1996年の11月20日からの履歴が確認可能です。文字化けしていますが、非常にシンプルなサイトで始まったことが分かります。

尚、入力するURLはサイトのトップページだけではなく、記事単位でのURLでも問題ありません。

Wayback Machineの使い方

Wayback Machineにはキーワード検索とURL検索がありますが、検索後の操作手順は同様です。ここでは、実際の使い方を説明していきます。

1.サイトにアクセスし検索

まずはインターネットアーカイブのサイトであるhttps://archive.org/にアクセスします。検索窓にキーワードかURLを入力し検索をかけましょう。

2.カレンダーで閲覧したい日付をクリック

検索するとカレンダーが出てくるので、このカレンダーでキャッシュされた日付をクリックします。アーカイブがあり、クリックできる日付には色がついているので分かりやすいです。

日付をクリックすると、時刻も知ることができます。1日に複数回キャッシュされている場合は、時刻が複数出てくるので、対象の時刻を選択しましょう。

カレンダー表示の丸の色が違う理由

クリックできる日付についている色は、キャッシュされた日のWebサーバー結果コードによって変化します。色は青、緑、オレンジ、赤があり、青が一般的な色の扱いです。緑はリダイレクト、オレンジはクライアントエラー、赤はサーバーエラーを意味しています。

緑のリダイレクトの場合は、URLの更新を行っている証拠なので、SEOを意識したサイトの可能性が高いでしょう。

3.サイトの当時の状態を閲覧

カレンダーの日付をクリックして進むと、サイトの当時の状態を閲覧できます。閲覧しているサイト内の内部リンクを辿ることも可能です。ただし内部リンクにはリンク切れや、その日のアーカイブとは限らないものがあるので注意が必要です。

Wayback Machineへのサイト保存方法

Wayback Machineでアーカイブを登録する方法は手動と自動の2種類あります。サイトの保存方法を知っておくことで、特定のサイトを確実にアーカイブしたい時に役立てることが可能です。

手動

Wayback Machineのトップページの右下に「Save Page Now」という項目があります。その欄に保存したいURLを入力し、アーカイブ保存されたページに移動すれば保存完了です。こちらもサイトのトップページだけではなく、記事単位のアーカイブ保存もできます。確実にアーカイブをしておきたい場合は手動が確実でしょう。

自動

Wayback Machineは自動でアーカイブを行っています。このアーカイブの頻度はサイトのアクセス数など各種条件で異なりますが、サイトのアクセス数が激変しない限りある程度の法則性が見られます。

アーカイブの法則性は絶対ではないので、確実にアーカイブしたい場合は、手動で保存をしておくと良いでしょう。

Wayback Machineからのアクセス制限とは?

Wayback Machineに保存されたくない場合、アクセス制限をかけることで、保存を防ぐことが可能です。Wayback Machineではロボットクローラーが、24時間365日インターネット上を巡回し、WEBサイトのアーカイブを保存しています。このロボットクローラーをサイトにアクセスできないようにすることで、サイトやページの保存防止が可能です。

アクセス制限方法

アクセス制限方法には以下の3つがあります。

  • 指定ページのアクセス制限
  • ドメインアクセス制限
  • ディレクトリアクセス制限

順に詳しく見ていきましょう。

指定ページのアクセス制限

指定ページのアクセス制限を行いたい場合は「robots.txt」ファイルに以下のテキストを記載する必要があります。

1 User-agent: ia_archiver

2 Disallow: /ディレクトリ名/ページファイル名

テキストを記載し、データサーバー内の一番上の階層であるルートディレクトリの中に保存したらアクセス制限が完了です。

ドメインアクセス制限

ドメインでアクセス制限をかけたい場合は「robots.txt」ファイルに以下のテキストを記載しましょう。

1 User-agent: ia_archiver

2 Disallow: /

こちらもテキスト記載後にルートディレクトリの中に保存することで、ドメイン自体でアクセス制限をかけることが可能です。特定の記事だけではなく、サイト全体を保存されたくない場合は、ドメインでのアクセス制限が手っ取り早いといえます。

ディレクトリアクセス制限

ディレクトリ単位でアクセス制限したい場合は、ルートディレクトリの中に「robots.txt」ファイルを保存しましょう。ファイルには以下の記載が必要です。

1 User-agent: ia_archiver

2 Disallow: /ディレクトリ名/

ディレクトリが複数にわたる場合は、以下のようにディレクトリ名を追加することで対応可能です。

1 User-agent: ia_archiver

2 Disallow: /ディレクトリ名A/

3 Disallow: /ディレクトリ名B/

4 Disallow: /ディレクトリ名C/

Wayback Machineに保存されているサイト情報の削除方法

Wayback Machineに保存されたサイト情報を消したい場合は、Wayback Machineの運営元であるInternet Archiveのアドレスinfo@archive.orgに削除依頼メールを送る必要があります。

Internet Archiveはアメリカが拠点なので、メールのやり取りは全て英語でなければなりません。

そもそもWeb archiveとは?

ウェブアーカイブは、過去のWebサイトを収集して保存し、アーカイブ化して提供するサービスです。サイト情報はクローラーによって収集されており、アーカイブのサイクルはサイトの選定、サイトの収集、メタデータの付与と組織化、電子書庫への保存、公開の順になっています。

日本では、2002年から国立国会図書館がインターネット資料収集保存事業としてウェブアーカイブを開始しました。海外でも公的機関が中心となり、さまざまなサービスが提供されています。

参考:国立国会図書館「ウェブアーカイブのしくみ」

アーカイブの種類

アーカイブには以下の3種類があります。

  • サーバーサイド
  • トランザクションベース
  • クライアントサイド

順に詳しく見ていきましょう。

サーバーサイド

サーバーサイドとは、アプリケーションの提供側がプログラムを実行するという意味です。

アーカイブは、サイトを利用して保存されます。Wayback Machineもサーバーサイドの一種です。

トランザクションベース

トランザクションとは、互いに関連・依存する複数の処理をまとめ、一体不可分の処理単位の意味です。

ベースはサーバーサイドのアーカイブですが、より複雑になるイメージです。サイトの所有者からの同意が必要となり、基本的にユーザーとサーバー間のサイトのトランザクションをアーカイブします。

クライアントサイド

クライアントサイドとは、アプリケーションを実行する場所がクライアント側(ユーザー側)という意味です。

アーカイブにおいては、ユーザーが該当サイトを保存する方法になります。シンプルにアーカイブできる方法です。

バックアップとの違い

アーカイブとバックアップの大きな違いは、データを保存する際に蓄積するか上書き保存するかという点です。

アーカイブは利用頻度が低いけれど必要なデータの長期保管の目的で使います。保存の際は上書きせず、新しいデータが発生した場合は新たなアーカイブデータとして蓄積していくのが一般的です。

一方で、バックアップとはデータが破損・消失した際に備えて保存をしておくことです。保存の際は最初にコピーしたデータの増分・差分を上書き保存します。

似たような役割を持つアーカイブとバックアップですが、しっかりと違いを認識しておきましょう。

アーカイブする理由

アーカイブする理由には以下の3つがあります。

  • サイトのアップデートに使える
  • 訴訟の際の証拠として使える
  • 法律上の義務のため

順に詳しく見ていきましょう。

サイトのアップデートに使える

自身のサイトをアップデートする場合に、過去のアーカイブを参考にすることが可能です。過去のデザインを見ていくことでより優れたデザインに変えていくことができます。

訴訟の際の証拠として使える

万が一サイトに関する訴訟に巻き込まれた場合は、保存したアーカイブを証拠として使える場合があります。

法律上の義務のため

金融系や法律関連の業界では、サイトのアーカイブが法律上義務化されている場合があります。

Wayback Machine以外で過去のWebサイトを閲覧できるサービス

Wayback Machine以外で過去のWebサイトを閲覧できるサービスとして次の5つが挙げられます。

  • UK Parliament Web Archive
  • Stanford Web Archive Portal
  • Library of Congress
  • WARP
  • Web魚拓

それぞれ詳しくみていきましょう。

UK Parliament Web Archive

UK Parliament Web Archiveは、英国議会が運営するウェブアーカイブサイトです。

収集されたアーカイブは英国図書館・英国図書館分館・スコットランド国立図書館・ウェールズ国立図書館にも保存されており、データが消失してもほかの図書館からデータが復元できます。

Stanford Web Archive Portal

Stanford Web Archive Portalは、スタンフォード大学が運営するウェブアーカイブサイトです。日本語のサイトも保存されており、見た目はWayback  Machineと似ていますが、異なる情報が収集されています。

Library of Congress

Library of Congressは、アメリカ議会図書館が運営するウェブアーカイブサイトです。ウェブアーカイブ以外にも、図書館資料の電子版も検索することができます。

WARP

WARPは、日本の国立国会図書館が行っているインターネット資料収集保存事業です。日本国内のサイトのみアーカイブを行っており、国の機関や自治体、法人、機構、国立大学が対象です。URL・タイトル・公開社名・書誌IDから検索できます。

Web魚拓

Web魚拓は株式会社アフィリティーが運営するウェブアーカイブサイトです。クローラーを使って情報収集するのではなく、ユーザーがURLを入力して保存します。平成18年(2006年)から運営されているサイトです。

Web archive org使い方のまとめ

今回はWeb archiveについて、代表的サイトであるWayback Machineを中心に説明しました。Web archiveを活用することでさまざまなメリットを享受できます。各種サービスを活用していきましょう。

みやあじよのSNSアカウントをぜひフォローしてください