分からないことがあったらここにキーワードを入れてね~
カスタム検索
トップ > 超旬ツール > 閉鎖済みサイトをWebArchiveキャッシュから一括DLする「Warrick」

閉鎖済みサイトをWebArchiveキャッシュから一括DLする「Warrick」

Warrick_00.jpg 「インターネットの図書館」とも呼ばれる、WebArchiveというサービスをご存じだろうか?「○○というURLの○○年○○月○○日の状態」というように、インターネット上のページを時系列でキャッシュ化しまくっているウェブサービス。URLを検索すれば、そのサイトの過去の姿を拝むことが出来るのだ。当然、既に閉鎖されて見れなくなっているサイトでもOK。ただ、いかんせんサイトが重いし、日本語はエンコードの関係で文字化けする。ページ単位での閲覧なら実用的に不満はないが、「昔の神サイトを全部まとめて読みたい」といったケースではストレスが溜まってしまう。Warrickを使い、サイト全体を一括でダウンロードしてしまおう。ローカルに過去の神サイトアーカイブを保存することができるぞ。


Warrick_01.jpg Warrickの動作にはActivePerlが必要だ。作者のページからダウンロードしてインストールし、さらにWarrickを作者のページからダウンロードして解凍。「C:\Program Files\warrick」にコピーする。基本的にパスは任意だが、コマンドプロンプトに不慣れな人は、必ずこのパスを使うこと。

Warrick_02.jpg まずWebArchiveで当該URLを検索する。検索結果に並ぶのは、そのアドレスの各時期におけるキャッシュ。なるべく新しく、かつ閉鎖前のキャッシュを探すのだ。日本語サイトの場合は、検索結果を開くと文字化けが発生するが、エンコードをShift_JISに変更すれば直る。既に閉鎖した個人サイト、ニーツオルグの場合は2006年2月27日だった。

Warrick_03.jpg また、詳しいメカニズムは割愛するが、キャッシュページでサイト内ページへのリンク(「過去ログ」など)にマウスを載せてみよう。ステータスバーに表示されるリンク先アドレスが「http://web.archive.org/web/~」になっているサイトなら、この後の方法で復元可能だ。このページのように、サイト内リンクが「http://そのサイトのアドレス/~」になっているサイトの場合は無理。

Warrick_04.jpg コマンドプロンプトを起動し、まず「cd ../../Program Files\warrick」と入力しエンター。「C:\Program Files\warrick」と表示されるはずなので、「warrick.pl -r -c -wr ia -dr 年-月-日 一括DLしたいサイトのURL」と入力しエンター。

Warrick_05.jpg あとは完全自動。一つずつページがダウンロードされるのでしばらく待とう。

Warrick_06.jpg warrickフォルダ以下にドメイン別のフォルダが作成され、内部にファイルがダウンロードされる。ちなみに、このファイルを開いた場合は、日本語ページでも文字化けは起こらないので、エンコード変更の必要はない。

« 巨大ポスター印刷に特化された画像分割ツール「PostRazor」 | メイン | 他ユーザーの登録したサイトがFxブックマークに自動で増えていくswimmie »

この記事のカテゴリー

超旬ツール

この記事に付与されたタグ

ありません

ソーシャルブックマーク

はてなブックマーク livedoor クリップ Yahoo!ブックマーク del.icio.us Google ブックマーク Buzzurl イザ!ブックマーク FC2 ブックマーク

2007年01月24日 16:56