月末に閉鎖されるあるウェブサイトを外部から丸ごとダウンロードしてアーカイブする必要があり、HTTrack というツールを使ってみました。
Mac の場合は Homebrew から、 Ubuntu の場合は apt などでインストールできます。
$ brew install httrack
$ apt-get install httrack
使い方の例#
基本の使い方は以下です。
$ httrack "https://example.com" -O "path/to/download/dir"
色々なオプションがあるので上記のサイトを参考にしてください。
今回私は、サイト example.com を対象に、このサイトに対して example-static.s3.amazonaws.com から配信されている画像等も丸ごと保存したかったので、以下の様にオプションを渡しました。
httrack "https://example.com/" -O "./output" "+example-static.s3.amazonaws.com/*" -v
これで CDN に保存されているデータも丸ごとアーカイブすることができました。
なお、サイトが巨大だと結構時間がかかるため、 nohup を使ってバックグラウンドで実行しています。
nohup httrack "https://example.com/" -O "./output" "+example-static.s3.amazonaws.com/*" -v &