- お知らせ -
  • 当wikiのプログラムコードの表示を直してみました(ついでに長い行があると全体が下にぶっ飛ぶのも修正)。不具合があればBBSまでご連絡下さい。

はじめに Edit

Unixでよく使われるコマンドラインのwebページ等のダウンローダーであるwgetのメモ。

一番簡単な丸ごとダウンロード方法 Edit

  • ローカルで見られるようにする前提
  • 同じドメイン上

という前提だと

wget -r -p --continue --convert-links http://www.example.com/

こんな感じだろうか。

ただし、fc2ブログ(というか最近のwebサービス一般)のように動的生成で無限に再帰取得できたり&画像サーバーが別のドメインとかだと、これだけだと無理です。工夫がいります。
(そのうち各予定だったんだけど、rubyとかでスクレイピングがいるので説明や解説が面倒なのと難易度が跳ね上がる&サイトごとに対処がいるので(ry )

windowsのweboxみたいななるべくそのページを再現するようにダウンロードしてくれたりする方法ないもんですかね。

再帰的にダウンロードする場合 Edit

wget -r http://hoge.net/

再帰的にだけど、階層を絞る場合 Edit

"-l 5"で、5階層

wget -r -l 5 http://hoge.net/

ちなみに、fc2ブログとかはこれを指定しないと無限に取りに行くので注意です。

相対リンクだけをたどる場合 Edit

wget -r -L http://hoge.net/

続きからダウンロード Edit

"-c" or "--continue"

常に指定しておくとよいと思います。

親ディレクトリを取得しない Edit

"-np"を指定する

html中の絶対URLを相対URLに変換する Edit

"-k" or "--convert-links"

ユーザー認証が必要な場所からダウンロードする場合 Edit

wget --http-user=hoge --http-passwd=moge http://hoge.net/

プロクシ経由で接続する場合、 Edit

http_proxy="http://proxy.example.local:8080" wget http://hoge.net/

ページをダウンロードせずにアクセスだけする Edit

wget --spider  http://example.com/

cronにしかけておいてwebアプリの特定URLをキックするのにも使える。

ファイルに出力せずに標準出力に表示したい! Edit

その場でURLにアクセスして中身を見たいときに使います。

wget -O - http://example.com/

中身が長いと一気に流れるので、実際にはなんらかのページャ(テキストビューアー)をかますのがよいかと

wget -O - http://example.com/ | lessm

参考リンク Edit



Front page   Edit Freeze Diff Backup Upload Copy Rename Reload   New Pages Search Recent changes   Help   RSS of recent changes
Last-modified: 2010-04-05 Mon 19:20:17 JST (2753d)