使用 wget 砍站

wget 是 linux 中除了 curl 外另一個檔案下載的好用工具,也可以使用它來“砍站”。
但是無法正確抓去使用 vue-router 等 js 撰寫的動態呈現網頁的內容。

用法

1
$ wget -m -k -E -p -F --restrict-file-names=windows -nH --header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" 127.0.0.1

指令說明

1
2
3
4
5
6
7
8
9
10
11
12
13
-m,  --mirror                相等於 -N -r -l inf --no-remove-listing 選項
-k, --convert-links 將原本網站內所有站內的連結全都改為 Local 連結,這樣下載網站後才可以離線使用。
-E, --adjust-extension save HTML/CSS documents with proper extensions.
-p, --page-requisites 下載所有顯示網頁所需的檔案,例如圖片等
-F, --force-html 以 HTML 方式處理輸入檔
-N, --timestamping 除非遠端檔案比較新,否則不下載遠端檔案
-r, --recursive 遞迴下載
-l, --level=數字 最大搜尋深度 (inf 或 0 表示無限)
--no-remove-listing 不刪除 ‘.listing’ 檔案
--restrict-file-names=OS 只使用作業系統能夠接受的字元作為檔案字元
-nH, --no-host-directories 不建立含有遠端主機名稱的目錄
--header=字串 在連線資料標頭中加入指定字串
-U, --user-agent=AGENT 宣稱為 AGENT 而不是 Wget/VERSION

參考資料