0%

wget命令

wget命令有两个作用:

  1. 下载文件
  2. 作为一个网络爬虫,将网站内容抓取下来

wget命令支持HTTP,FTP和HTTPS协议。

一、下载文件

常用用法:wget URL
含义:下载URL指向的文件

二、网络爬虫

常用用法:wget -e robots=off -r -l 2 -k -p -E -H https://mybatis.github.io/mybatis-3/zh/
含义:爬“https://mybatis.github.io”网站的内容,以“https://mybatis.github.io/mybatis-3/zh/”为起始URL

选项解释:
-e robots=off:表示不遵循robots.txt文档
-r:递归下载,默认深度为5
-l 2:自定义递归下载的深度为2
-k:转换下载得到文档中的链接,使得可正常使用
-p:下载正常显示单个文档所必需的所有文件
-E:自动给一些文档增加“.html”后缀
-H:在递归下载时,允许跨域名

备注

  • 当URL使用HTTPS协议时,经常出现如下错误:“无法建立SSL连接”,具体如图1所示。这是因为wget在使用HTTPS协议时,默认会去验证网站的证书,而这个证书验证经常会失败。加上“–no-check-certificate”选项,就能排除掉这个错误。另外一种可能有效的解决方案是用HTTP协议替换HTTPS协议(有些网站同时支持这两种协议访问相同资源,有些网站只支持HTTPS协议或者HTTP协议)

图1


参考文献

[1]man wget
[2]https://www.gnu.org/software/wget/manual/html_node/Robot-Exclusion.html

您的支持将鼓励我继续分享!