【Python爬蟲】抓取彼岸4K圖片
import requests from lxml import etree headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'} # https://pic.netbian.com/4kmeinv/下載首面的美女圖片 # https://pic.netbian.com/4kmeinv/index_2.html 下載第2頁的美女圖片 url = 'https://pic.netbian.com/4kmeinv/index_4.html' # 定義存放圖表名稱和圖片頁面地址的列表 img_names = [] img_page_urls = [] r = requests.get(url, headers=headers) # 因彼岸為簡體網站,取得的文字以簡碼gbk處理。 r.encoding = 'gbk' # 解析頁面 tree = etree.HTML(r.text) li_list = tree.xpath('//ul[@class="clearfix"]/li') for li in li_list: # 獲取圖片頁面地址 img_page_url = 'https://pic.netbian.com' + li.xpath('./a/@href')[0] # 獲取圖片名稱 img_name = li.xpath('./a/b/text()')[0] + '.jpg' # 將獲取到圖片頁面址和圖片名稱存入定義好的列表 img_page_urls.append(img_page_url) img_names.append(img_name) # 解析圖片頁面地址,獲取圖片地址 for i in range(len(img_names)): r = requests.get(img_page_urls[i], headers=headers) tree = etree.HTML(r.text) img_url = 'https://pic.netbian.com' + tree.xpath('//a[@id="img"]/img/@src')[0] # 建立下載圖片存放地址 img_path = 'C:/Users/wells/Desktop/4kmeinv/' + img_names[i] img_data = requests.get(img_url, headers=headers).content with open(img_path, 'wb') as f: f.write(img_data) print(img_names[i], '下載完成……')以上的程式可以自行加上幾個特性:
- 把所有的頁面圖片抓完(自動化)
- 將各分頁的圖片放在各分頁子目錄,子目錄名稱:第2頁、第3頁、…
- 將圖片名稱的簡中轉成繁中