【Python爬蟲】抓取彼岸4K圖片

import requests
from lxml import etree

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}

# https://pic.netbian.com/4kmeinv/下載首面的美女圖片
# https://pic.netbian.com/4kmeinv/index_2.html 下載第2頁的美女圖片
url = 'https://pic.netbian.com/4kmeinv/index_4.html'

# 定義存放圖表名稱和圖片頁面地址的列表
img_names = []
img_page_urls = []
r = requests.get(url, headers=headers)
# 因彼岸為簡體網站，取得的文字以簡碼gbk處理。
r.encoding = 'gbk'
# 解析頁面
tree = etree.HTML(r.text)
li_list = tree.xpath('//ul[@class="clearfix"]/li')
for li in li_list:
    # 獲取圖片頁面地址
    img_page_url = 'https://pic.netbian.com' + li.xpath('./a/@href')[0]
    # 獲取圖片名稱
    img_name = li.xpath('./a/b/text()')[0] + '.jpg'
    # 將獲取到圖片頁面址和圖片名稱存入定義好的列表
    img_page_urls.append(img_page_url)
    img_names.append(img_name)
# 解析圖片頁面地址，獲取圖片地址
for i in range(len(img_names)):
    r = requests.get(img_page_urls[i], headers=headers)
    tree = etree.HTML(r.text)
    img_url = 'https://pic.netbian.com' + tree.xpath('//a[@id="img"]/img/@src')[0]
    # 建立下載圖片存放地址
    img_path = 'C:/Users/wells/Desktop/4kmeinv/' + img_names[i]
    img_data = requests.get(img_url, headers=headers).content
    with open(img_path, 'wb') as f:
        f.write(img_data)
        print(img_names[i], '下載完成……')

以上的程式可以自行加上幾個特性：

把所有的頁面圖片抓完(自動化)
將各分頁的圖片放在各分頁子目錄，子目錄名稱：第2頁、第3頁、…
將圖片名稱的簡中轉成繁中

Python

【Python爬蟲】抓取彼岸4K圖片

請按讚：

相關

【IoT-Grafana】在MySQL匯入測試資料集合

【WordPress】使用Custom Post Type建立一個蛋糕型態…，並且設置單一蛋糕與所有蛋糕頁的範本

發表迴響取消回覆

Python

分享此文：

請按讚：

相關

You may also like

分享此文：

請按讚：

分享此文：

請按讚：

發表迴響取消回覆

Login with your site account