Skip to content

Latest commit

 

History

History

tb

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

淘宝网商品抓取

项目介绍:

淘宝网商品抓取,只需要输入需要抓取的商品名就可以自动抓取数据。通过selenium进行反爬,当前目录下的csv文件就是抓取到的原始数据。


项目逻辑

淘宝抓取逻辑


项目技术栈

selenium

使用 option 关闭 selenium 的top bar实现反爬

        options = Options()
        url = 'https://www.taobao.com/'
        options.add_experimental_option('excludeSwitches', ['enable-automation'])
        browser = webdriver.Chrome('./chromedriver.exe',options=options)

通过修改设备识别进行反爬

      options = Options()
      mobile_emulation = {"deviceName": "iPhone X"}
      options.add_experimental_option("mobileEmulation", mobile_emulation)
      browser = webdriver.Chrome('./chromedriver.exe',options=options)

携带 cookies

WebDriver相关的Cookies操作

        browser.get_cookies(self): 获取当前会话中当前域名所有cookies
        browser.get_cookie(self, name): 获取当前会话中当前域名指定name对应的cookie值
        browser.delete_cookie(self, name): 删除指定cookie
        browser.delete_all_cookies(self): 删除所有cookie
        browser.add_cookie(self, cookie_dict): 添加cookie

抓取内容

字段
商品名
商品链接
商品价格
本月销量
店铺名
店铺链接
发货地

运行截图

运行截图 运行截图