个人Python爬虫项目展示

项目介绍：项目主要分为两个部分，第一部分是爬虫项目（Crawler文件夹）。第二部分是编写代码时碰到的一些反爬机制以及思考过程，和最后的反反爬方法（anti-anti-Crawler）。
还有一个文件夹用来存放一些脚本和工具。

项目	简介	技术栈
淘宝网抓取	通过关键字搜索并且获取淘宝商品数据，存入csv文档	Selenium反爬
求职网数据分析	抓取前程无忧，实习僧招聘网站，存入csv进行数据清洗，降维，可视化	爬虫:多线程 + requests + bs4/lxml 可视化：jieba + W2V + PAC降维 + matplotlib + wordCloud
拉钩分布式爬虫	拉勾网抓取，使用分布式框架，支持整站抓取，增量抓取，拉钩反爬	Scrapy-Redis
拉勾网全站爬虫	抓取职位以及公司数据，可以存入csv文件或数据库	Scrapy + 整站抓取
图片网站图片爬取	图片网站整站抓取+定期增量抓取	Scrapy + requests + 增量抓取
Steam热门游戏好评差评数量抓取	Steam抓取当前热门游戏的好评/差评数量，通过selenium突破认证并抓取canvas元素	Selenium + requests + bs4
天猫抓取	通过selenium突破反爬，抓取天猫商品数据存入csv	Selenium反爬

具体分析过程以及流程图可以点开文件夹，其中有详细介绍。重点解释了，知乎登陆倒立文字英文验证码突破，bilibili滑动验证码突破

工具	作用
屏幕坐标获取器	使用selenium分析滑动验证码时识别距离
IP池构建	抓取免费IP代理存入数据库并检查可用性

Name		Name	Last commit message	Last commit date
Latest commit History 200 Commits
Crawler		Crawler
anti-anti-Crawler		anti-anti-Crawler
tools		tools
README.md		README.md

Provide feedback