Skip to content

wwfra/scrapy_github

Repository files navigation

LICENSE

scrapy_github

本项目针对GitHub上最热门的用户与仓库进行爬取和解析,数据类型包括用户、组织和仓库三大类,并做了简单的可视化处理,运行前请参考注意事项

程序整体框架图

image

数据类型

用户类数据

  • user_1_name: 用户名
  • user_2_page: 用户主页URL
  • user_3_star: 用户收藏数
  • user_4_repo: 用户仓库数
  • user_5_follower: 用户粉丝数
  • user_6_following: 用户关注数

组织类数据

  • org_1_name: 组织名
  • org_2_page: 组织主页URL
  • org_3_repo: 组织仓库数
  • org_4_follower: 组织粉丝数

仓库类数据

  • repo_1_name: 仓库名
  • repo_2_star: 仓库收藏数
  • repo_3_watch: 仓库浏览量
  • repo_4_fork: 仓库分支数

开发环境

  • 开发语言:python3
  • 操作系统: Windows/Linux/macOS

可视化展示

image image image image

注意事项

  • 运行前需修改middlewares.py中的对应用户名密码
  • 运行前需修改utils.py中的对应浏览器驱动地址

About

A simple scrapy spider framework for github

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages