- 此项目用于获取github用户注册数据,包括用户的用户名、邮箱、注册时间等信息。
- 可用于查询github注册用户邮箱及相关数据
- 可用于批量爬取github注册用户数据
- 可检索提供的github token剩余查询次数
- 运行初始化命令
❯ GatherGithubInfo init -I 127.0.0.1 -P 3306 -u root -p 123456 -d github
- 运行爬虫
单独爬取用户
❯ GatherGithubInfo crawl -u=dragon-yy
批量爬取用户
❯ GatherGithubInfo crawl -s=2 -p=1 -e=3
指定github token爬取
❯ GatherGithubInfo crawl -s=2 -p=1 -e=3 -t=xxxx
支持命令及含义如下
-e, --endnum int The number of users you want to end crawling
-h, --help help for crawl
-p, --perpage int The number of users you want to crawl perpage
-s, --startnum int The number of users you want to start crawling
-t, --token string The github token
-u, --user string The single github user you want to crawl
爬取字段包含
- 代理池创建
- 多线程优化