最近正好有关书籍的研究,豆瓣的反扒机制虽然不是很复杂,但是还是需要登录,cookie,验证码之类,代理IP。迫于要求,代码暂不分享。分享部分爬取信息以供有需要的人。
目前该repo的信息包括,按照tag爬取的
- 标签
- 书名
- 评分
- 评价人数
- 作者
- 出版社
- 详细信息url地址
这些信息都是csv格式,根据详细url地址可以继续爬取该书本详细信息。
除此之外,还有根据上述url获得的
- 每个星级的得分
- 总得分
- 该书籍的tag
- 本书推荐的书籍
这些信息以json形式保存,目前只能分享部分信息。
会不定期更新该数据repo,如果有需要获取某些指定书籍的可以通过邮箱联系我。