From 7856c24c5bf9b59662a4157711d7348ae8e65463 Mon Sep 17 00:00:00 2001 From: hu4wufu <1156865535@qq.com> Date: Wed, 18 Nov 2020 19:51:37 +0800 Subject: [PATCH] test --- .DS_Store | Bin 0 -> 6148 bytes haha.md | 64 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 2 files changed, 64 insertions(+) create mode 100644 .DS_Store create mode 100644 haha.md diff --git a/.DS_Store b/.DS_Store new file mode 100644 index 0000000000000000000000000000000000000000..7467988b03804a24015f9154f067a8e377a2a87f GIT binary patch literal 6148 zcmeHKyKVwO4733$L^PC?`vpk+!3vQt;0GXFBnl!5M1LK>&G-QVEwm}3v1HHfti7w7 z;(QhnU7ovz$W%nea6`FRXwCM`8yh5JsD8#=ex>V9yTkXf$$m{(?T74T>;6!GJXpae z=%2ec+po_gO9iL^6`%rCfC{`<06p7mJPBl^0#tws+!e6zLxCIC#6HkJ9SA-G07szR z@a(e$uowZXiG3g#m_{iuN;O9ejdJiM^J-!r80DgVGtSAIH76AH+rbx47p;MeRDcRR zD=>`Z)cXGy{LTFTT*MU>paTC&0UfQ@t0i73du#J@)@uuV1HTz^JsrVYG0 然后通过 Subject ID 抓取详情页面,收集元数据 --> 最后通过 Subject ID 来收集评论 + +### 使用方法 +------- + $ git clone https://github.com/baabaaox/ScrapyDouban.git + # 构建并运行容器 + $ cd ./ScrapyDouban/docker + $ sudo docker-compose up --build -d + # 进入 douban_scrapy 容器 + $ sudo docker exec -it douban_scrapy ash + # 进入 scrapy 目录 + $ cd /srv/ScrapyDouban/scrapy + $ scrapy list + # 抓取电影数据 + $ scrapy crawl movie_subject # 收集电影 Subject ID + $ scrapy crawl movie_meta # 收集电影元数据 + $ scrapy crawl movie_comment # 收集电影评论 + # 抓取书籍数据 + $ scrapy crawl book_subject # 收集书籍 Subject ID + $ scrapy crawl book_meta # 收集书籍元数据 + $ scrapy crawl book_comment # 收集书籍评论 + +### 代理 IP +-------- + +由于豆瓣的反爬虫机制,现在只能通过代理 IP 来绕过。默认 settings.py 里面并未启用 douban.middlewares.ProxyMiddleware 中间件,如果你真的需要使用豆瓣的数据来进行一些研究,可以去租用付费的代理池。 + + +### 图片下载 +-------- + +douban.pipelines.CoverPipeline 通过对 spider.name 进行过滤来处理封面下载逻辑,所下载图片文件的保存路径为 douban_scrapy 容器的 /srv/ScrapyDouban/storage 目录。