爬取的数据会漏，应该怎么调整？爬取的速度可以慢一些，但希望能够爬全。 #319

blacksh1982 · 2024-03-07T09:21:57Z

首先，感谢作者提供这么棒的工具。前几天还追加了阅读数统计字段，非常方便。
目前，使用过程中，在相同的条件下，多爬几次的结果都不一样，总是相差10条左右。（我是按月爬取的，每个月的微博数量都在300条上下，不会超过350条）只有一次爬全了。初步分析了数据，看起来也没什么规律，每次漏的数据项都不太相同。请问会不会是网络问题或者是翻页的时候加载慢一点就没爬到啊？我是不是应该往大了调整下图的切分时间段？

blacksh1982 · 2024-03-08T03:24:27Z

我尝试了修改setting.py文件中DOWNLOAD_DELAY = 20。爬的速度确实很慢了，但依然有漏的。

chengcheng0509 · 2024-05-06T13:02:42Z

也遇到了同样的问题！请问你解决了吗？求教！

blacksh1982 · 2024-05-07T02:15:33Z

也遇到了同样的问题！请问你解决了吗？求教！

我没有解决。我现在只能把爬来的数据和原始数据对比，相差的部分手动补充呢。最近爬的过程中还发现，会有重复爬到数据的情况呢。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

爬取的数据会漏，应该怎么调整？爬取的速度可以慢一些，但希望能够爬全。 #319

爬取的数据会漏，应该怎么调整？爬取的速度可以慢一些，但希望能够爬全。 #319

blacksh1982 commented Mar 7, 2024 •

edited

blacksh1982 commented Mar 8, 2024

chengcheng0509 commented May 6, 2024

blacksh1982 commented May 7, 2024

爬取的数据会漏，应该怎么调整？爬取的速度可以慢一些，但希望能够爬全。 #319

爬取的数据会漏，应该怎么调整？爬取的速度可以慢一些，但希望能够爬全。 #319

Comments

blacksh1982 commented Mar 7, 2024 • edited

blacksh1982 commented Mar 8, 2024

chengcheng0509 commented May 6, 2024

blacksh1982 commented May 7, 2024

blacksh1982 commented Mar 7, 2024 •

edited