Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

end_date 设置为 now 无法正常爬取所有微博 #609

Open
cinyearchan opened this issue Nov 8, 2024 · 2 comments
Open

end_date 设置为 now 无法正常爬取所有微博 #609

cinyearchan opened this issue Nov 8, 2024 · 2 comments
Labels
failed 程序运行出错

Comments

@cinyearchan
Copy link

为了更好的解决问题,请认真回答下面的问题。等到问题解决,请及时关闭本issue。

  • 问:请您指明哪个版本运行出错(github版/PyPi版/全部)?

答:PyPi 版

  • 问:您使用的是否是最新的程序(是/否)?

答:是

  • 问:爬取任意用户都会运行出错吗(是/否)?

答:否

  • 问:若只有爬特定微博时才出错,能否提供出错微博的weibo_id或url(非必填)?

答:

  • 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的user_id及您配置的since_date,方便我们定位出错微博(非必填)?

答:user_id 2492465520
指定的 user_id_list.txt 中手动设置该用户的日期 2024-11-06 10:03
since_date 2009-08-28
end_date now

  • 问:如果方便,请您描述出错详情,最好附上错误提示。

答:该用户截止11月8日上午10点,第一页微博,置顶第一条是 11月8日9点整的,第二条置顶是 11月5日10点05分的,当 end_date 为 now 时,只能爬取到第一页的第一条 11月8日9点的置顶微博;当 end_date 设置为 2024-11-08 时,运行正常

@cinyearchan cinyearchan added the failed 程序运行出错 label Nov 8, 2024
@cinyearchan
Copy link
Author

重新试了一遍,该用户的微博时间流的顺序是:

  1. 置顶第一条 11月8日9点整
  2. 置顶第二条 11月5日10点50分
  3. 11月8日10点15分
  4. 11月8日9点50分
  • 当 end_date 为now,操作时间是 11月8日10点30分,只能爬取到置顶第一条微博
  • 当 end_date 为 2024-11-08,操作时间是 11月8日10点30分,会从第三条开始爬取

@dataabc
Copy link
Owner

dataabc commented Nov 8, 2024

感谢反馈,这个应该和置顶微博判断错误有关,目前程序没办法准确判断某微博是否为置顶。上面的情况,当end_date不是now时,可能会去除部分置顶。为 2024-11-08时,第二条置顶就被去除了,所以能正确获取。但是如果有多条置顶,程序没办法判断是否为置顶,遇到日期在设置之外的,以为爬完了,就停止了。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
failed 程序运行出错
Projects
None yet
Development

No branches or pull requests

2 participants