Skip to content

rockyfire/PythonNotes

Repository files navigation

PythonNotes

Python笔记始于2017-06-11

代码来之 http://blog.leanote.com/cate/qq-alan/python%E6%95%99%E7%A8%8B

我只是按我自己的习惯分类而已


从零开始学爬虫 2017-07-30

day01 通读了一下requests 和 Beautiful Soup 的 文档

day02 写一个爬虫的小demo (百度贴吧的前几页贴中的图片),了解反爬虫的知识(robots.txt)代理IP User-Agent

day03 本来想使用squid和stunnel搭建一个代理服务器,忙了一天一点进展都没有.连最基本的安装squid后,通过SwitchyOmega/SwitchySharp连接到3128端口都不行,太失败了

day04 Scrapy入门而已,掌握XPath的基本语法  Xpath提取多个标签下的text

day05 提取天气预报的关键信息练手Scrapy,大部分的时间在学json和python的结合.

day06 获取可用的IP代理,Scrapy获取的过程中遇到503错误,通过设置User-Agent或DOWNLOAD_DELAY = 3(延迟下载)来解决(docker新书已到)

day07 自定义下载器中间件,突破IP/User-Agent封锁

其实在settings.py中设置DEFAULT_REQUEST_HEADERS后,修改

  class xxxSpider(scrapy.Spider):
    def __init__(self): 
        self.header=DEFAULT_REQUEST_HEADERS

也可以实现效果

day08 爬山

day09 学习selenium(看了一遍中文文档)和安装Phantomjs,拿学校的教务系练手(登陆正方教务系统)结果敗在自动填写上,密码的填写项不允许操作

selenium.common.exceptions.InvalidElementStateException: Message: invalid element state: Element is not currently interactable and may not be manipulated

day10 使用tesseract进行验证码的解析错误提示:

Error in pixReadStreamGif: Can't use giflib-5.1.2; suggest 5.1.1 or earlier

下载了低版本的,但是不会编译链接成os文件.昨天的selenium问题还在问另一个大佬.

day11 no zuo,no die .昨天想用python弄个html转pdf的小demo,参考html转pdf 秉承杀鸡用牛刀的精神,使用Scrapy写一个,yield scrapy.Request(urls,callback=self.parse_body) 返回的html不是按原网页列表中html顺序来的.无奈只能用写文件的操作把html按顺序排列,最后pdfkit的时候又出现

The switch --outline-depth, is not support using unpatched qt, and will be ignored.Error: This version of wkhtmltopdf is build against an unpatched version of QT, and does not support more then one input document.

最近几天的运气有点不好啊,issue有人说换个版本的wkhtmltopdf就可以了换wkhtmltopdf版本 --用命令行下载真是慢的一笔

day12 解决了前天的无法填写的问题,问题的原因主要是因为一开始password的display设置为none,只有点击后才会改变display为inline-block(其实在password上面还有一个input,点击这个input后,填写的就是password).

driver.execute_script('document.getElementById("TextBox2").style="display: inline-block; visibility: visible;"')
driver.execute_script('document.getElementById("TextBox2").contentEditable = true')

参考资料

display:none与visible:hidden的区别

day13 给自己放一天的假,搞搞ShadowSocks,服务器端搭建好了,客户端就Windows可以,Linux还是不行.就是访问的速度有点慢但是可以上Youtube看电影,给Linux换了个hosts,访问Google快多了

day14 上午去城关学车,下午去同学的驾校再学.大中午就去开始学,差点中暑了.回来就开始想昨天的爬虫.

day15&16 昨天半坡起步刹车踩的有点紧,好几次都给熄火,今天慢慢的找回感觉.这几天的学车进步还是比较大的,爬虫有点荒废了.感觉不在状态,可不能像Android一样半途而废.

day17&day18 突发奇想想把博客和微信公众对接一下,弄了一天初步推断是VPS的锅,添加文件不成功,添加标签和类型成功了.重写urls.py都没相应.想再买一个证实一下.

day19-day21 这三天一直有生活琐事要完成干农活(给香蕉安支架) 陪爷爷去看病 上次博客不能添加博客就是VPS的锅,换了一个添加博客和微信认证都可以用了

About

python笔记始于2017-06-11

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages