Python3.5爬虫
wiz_333
乐观,上进,自律!
我的码云地址->https://gitee.com/wiz333/events
展开
-
Python3爬虫(1)小试牛刀
最近学习了python3的爬虫机制!也就是通过使用urllib模块发送http请求来获取网页的html源码,然后使用正则匹配出自己想要收集的信息!(注意python2中所用的模块不一样)下面小试牛刀,做了一个例子!附上需求和源码!需求:分页爬取网页上的ip地址信息储存形式:(将从网页上获取到的信息分行写入.txt文件中)代码逻辑#引入urllib模块,用于发起http请求 from urllib ...原创 2018-03-29 18:21:28 · 423 阅读 · 2 评论 -
Python3爬虫(2)xpath模块代替re正则模块的使用
最近学习了一下python3.5中爬虫的原理套路! 之前写demo的时候,获取html源码后一直在使用python自带的re模块来用正则表达式匹配数据。 不得不说!正则很强大!(强大的.*?,笑),各种复杂的情况下都可以匹配的到,但是写法非常灵活,每个人的思维模式不一样,写出来也就不一样,对于没有接触过正则表达的同学来说,学习成本还是需要一写的! 所以今天来说一下对于我这种正则小白的原创 2018-04-02 20:31:03 · 2562 阅读 · 0 评论