爬虫
Mococo456
开此博客用以记录学习,努力成为更好的自己!
展开
-
PythonCrawler 13day05
PythonCrawler 13day03xpath的使用介绍前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath安装pip install lxmlXpath语法...原创 2019-10-23 20:49:26 · 152 阅读 · 0 评论 -
PythonCrawler 13day04
PythonCrawler 13day03越学越懵,同学们已经开始投简历,其实大家都慌得一匹1. re的使用使用urllib库可以模拟浏览器发送请求获得服务器返回的数据,下一步就是把有用的数据提取出来。数据分为两种形式结构化和非结构化。非结构化数据一般指的是文本和HTML。文本中的内容特别杂,比如有电话号码,邮箱等信息,只能使用正则表达式进行提取;HTML可以使用CSS选择器、xpath、...原创 2019-10-21 19:13:32 · 134 阅读 · 0 评论 -
PythonCrawler 13day03
PythonCrawler 13day03愉快的十一假期结束了,接下来就要快乐的学习起来啊啊啊!!!爬虫系列进行到第三天。。。1. ajax请求的抓取动态加载页面信息的提取当我们浏览一个新闻类的网站,例如微博,今日头条,知乎等,由于它的内容极多,当我们搜索某一关键词的信息后,服务器只会向我们返回少量的数据,微博和头条是返回指定数量的数据,当我们再次向下刷新的时候,会再次通过Ajax请求返...原创 2019-10-14 20:50:15 · 240 阅读 · 0 评论 -
爬虫,爬取猫眼电影Top100的电影名与评分
**爬虫,爬取猫眼电影Top100的电影名与评分**import requestsimport threadingimport reclass maoyan_top500(threading.Thread): def __init__(self, start_, end_,lock): threading.Thread.__init__(self) ...原创 2019-08-22 18:02:12 · 1139 阅读 · 0 评论 -
pythonCrawler 13day01
python crawler接触到Python语言,感受到了它的实用性与强大,最近对Python crawler就是爬虫起了兴趣,乌拉卡卡卡卡是新手小白一枚,各方面收集了资料开始研究,如有纰漏错误请多见谅。所有练习源码在:https://github.com/xiaoazhao/pythonCrawler爬虫是什么:爬虫的比喻: 如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是...原创 2019-08-29 10:21:37 · 113 阅读 · 0 评论 -
PythonCrawler 13day02
Python crawler Day02原创 2019-09-26 10:22:56 · 137 阅读 · 0 评论 -
爬虫面试题集锦
作为即将毕业的大四人员写这类博客用于总结积累面试问题技巧,当然了这些资料来源于网络,收集起来用于自己学习和提醒1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎么解决的?通过headers反爬虫:解决策略,伪造headers基于用户行为反爬虫:动态变化去爬取数据,模拟普通用户的行为通过动态更改代理ip来反爬虫基于动态页面的反爬虫:跟踪服务器发送的ajax请求,模拟ajax请...原创 2019-09-26 11:17:00 · 442 阅读 · 0 评论