Python爬虫
CC_且听风吟
行百里者半九十
展开
-
Python爬虫与信息提取(九)爬虫框架Scrapy体验
填坑计划:scrapyscrapy简介Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2...原创 2020-04-29 16:42:00 · 410 阅读 · 0 评论 -
Python爬虫与信息提取(八)将新浪热搜排名导入数据库
python爬取新浪热搜排名并导入数据库上一篇文章简单介绍了如何使用python爬取新浪微博的热搜排名:爬虫实例:爬取新浪微博热搜排名如果了解清楚原理的话是非常容易懂的,但是这样单纯的进行查询结果显示显然没有意义学习了数据库之后,就尝试做了以下改进:将热搜信息导入数据库加了个日志函数,方便在服务器自动执行时保存运行数据数据库我用的是mysql目前只设计了一个名为hotsou-d...原创 2019-12-15 01:49:32 · 797 阅读 · 0 评论 -
Python爬虫与信息提取(一)requests库
这篇文章中简要提及了Requests库的背景:https://blog.csdn.net/weixin_43826242/article/details/866643001.Requests库的安装http://docs.python-requests.org/en/master/只需使用-pip install requests 即可安装2.检查Requests库是否安装成...原创 2019-01-27 19:53:09 · 923 阅读 · 0 评论 -
Python爬虫与信息提取(二)网络爬虫robots标准和简单的爬虫实例
1.robots协议由于网络爬虫的随意性,产生了robots标准来限制网络爬虫的一些作用例如:www.baidu.com地址栏打开:https://www.baidu.com/robots.txt就可以看到百度网页所不允许的网络爬虫列表和禁止爬取的范围或者CSDN的:所有的爬虫都建议遵守协议的内容2.简单的爬虫(爬取未经过处理的信息)#爬取京东商品页面的信...原创 2019-01-27 22:13:08 · 278 阅读 · 0 评论 -
Python爬虫与信息提取(三)BeautifulSoup库简介
1.BeautifulSoup库下面的文章里面有简要的介绍:https://blog.csdn.net/weixin_43826242/article/details/86664300安装:-pip install beautifulsoup42.检查是否安装成功import requestsfrom bs4 import BeautifulSoupr = req...原创 2019-01-28 00:02:34 · 277 阅读 · 0 评论 -
Python爬虫与信息提取(四)内容检索
1.信息标记方法目前主要有三种:XML:<>...</>JSON:有类型 key:valueYAML:无类型 key:value2.信息提取的一般方法(bs4库)主要使用了find_all( )函数基本格式:<>.find_all(name, attrs, recursive, string, **kwargs)...原创 2019-01-28 17:18:12 · 980 阅读 · 0 评论 -
Python爬虫与信息提取(五)爬虫实例:爬取新浪微博热搜排名
经过一段时间的Python网络爬虫学习,今天自己摸索制作了一个能够爬取新浪微博实时热搜排名的小爬虫1.效果:2.制作过程中遇到的问题:(1)一开始研究微博热搜页面的源代码时忽略了<tbody>中还包括一个置顶热搜,它的标签包含结构和其他的50个不同,因此需要单独考虑(2)难点是标签中信息的获取,需要搞清楚 find_all( ) 函数返回的是列表,只能用于for遍历体系...原创 2019-01-28 21:25:30 · 6498 阅读 · 9 评论 -
Python爬虫与信息提取(六)Re正则表达式
1.正则表达式-正则表达式是用来简洁表达一组字符串的表达式-正则表达式的优势:使用特征来表达字符串,非常简洁-正则表达式可以用来判断某字符串的特征归属,在文本处理中十分常用,主要应用在字符串的匹配中2.正则表达式的使用编译:将符合正则表达式语法的字符串转换成正则表达式的特征import reregex = 'P(Y|YT|YTH|YTHO)?N'p = r...原创 2019-01-30 19:10:12 · 1810 阅读 · 0 评论 -
Python爬虫与信息提取(七)爬虫实例:爬取股票信息
学习了正则表达式后,就学习并制作了爬取股票信息的爬虫实例。1.出现的错误由于已经有了之前的经验和引入了正则表达式的使用,写这个爬虫的过程中出错就比较少了,然后代码也比较简短了一开始出现了find函数返回NoneType的情况:https://blog.csdn.net/qq_36525166/article/details/81258168看了这篇文章,解决了问题。后来...原创 2019-01-30 21:53:33 · 5233 阅读 · 3 评论