爬虫
文章平均质量分 59
晨晨渝奇
这个作者很懒,什么都没留下…
展开
-
我在Blue Nile(蓝色尼罗河)上通过python爬取一百万颗钻石,最终选出心仪的一颗
由于到了结婚的年龄,所以找到政府领取了女朋友一枚,并且把婚期订到了今年的圣诞节。由于加工好的成品钻价格实在是太高了,所以就把主意打到了"裸钻"身上,去了大罗塘一类的珠宝批发市场,热了一身的汗,但是还是感觉没有合适的。先是在各种周大福、周六福、周福福看,后来又在某东、某宝、某官网看,翻遍了网上各种达人教你如何选择钻戒的文章、视频。通过Excel选出喜欢的并进行标记,再将标记得编号,写成代码,把GIA证书进行下载,逐个对比GIA正证书的参数。--------代码在文章最下面----------...原创 2022-08-01 17:38:18 · 516 阅读 · 0 评论 -
常见的反爬技术,并给出应对方案
1. Headers从用户的 headers 进行反爬是最常见的反爬虫策略。Headers(上一讲中已经提及) 是一种区分浏览器行为和机器行为中最简单的方法,还有一些网站会对 Referer (上级链接)进行检测(机器行为不太可能通过链接跳转实现)从而实现爬虫。相应的解决措施:通过审查元素或者开发者工具获取相应的 headers 然后把相应的 headers 传输给 python 的 requests,这样就能很好地绕过。2. IP 限制一些网站会根据你的 IP 地址访问的频率,次数进行反爬。也就是原创 2022-02-17 17:50:47 · 1698 阅读 · 0 评论 -
比较常见的爬虫框架,并简要说明优缺点
Scrapy 框架:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知 url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如 weibo 的页面信息,这个框架就满足不了需求了。Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为 JSON、XML等Portia:可视化爬取网页内容newspaper:提取新闻、文章以及内容分析python-goose:java 写的文章提取工具B..原创 2021-03-15 22:38:25 · 1723 阅读 · 0 评论 -
使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春
使用xpath爬取校花网难点:1.各个分类栏目下的页码url不统一2.只取前三页,或者后三页文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒。所以就…哈哈…移植到scrapy需要略微修改下。还可以获取校花名称和图片url。废话不多说,上代码,代码注释很多,欢迎留言交流~from lxml import etreeimport requestsurl = 'http://www.521609.com/daxuexiaohua/'headers原创 2020-12-22 20:10:08 · 1020 阅读 · 6 评论 -
使用scrapy爬取喜马拉雅有声书,前N页的所有章节
难点:同时实现内外翻页功能重点:xpath,参数的传递????????????????废话不多说直接上代码????????????????所有解释均在代码里面import scrapyfrom ..items import *class MyxmlySpider(scrapy.Spider): name = 'myxmly' allowed_domains = ['ximalaya.com'] start_urls = ['https://www.ximalaya.c原创 2020-12-19 17:38:49 · 632 阅读 · 2 评论 -
Selectors选择器内置 XPath 和 CSS Selector 表达式机制Scrapy Selectors
Selectors选择器Scrapy Selectors 内置 XPath 和 CSS SelectorSelector有四个基本的方法,最常用的还是xpath:xpath(): 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表extract(): 序列化该节点为Unicode字符串并返回list, extract_first()css(): 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表,语法同 BeautifulSoup4中s原创 2020-12-17 19:46:34 · 256 阅读 · 0 评论 -
Redis使用方法,让你一次看个够。redis数据类型指令
redis数据类型指令字符串set key valueget keygetrange key start end字符串提取,字符串从0开始,包含start和endgetset key value设置key的值,返回的是旧值,新值会设置成功setex key seconds value设置key的值,过期时间为seconds,如果存在,替换之,时间以s为单位setnx key value该key不存在的时候才设置,存在不设置setrange key offset value将原创 2020-12-17 19:34:29 · 95 阅读 · 0 评论 -
通过爬取美剧天堂详细介绍Scrapy 框架入门
通过爬取美剧天堂并详细介绍Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。Scrapy框架:用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。首先介绍Scrapy架构图 (重点:必须熟记于心原创 2020-12-15 00:11:51 · 1567 阅读 · 0 评论