爬虫
xiabe
这个作者很懒,什么都没留下…
展开
-
HTTP协议理解——爬虫第一步
HTTP0.为什么要学习HTTP?1.什么是HTTP协议?2.技术概括3.HTTP会话0.为什么要学习HTTP?因为爬虫需要模拟浏览器进行HTTP请求。理解HTTP是书写爬虫的基础。1.什么是HTTP协议?HTTP(Hypertext Transfer Protocol):超文本传输协议。是一个应用层协议,对于分布式的、合作式、超媒体信息系统。HTTP是WWW的数据交互的基础,超文本文档包...原创 2019-03-19 15:20:43 · 2895 阅读 · 0 评论 -
python爬虫——12306查询车次
url1:中文地名转英文代码url1=‘https://kyfw.12306.cn/otn/resources/js/framework/station_name.js’这是一个js文件。这是一个12306解析中文地名对应的英文代码的网址。爬取信息:得到一个很长var,各项信息通过@分隔。处理后,得到每项这样的数据:>>> inf [:1]['bjb|北京北|VA...原创 2019-03-25 01:24:42 · 2119 阅读 · 1 评论 -
python-爬虫-58同城
python-爬虫-58同城代码代码from bs4 import BeautifulSoupimport requestsimport csvimport timeurl = "https://bj.58.com/pinpaigongyu/pn/{page}/?minprice=2000_4000"#已完成的页数序号,初时为0page = 0csv_file = open...原创 2019-03-25 18:04:44 · 918 阅读 · 0 评论 -
爬虫小说爬取(待修改)
爬虫爬虫进一步学习,找到了一份《笔趣说》小说网站的爬取代码。代码亟待需要维护,修正。但频繁爬取后出现503错误,等待进一步学习解决。from urllib import requestfrom bs4 import BeautifulSoupimport collectionsimport reimport osimport timeimport sysimport types...原创 2019-03-30 13:58:50 · 313 阅读 · 0 评论 -
Scrapy 爬虫框架(基础)
简述Srapy是一个应用框架用于爬取网站和提取结构化数据,被很多有用的应用所使用,就像数据挖掘,信息处理或者历史档案。即使虽然Scrapy一开始是用来做网络爬虫的,它也可以用来提取数据通过api就像Amazon Associates Web Services,或者作为一个普通用途的爬虫。查看一个爬虫的例子为了展示一个Srapy是怎么发送你们的表单,我们会查看这个一个爬虫例子,通过最简单的方...原创 2019-03-31 12:45:42 · 536 阅读 · 0 评论 -
Scrapy爬虫框架-命令行
命令行工具Scrapy是通过scarpy这个命令行工具来控制的,在这里被称为“Scrapy工具”,以区别于子命令,我们只是称之为“命令”或“Scrapy命令”。Scrapy 工具提供了几种命令行,为了多种不同的目的,并且每个命令行都接受一系列不同的参数和选项。配置设置Scrapy会查找配置参数在ini样式的scrapy.cfg 的文件在标准位置。/etc/scrapy.cfg或c:\s...原创 2019-03-31 13:26:00 · 395 阅读 · 0 评论 -
Scrapy框架 - Spiders
SpidersSpiders是一个类,决定了一个特定的网站(或者一系列的网站)如何被爬取,包括怎么去执行爬行(跟随链接)然后如何从页面从提取出一定的数据结构。换句话说,Spider是一个给你自定义你自己的行为对于爬取和解析网页对于一个特殊的网站(或者有时候,是一系列网站)对于spiders,爬取循环就像这样:首先生成初始请求来抓取第一个url,并指定一个回调函数,该函数将使用从这些请求下载...原创 2019-03-31 14:58:06 · 326 阅读 · 0 评论