数据采集
文章平均质量分 57
学习基础的爬虫
outside-R
这个作者很懒,什么都没留下…
展开
-
爬取动态加载过来的详细页【当当图书为例】
当当首页搜索python的网址http://search.dangdang.com/?key=python&act=input&page_index=1点击框里a便签将会跳转详细页,我想要爬取如下内容:但是他右键查看源代码时,找不到,如此便是:数据是动态加载过来的...原创 2021-10-29 14:47:32 · 170 阅读 · 0 评论 -
数据采集---json格式数据
页面展示【智联招聘】:URL:https://sou.zhaopin.com/?jl=801&kw={0}&p={1}例:https://sou.zhaopin.com/?jl=801&kw=python&p=1右键–>查看网页源码【切片处理获得json数据】json数据获取要用的数据【一一相对应】在列表页函数中解析: def parse(self, response): js = response.xpath('//script[原创 2021-07-15 20:28:21 · 858 阅读 · 6 评论 -
招聘网站分析-智联招聘网的爬虫设计与实现
爬虫文件原理1、分析智联招聘网是招聘网站中爬取难度最高的网站。为了减轻爬虫对网站运营的影响,要求用户必须注册登录,否则提示登录后才能进行信息检索。智联招聘网的页面布局以及列表页请求url。注册登录后,职位搜索列表页和详情页如图1、图2所示。图1 智联招聘网职位搜索列表页图2智联招聘网职位搜索详情页2.爬虫数据存储设计对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV原创 2021-07-15 20:01:36 · 3673 阅读 · 1 评论 -
招聘网站分析-猎聘网的爬虫设计与实现
爬取文件原理:1.需求分析猎聘网需要设计简单反爬虫策略,可通过配置请求头、下载延迟、动态用户代理缓解,猎聘网职位搜索列表页和详情页如图所示。图1 猎聘网职位职位搜索列表页图2 猎聘网职位职位搜索详情页2.爬虫数据存储设计对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。如果采用 CSV 文本格式进行存储,在数据清洗前还要考虑原创 2021-07-14 12:02:42 · 2565 阅读 · 4 评论 -
招聘网站分析-前程无忧网站的爬虫设计与实现
爬取文件原理:1.需求分析前程无忧招聘网没有设计反爬虫策略,只需要利用开发者工具分析出页面的数据来源和分页规律即可。前程无忧招聘网职位搜索列表页和详情页如图所示。2.爬虫数据存储设计对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。如果采用 CSV 文本格式进行存储,在数据清洗前还要考虑数据合并。结合需求分析中的数据分析目标,原创 2021-07-14 11:46:04 · 2235 阅读 · 0 评论 -
数据采集之豆瓣读书
爬取【豆瓣读书https://book.douban.com/latest?icn=index-latestbook-all】,并将爬取的内容添加导数据库中。数据库cmdC:\Users\admin>mysql -u root -pmysql> show databases;mysql> use spier;mysql> create table douban(Id Int,BookName varchar(100),Score varchar(20),Autor va原创 2021-05-30 23:53:23 · 396 阅读 · 0 评论 -
数据采集之贝壳新房
1、创建爬虫项目scrapy startproject 项目名scrapy startproject baiduspide2、创建爬虫文件名、域名【进入项目里面】cd 项目名scrapy genspider 文件名 域名scrapy genspider baidu baidu.com3、创建爬虫数据项【item.py中定义】4、编写爬虫文件 baidu.py–>函数parse()解析5、运行爬虫文件cd 项目文件scrapy crawl 文件名scrapy原创 2021-05-30 23:30:35 · 576 阅读 · 2 评论 -
数据采集之图片【在贝壳新房的基础上】
items.pyimport scrapyclass BeikehouseItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name = scrapy.Field() # 楼盘名称 addr = scrapy.Field() # 地址 price = scrapy.Field() # 价格 house_price = scra原创 2021-05-30 23:40:03 · 122 阅读 · 0 评论 -
数据采集之贝壳新房【完整代码(数据库+图片)】
细节问题参考前两章。在settings.py中设置图片和数据库BOT_NAME = 'houses'SPIDER_MODULES = ['houses.spiders']NEWSPIDER_MODULE = 'houses.spiders'ROBOTSTXT_OBEY = FalseLOG_LEVEL="WARNING" #日志为警告以上才显示DOWNLOAD_DELAY = 3ITEM_PIPELINES = { 'houses.pipelines.MysqlPipeline原创 2021-06-14 15:53:08 · 806 阅读 · 1 评论