爬虫学习
文章平均质量分 50
一只努力的蜗牛
这个作者很懒,什么都没留下…
展开
-
简历爬取
import requestsfrom lxml import etreeimport osurl='https://sc.chinaz.com/jianli/daxuesheng.html'headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0'}if not os.path.exists('./简历'): os.mkdir(原创 2021-03-28 00:47:41 · 610 阅读 · 0 评论 -
爬取mm图片
上网址:https://pic.netbian.com/4kmeinv/前面几步其实都一样,导入模块,指定url和headers,发起请求,获得请求数据import requestsfrom lxml import etreeimport os# if not os.path.exists('./meinv'):# os.mkdir('./meinv')url='https://pic.netbian.com/4kmeinv/'headers={ 'User-Agent':原创 2021-03-27 00:34:33 · 1034 阅读 · 2 评论 -
xpath
xpath里面的 / / 与 . / 和 .//xpath定位元素的时候有//和./方式,//方式是定位整个页面文档中所有符合的元素,而 ./ 是在当前节点下面进行选择, .//方式也会将操作限制到当前节点基础详解https://blog.csdn.net/qq_44619675/article/details/113938171...原创 2021-03-25 01:10:53 · 93 阅读 · 0 评论 -
用xpath爬取58同城二手房信息
网址https://bj.58.com/ershoufang/直接对网页进行分析,可以看到,section class=list这个里面包含了所有我们想要的信息。再往下分析,下面div下面都存储了单个二手房的所有讯息,再往下走会发现h3标签就是我们要爬取的标题信息。开始1.将整张页面爬取2.将爬下来的页面树化3.通过树化的内容找到我们需要的标题内容import requestsfrom lxml import etreeurl='https://bj.58.com/ershoufan原创 2021-03-25 01:08:41 · 1323 阅读 · 7 评论 -
利用正则表达式爬取糗事百科
网站 https://www.qiushibaike.com/imgrank/爬取页面中指定内容的步骤(实际上就多了一步数据解析)指定url发请求获得响应数据数据解析持久化存储开始实战:首先进行老几步import requests既然是利用正则表达式就要 import re正则表达式的具体用法我会单独出一个文章然后指定url和headers,因为不是动态加载就不需要指定其他参数url = 'https://www.qiushibaike.com/imgrank/page/%d/原创 2021-03-23 01:02:55 · 182 阅读 · 0 评论 -
2021-01-29
文章目录前言一、定义时间戳二、加密1.引入库总结前言我开始学爬虫的一个小愿望就是能实现自动打卡健康防疫系统(每天熬夜,早起打卡让我变得不健康了。。。。),昨天学了一下模拟登陆,但还是没成功,今天继续一、定义时间戳今天的目标是有道翻译,先重复老步骤指定url,headers,这里headers里要包括cookie,user-agent,referer。具体什么时候要加入referer和cookie后续我会添加进来。可以看到,请求的方式不再是get了,而变成了post。因为翻译不同于图片的下原创 2021-01-29 00:30:42 · 187 阅读 · 0 评论 -
2021-01-28
文章目录一、random 模块,formate二、execjs三、时间戳引用一、random 模块,formate:random() 方法返回随机生成的一个实数,它在[0,1)范围内。execjs.get().name#formate>>>"{} {}".format("hello", "world") # 不设置指定位置,按默认顺序'hello world' >>> "{0} {1}".format("hello", "world") # 设原创 2021-01-28 23:46:46 · 64 阅读 · 0 评论 -
2021-01-27
爬虫学习第三天文章目录爬虫学习第三天前言一、步骤1.思想2.具体代码实现总结前言今天初步了解了多线程,线程池等概念,找以前的网站试试手!一、步骤1.思想 当同时下载多个网站的图片时,之前的办法就像吃饭和刷剧不同时进行一样,不仅浪费时间还不爽,所以应用多线程之后就能实现吃饭的时候刷剧了,需要的一些知识https://editor.csdn.net/md/?articleId=113173629 基本都在这,后续还将会进行。说一下我理解的思想吧,就是将发起请求到存储封装在函数里,把u原创 2021-01-27 00:15:38 · 103 阅读 · 0 评论 -
2021-01-26
文章目录一、Python中if __name__ == '__main__':的作用和原理二、使用步骤1.引入库2.多线程3.time()一、Python中if name == ‘main’:的作用和原理if __name__ == '__main__':每个python文件都包含内置变量-name-如果被当前脚本执行时则相当于文件名(包括后缀名.py),当被import到其他脚本中相当于模块的名称(不包括后缀名.py)而 “main” 始终指当前执行模块的名称(包含后缀.py)。进..原创 2021-01-26 17:41:55 · 424 阅读 · 0 评论 -
2021-01-25
爬虫学习第三天尝试下载一些图片文章目录爬虫学习第三天前言步骤1.基础准备2.读入数据总结前言昨天爬了一个网站,但感觉现实意义不是很大,我可以直接就百度搜索啊,今天学习着爬一点照片下来!步骤1.基础准备代码如下:#导入模块import requests from lxml import etreeimport os#定义伪装头headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App原创 2021-01-25 22:37:29 · 95 阅读 · 1 评论 -
2021-01-25
系列文章目录今天遇到的新的python语法文章目录系列文章目录一、os模块二、lxml三、split函数(分割函数)总结一、os模块作者:python小达链接:https://www.zhihu.com/question/322177702/answer/1662279000来源:知乎os模块:使用环境64位的fedora 18,python版本是python 2.7.31、os.getcwd()函数 功能:获取当前目录,python 的工作目import ospwd = os原创 2021-01-25 21:07:28 · 288 阅读 · 0 评论 -
2021-01-24
系列文章目录爬取简单的网页文章目录系列文章目录前言一、找一个简单的网站二、使用步骤1.引入库2.读入数据总结前言昨天写了基本的爬虫语法,我刚开始学Java语法的时候,很多东西仅限于看懂,导致最后很多东西都不能掌握,这次找一个简单的来实践一下。一、找一个简单的网站疫情在家不能打球就很伤,今天NBA热火对篮网最后太tm顽强了。那爬个NBA的百度吧!二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport原创 2021-01-24 14:55:52 · 119 阅读 · 1 评论