自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 python爬虫——requests爬取高德地图全国天气信息

一.分析 在浏览器中搜索高德地图,按F12,点击搜索 可以查看到西安市对应的citycode是610100 cityList表示出城市信息,有可能有城市的编号,我们复制他的url查看 在json在线解析中可以解析出此文件,我们可以看到有一个是把城市按字母排序 二.代码 import r...

2020-02-20 17:06:09

阅读数 25

评论数 0

原创 python爬虫——Scrapy入门(爬取西刺代理ip和port)

一.创建项目 创建好的项目 二.创建爬虫 1.创建 一定要先进入刚才创建的爬虫项目文件中再创建爬虫 对比未创建爬虫,发现多了一个xici.py文件 2.查看网站君子协议(robots): 3.解释爬虫文件 三.分析网站 1.提取数据的方法 可以参考我以前的博客 (1)正则表达式 ...

2020-02-19 15:46:16

阅读数 17

评论数 0

原创 解决pycharm安装第三方库超时问题:Error - ReadTimeoutError: HTTPSConnectionPool(host='pypi.python.org', port=443):

1.需要将pip源设置为国内源 阿里源,豆瓣源,网易源等 1.1 windows: (1) 打开文件资源管理器(windows10需要管理者权限) (2)地址栏输入%appdata%之后进入到一个文件夹内 (3)在这里面新建一个文件叫做 pip (4)在pip文件夹里新建一个文件叫 pip.in...

2020-02-18 16:19:15

阅读数 30

评论数 0

原创 python爬虫——requests+beautifulsoup爬取下厨房首页图片

一.网站分析 复制图片链接查看 去掉@以及之后的参数再次查看 有的图片的url属性为data-src 二.python代码 import os import requests from urllib.parse import urlparse from bs4 import Beautif...

2020-02-17 13:18:39

阅读数 23

评论数 0

原创 python爬虫——多线程爬取泛见志网站

点击最后一个查看headers

2020-02-16 14:01:35

阅读数 20

评论数 0

原创 python爬虫——验证码(1)下载到本地之登录古诗文网

一.分析 验证码: 登录抓包:登录不一定成功,但是接口可以捕获到 formdata: 获取 ‘__VIEWSTATEGENERATOR’ 和 ‘__VIEWSTATE’ 的值 二.代码 import requests from bs4 import BeautifulSoup impo...

2020-02-14 14:04:23

阅读数 40

评论数 0

原创 python爬虫——requests+xpath 爬取8684公交查询网站

一.分析网站 url = 'http://xian.8684.cn/' 1.第二层路线xpath: # 查找以数字开头的所有链接 number_href_list = tree.xpath('//div[@class="list"...

2020-02-13 17:59:39

阅读数 330

评论数 1

原创 python爬虫——requests基础学习

一.requests基础 官方学习文档:http://cn.python-requests.org/zh_CN/latest/ Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 Requests 允许你发送纯天然,植物饲养的 HTTP/1.1 请求,无需手工...

2020-02-13 13:03:24

阅读数 36

评论数 0

原创 python爬虫——爬取快代理中可用代理

import requests import time import random from lxml import etree from queue import Queue from threading import Thread def get_ip(): while True:...

2020-02-12 18:11:07

阅读数 33

评论数 0

原创 UnicodeEncodeError: 'gbk' codec can't encode character '\xe7' in position 10 解决乱码问题

1.首先要在pycharm中设置默认的编码为utf-8 2.代码设置编码 r.decode(encoding=“utf-8-sig”)

2020-02-12 15:50:32

阅读数 32

评论数 0

原创 python爬虫——使用selenium+chrome options爬取站长素材页面源码

一.站长素材 1.需要爬取的内容 2.代码 from selenium import webdriver from selenium.webdriver.chrome.options import Options import time # webdriver 路径 path = r'...

2020-02-12 11:32:28

阅读数 35

评论数 0

原创 python爬虫——使用chrome的无界面浏览器options(豆瓣下拉滚动条)

一.概述 1. 2.安装chromedriver 上一篇文章写过,点击即可查看 二.简单操作 案例一: from selenium import webdriver from selenium.webdriver.chrome.options import Options import time ...

2020-02-12 10:54:14

阅读数 60

评论数 0

原创 python爬虫——selenium基础(含Chromedriver下载地址和映射表)

一.selenium是什么? selenium是浏览器自动化测试工具. 二.使用selenium 1.安装selenium 2.下载Chromedriver: 操作谷歌浏览器必须要有谷歌浏览器的一个驱动(不同浏览器需要用不同的驱动) 下载地址:http://chromedriver.stora...

2020-02-10 17:52:33

阅读数 27

评论数 0

原创 python爬虫——jsonpath(1)基础知识

一.jsonpath:用来解析json数据 2.python处理json格式数据用到的函数      ~~~~~      (1)json.dumps():将字典或列表转化为json格式的字符串 案...

2020-02-09 16:49:10

阅读数 64

评论数 0

原创 python爬虫——图片懒加载之爬取站长素材图片

一.分析 1.url分析 url可能为http://sc.chinaz.com/tupian/gudianmeinvtupian_{}.html 尝试第一页,http://sc.chinaz.com/tupian/gudianmeinvtupian_1.html,结果不成功,说明第一页和其...

2020-02-09 13:59:53

阅读数 198

评论数 2

原创 python爬虫——提取抓取内容(6)使用XPath爬取好段子

一.分析 1.url: http://www.haoduanzi.com/category/?1-1.html http://www.haoduanzi.com/category/?1-2.html 所以可以设置为url=‘http://www.haoduanzi.com/category/?1-...

2020-02-08 18:54:20

阅读数 26

评论数 0

原创 python爬虫——提取抓取内容(5)XPath的简单使用

一.XML基本概念 1.XML是什么? XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 标签没有被预定义。您需要自行定义标签。 XML 被设计为具有自我描述性。 XML...

2020-02-07 19:58:09

阅读数 63

评论数 0

原创 csdn可以打出小爱心?

啦啦啦~~~~~~~ 一颗 ❤️ 两颗 ❤️ ❤️           ~~~~~~~~~~         ...

2020-02-07 17:17:46

阅读数 24

评论数 0

原创 python爬虫——提取抓取内容(4)bs4基本用法

一.安装BeautifulSoup 1.需要将pip源设置为国内源 阿里源,豆瓣源,网易源等 1.1 windows: (1) 打开文件资源管理器(windows10需要管理者权限) (2)地址栏输入&appdata% (3)在这里面新建一个文件叫做 pip (4)在pip文件夹里新建一个...

2020-02-06 21:58:37

阅读数 37

评论数 0

原创 python爬虫——提取抓取内容(3)经典语录网语录抓取

一.分析代码 对比两个链接 标题正则表达式: r'<a href="(/a/jingdianmingyan/.*?/\d+\.html)" class="title">(.*?)</a>' 每个标题的内容...

2020-02-06 19:26:46

阅读数 59

评论数 0

原创 python爬虫——提取抓取内容(2)百思不得姐爬取图片案例

后续。。。

2020-02-06 15:39:38

阅读数 70

评论数 0

原创 python爬虫——提取抓取内容(1)正则表达式解析

一.为什么引入正则表达式? 用来匹配一类具有相同规则的字符串 二.正则表达式规则 1. 单字符 符号 含义 . 除换行以外的所有字符 [] [aoe]表示a.o.e任意一个;[a-w]表示a-w之间任意一个 \d 数字 [o-9]表示0-9 \D 非数字 \w ...

2020-02-05 17:12:25

阅读数 45

评论数 0

原创 python爬虫——cookie(模拟浏览器登陆人人网)

一.cookie是什么? cookie是键值对形式存储的少量信息。平时上网都是使用无状态的http协议传出数据,这意味着客户端与服务器在数据传输完成后会终端连接。这时,我们需要一个一直保持会话连接的机制,cookie就充当了这个角色,帮助我们跟踪会话。一般该信息记录用户身份。 二.cookie...

2020-02-05 14:18:11

阅读数 22

评论数 0

原创 python爬虫——爬取西刺代理的ip和端口、用花刺代理软件验证

一.爬取代理 1.在安装好的pycharm中导入beautifulsoup4 2.代码 import urllib.request from bs4 import BeautifulSoup import time import random # --------------------公...

2020-02-04 15:35:36

阅读数 46

评论数 0

原创 python爬虫——URLError和HTTPError

一.出现URLError的原因 (1)没有网 (2)服务器连接失败 (3)找不到指定的服务器 模拟URLError import urllib.request import urllib.parse import urllib.error url='http://ww...

2019-12-21 11:40:31

阅读数 12

评论数 0

原创 python爬虫——爬取百度贴吧html页面

   ~~~    1.1准备工作 解读http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50 1 pn == 0 2 pn == 50 3 pn == 100 n pn ==...

2019-12-20 12:47:14

阅读数 24

评论数 0

原创 python爬虫——Ajax-post爬取肯德基官网

1.Ajax-post方法爬取肯德基官网    ~~~    1.1准备工作 点击最下方的餐厅查询 随便查询一个城市,下方红色方框圈起来的就是Ajax 门店信息:    ~~~ &nbs...

2019-12-07 18:13:21

阅读数 22

评论数 0

原创 python爬虫——Ajax-get

搜索‘豆瓣电影’-》排行榜-》选择一个类别(此处笔者选的动作)-》向下滑动可以看见最右边的滚动条滑到底部会弹回上面,此页面中就含有Ajax接口 用fidder抓包看json格式的信息 url解读: https://movie.douban.com/j/chart/top_list?type=5...

2019-12-07 17:21:02

阅读数 21

评论数 0

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte的解决方法

2019-12-07 12:04:18

阅读数 9

评论数 0

原创 python爬虫——post方式

2019-12-06 22:06:27

阅读数 7

评论数 0

原创 python爬虫——构建请求头部信息(反爬第一步)

构建请求头部信息(这是反爬第一步) 1.如果是url访问则是告诉网站我是爬虫,此时网站不会给你信息 import urllib.request import urllib.parse url = 'http://www.baidu.com/' response = urll...

2019-12-04 12:30:47

阅读数 36

评论数 0

原创 解决AttributeError: 'set' object has no attribute 'items'错误

出现这个问题,原因可能是定义的header有问题 header={“key”:“value”} 如果是直接在请求数据中复制,很有可能会忽略键和值的冒号。

2019-12-04 12:26:14

阅读数 16

评论数 0

原创 python爬虫——get方式

get方式

2019-12-04 11:38:35

阅读数 24

评论数 0

原创 python爬虫——urlrequest-urlparse-构建请求对象(2)

urllib.parse url只能由特定的字符组成,字母、数字、下划线 如果出现其他的,比如$、空格、中文等,就要对其进行编码 浏览器中搜索: pycharm中: 1.url解码函数quote():将中文转化为%xxx import urllib.parse url='http:...

2019-12-04 11:26:39

阅读数 23

评论数 0

原创 python爬虫——urlrequest-urlparse-构建请求对象(1)

1.read():以二进制的格式读取文相应的内容 2.geturl():根据相应的内容,获取到请求的url 3.getheaders():获取头部信息,列表里面有元组 一般转成字典 4.getcode():获取状态码 5.readlines():按行读取,返回一个列表,都...

2019-12-04 10:26:02

阅读数 15

评论数 0

原创 python爬虫——http与https以及他们之间的区别

一.http与https的区别 1.https协议需要到CA申请证书,一般免费证书较少,因而需要一定费用 2.http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议 3.http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80端口,后者是4...

2019-12-03 22:51:05

阅读数 26

评论数 0

原创 python爬虫——urllib库介绍

urllib库 模拟浏览器发送请求的库,python自带 python2: urllib和urllib2 python3: urllib.request和urllib.parse 字符串:二进制字符串之间的转化 encode():字符串–>二进制   &nbs...

2019-12-03 22:47:52

阅读数 7

评论数 0

原创 python爬虫—抓包工具fiddler的使用

**抓包(packet capture)**就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。 一个网页的呈现,中间不止一次http请求,平均一个网站差不多10-15个http请求 ##一.谷歌浏览器抓包 F12->n...

2019-12-03 22:22:50

阅读数 25

评论数 0

原创 python实现冒泡排序,选择排序,插入排序,快速排序,希尔排序,归并排序

1.冒泡排序 def bubble_sort(alist): n=len(alist) for i in range(n-1): for j in range(n-i-1): if alist[j]>alist[j+1]: ...

2019-11-09 14:48:00

阅读数 11

评论数 0

原创 MySql查询详解

数据的准备 创建一个数据库 create database python_test charset=utf8; 使用一个数据库 use python_test; 显示使用的当前数据库 select database(); 创建数据表 mysql> create t...

2019-08-12 19:35:05

阅读数 55

评论数 0

提示
确定要删除当前文章?
取消 删除