![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
五指山西
在线笔记本
展开
-
pyautogui的简单使用
import pyautoguipyautogui.PAUSE = 1print(pyautogui.size()) #打印当前屏幕的像素print(pyautogui.position()) #获取鼠标当前位置screen_width = 1920screen_height = 1080# 移动鼠标到x=120 y=45 的位置;参考位置0,0这个像素点,屏幕最左上方。duration是移动时长pyautogui.moveTo(120,45,duration=0.5)# 鼠标以当前位置为参原创 2020-11-23 23:39:32 · 353 阅读 · 0 评论 -
简单使用selenium
import sysfrom selenium import webdriverimport timefrom selenium.webdriver.common.keys import Keysbase_url = "https://www.baidu.com/"browser = webdriver.Chrome(r'C:\Users\86181\AppData\Local\Google\Chrome\Application\chromedriver.exe')browser.get(bas原创 2020-11-23 22:08:46 · 97 阅读 · 0 评论 -
011_掩藏真实ip,使用proxy代理
proxy代理的使用"""代理分类; 1.透明代理:被访问服务器,知道这是一个代理,并且知道我们自身真实的ip 2.匿名代理;被访问服务器,知道这是一个代理,但不知道我们自身真实的IP、 3.高匿代理:被访问服务器,不知道这是一个代理,并且也不知道自身真实IP代理作用:我们本地机器将要访问的服务器地址提供给代理,代理再去访问服务器,把资源 返回到我们本地机器。避免我们自身机器的ip被封。"""from urllib.request import Requ原创 2020-06-07 11:41:11 · 311 阅读 · 0 评论 -
010_构建opener和http控制器
opner的是使用"""opener作用:方便使用代理,改变ip;默认的请求urlopen是不支持切换代理的opener和urlopen的关系:urlopen方法返回的其实就是opener.open()对象怎么构建openner:1.opener = build_opener(https_handler) ,传入的参数是https控制器 2.opener = _opener = build_opener()"""from urllib.request impor原创 2020-06-07 10:23:58 · 126 阅读 · 0 评论 -
009_用fake-useragent生成User-Agent
模块来生成user-agent"""前面的笔记中,User-Agent都是通过,自己取网页上找的,写成字典形式,今天引入一个新的模块,pip install fake-useragent"""from fake_useragent import UserAgent# 随机生成不同的user-agentua = UserAgent().randomprint("打印随机生成的user-agent:",ua)# 指定三大浏览器的user-agentie_ua= UserAgent().ie原创 2020-05-26 23:26:41 · 114 阅读 · 0 评论 -
008_https请求返回ssl认证错误的办法
忽略认证""""在一些网站中,会返回ssl认证失败的错误,这次以12306网站作为练习;找了好几个网站都不需要认证,这里只是把认证方法写出来了。"""from urllib.request import Request,urlopen#引入ssl模块import sslurl ="http://www.scgsckj.cn/safety.html"headers ={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple原创 2020-05-26 22:44:11 · 429 阅读 · 0 评论 -
007_ajax请求的使用
ajax的使用,这次以豆瓣电影来练习"""什么是ajax?就是在一个页面,没有滚动条的情况下,只会显示固定数目,但是当网下拉动滚动条,会加载固定数目的信息,一般是以倍数增加。1. 首先我们友键查看豆瓣电影网页源代码,view-source:https://movie.douban.com/tag/#/ 是没有看到相关电影信息的,只有网页本身页面能看到。ajax是当滚动条下拉是,偷偷加载了页面;面对这种情况,只有发送ajax请求,才能获取相关的电影资源。这一节就是学习怎么通过ajax获取信息2原创 2020-05-26 22:19:07 · 103 阅读 · 0 评论 -
005_爬取百度贴吧
实际测试,爬取百度贴吧。"""本节是实践课,以爬取贴吧页面为例,1.通过交互式传入搜索内容,和爬取页面2.函数模块话,每个函数实现一个功能。3.一般多页url,主要是改变pn(page number)值"""from urllib.request import urlopenfrom urllib.request import Requestfrom urllib.parse import quoteimport osdef get_html(url): """该函数获取网页原创 2020-05-25 22:57:16 · 64 阅读 · 0 评论 -
004_post方式并传递参数
post方式并传递参数"""因为post方式,不会将参数显示到url上,所以不能够用url拼接的方式;只有通过request的方式,将要传递数据封装好,传递出去。通过request里的data传递参数"""from urllib.request import urlopenfrom urllib.parse import urlencodefrom urllib.request import Request# 怎么获取要登陆的网页?这个只能获得返回信息log_url = "http://l原创 2020-05-23 23:12:44 · 615 阅读 · 0 评论 -
003_模仿get方式发送请求,并实现参数传递
模仿get方式搜索内容"""爬虫的本质就是用机器模拟人类向服务器发送请求,然后得到服务器返回内容的过程。在浏览其中,我们搜索内容,一般都是通过表单的形式向服务器提交参数内容,比如用get方式发送搜索内容,在爬虫中urlopen()就等同于get请求。这一节主要讲,怎么发送get请求的参数!!,设计到中文,英文参数"""from urllib.request import urlopenfrom urllib.request import Requestfrom urllib.parse im原创 2020-05-23 19:50:42 · 220 阅读 · 0 评论 -
002_ Request对象和User-Agent封装
Request对象和User-Agent封装"""request对象可以封装请求头中的User-Agent; 而usr-Agent可以告诉被访问的浏览器,我们使用的是哪个浏览器本节还学到了一个random下的choice函数,可以随机算则列表元素"""from urllib.request import urlopenfrom urllib.request import Requestimport randomdef request_case(): """ 这个函数主要演示,怎原创 2020-05-23 18:30:10 · 321 阅读 · 0 评论 -
001__爬虫学习,访问和响应
爬虫学习## 在要爬取的url后添加/robots.txt就能看到这个网站的爬取规则、# 比如www.taobao.com/robots.txt# 导入urlopen这个函数from urllib.request import urlopen# 要爬取的链接target_url = "https://www.baidu.com/"# 发送请求,并返回内容response = urlopen(target_url)#读取返回信息response_info = response.read(原创 2020-05-21 23:08:57 · 115 阅读 · 0 评论