爬虫
EdVzAs
写下自己的学习笔记
展开
-
Python 第三方模块 爬虫 you-get,WechatPCAPI
一.you-get模块1.简介(1)功能:You-Get用于从Web下载媒体内容(2)安装:pip install you-get2.使用:usage: you-get [OPTION]... URL...A tiny downloader that scrapes the weboptional arguments: -V, --version Print version and exit -h, --help Print this原创 2020-11-23 10:44:03 · 2281 阅读 · 0 评论 -
Python 爬虫 Scrapy框架示例
#chouti.py:import scrapy,sys,iofrom scrapy.selector import Selectorfrom scrapy.http import Requestfrom ..items import ChoutiItemfrom scrapy.dupefilters import RFPDupeFiltersys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding="gb18030")class Cho.原创 2020-11-04 11:47:25 · 159 阅读 · 0 评论 -
Python 爬虫 Scrapy框架2
三.通过钩子函数进行扩展:1.钩子函数的概念:钩子函数就是在特定事件发生时(收到特定信号时)自动触发的函数.将函数注册到指定信号上(挂到特定的钩子上)就得到了相应的钩子函数2.信号列表:各个信号的含义参见:https://docs.scrapy.org/en/latest/topics/signals.htmlhttps://blog.csdn.net/qq_41020281/article/details/82779919#信号列表(scrapy\signals.py中):engine_原创 2020-11-01 16:38:52 · 218 阅读 · 0 评论 -
Python 爬虫 Scrapy框架1
一.原创 2020-10-23 12:14:44 · 266 阅读 · 0 评论 -
Python 爬虫 Web微信开发
进入网页版微信,扫描二维码后,页面会向服务器发送1个Ajax请求(,然后在手机APP上会被要求确认登录),确认后手机会向服务器发送1个状态,服务器状态的变化被浏览器接收到后,就登录成功了;该请求最多持续1分钟,超时则断开,然后重新发送请求.这种请求方式称为长轮询...原创 2020-10-10 16:55:40 · 501 阅读 · 0 评论 -
Python 爬虫 实例
一.爬取汽车之家上咨询文章的标题及链接import requests,bs4response=requests.get("https://www.autohome.com.cn/all/#pvareaid=3311230")response.encoding=response.apparent_encodingsoup=bs4.BeautifulSoup(response.text,features="html.parser")target=soup.find(id="auto-channel-原创 2020-10-04 17:26:12 · 237 阅读 · 1 评论 -
Python 第三方模块 爬虫 Requests模块,Beautifulsoup模块
一.什么是爬虫(Web Crawler)1.概念:爬虫是1段自动抓取互联网信息的程序,拥有从互联网上抓取有价值的信息分为定向爬虫(只抓取目标网站上的信息)和非定向爬虫(没有针对性,所有链接都爬取)这2种2.基本原理:①下载网页②用正则表达式进行匹配,得到需要的内容二.Requests模块三.beautisoup模块...原创 2020-07-13 15:36:20 · 650 阅读 · 2 评论