Spider
小火skr车
思考后再编程,不要在疲倦时编程
展开
-
Spider学习笔记(十三):爬取京东商品详情页数据,写入execl表中
import jsonimport reimport pandas as pdimport requestsdef test(addr): # 京东商品原文链接 url_ = "%s#crumb-wrap" % addr # 请求头设置参数 header_ = { "USER-AGENT": "Mozilla/5.0 (Windows ...原创 2019-12-19 11:57:44 · 1327 阅读 · 0 评论 -
Spider学习笔记(十二):视频下载插件ffmpeg的使用操作介绍
插件目录结构bin 目录结构操作命令ffmpeg -i http://xxx/xxx.m3u8|mp4 -c copy -bsf:a aac_adtstoasc output.mp4实例操作这里试着爬取http://v.sigu.me/index.php的视频看看找到视频的播放路径,去执行下载命令生成视频文件...原创 2019-05-04 19:37:06 · 813 阅读 · 0 评论 -
Spider学习笔记(十二):爬取迷你MP4电影信息(翻页数据爬取)
import requestsimport lxmlfrom lxml import etreeheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"...原创 2018-09-25 17:13:32 · 498 阅读 · 0 评论 -
Spider学习笔记(一):xpath基础操作
# XPathXPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。# 什么是 XPath?- XPath 使用路径表达式在 XML 文档中进行导航- XPath 包含一个标准函数库- XPath 是 XSLT 中的主要元...原创 2018-08-16 17:49:42 · 793 阅读 · 0 评论 -
Spider学习笔记(二):抓取51招聘城市信息
import requestsimport lxmlfrom lxml import etreeheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"...原创 2018-08-16 21:24:59 · 229 阅读 · 0 评论 -
Spider学习笔记(三):抓取51招聘岗位信息
import requestsimport lxmlfrom lxml import etreeheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"...原创 2018-08-16 21:25:49 · 265 阅读 · 0 评论 -
Spider学习笔记(四):将爬取数据存入数据库
import pymysqlconn = pymysql.connect(host='127.0.0.1',user='root',password='123456', database='world',port=3306,charset='utf8')#游标cur = conn.cursor()#读取with open('tencen...原创 2018-08-17 10:53:50 · 1347 阅读 · 0 评论 -
Spider学习笔记(五):抓取51所有城市所有招聘信息(每个城市的每一页)
import requestsimport lxmlfrom lxml import etreeheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"...原创 2018-08-18 11:31:45 · 327 阅读 · 0 评论 -
Spider学习笔记(六):爬虫部署
在云服务创建一个虚拟环境```pythonvirtualenv envnamesource 进入虚拟环境安装scrapyd pip install scrapyd安装scrapy pip install scrapy安装scrapy pip install requests启动命令 scrapyd 需要改一下配置find -name default_scrap...原创 2018-08-20 13:51:36 · 605 阅读 · 0 评论 -
Spider学习笔记(七):词云(wordcloud)
先看一下实现效果实现代码import jiebafrom PIL import Image # 图片处理import numpy as np # 科学运算from wordcloud import WordCloud, STOPWORDS # 词云import matplotlibfrom matplotlib import pyplot as plt # 绘图...原创 2018-08-21 18:56:53 · 819 阅读 · 0 评论 -
Spider学习笔记(八):matplotlib
暂时没有实际运用过,就随便跑跑看import matplotlibfrom matplotlib import pyplot as plt # 绘图# 显示中文matplotlib.rcParams["font.sans-serif"] = ["simhei"] # 配置字体matplotlib.rcParams["font.family"] = "sans-serif"#...原创 2018-08-21 18:58:56 · 791 阅读 · 0 评论 -
Spider学习笔记(十一):获取图片并下载
话不多说,上代码# -*- coding:utf-8 -*-'''@Time : 2018/8/20 9:10@Author : Fate@File : house.py'''import requestsimport lxmlfrom lxml import etreeimport jsonimport timeheaders = { "U...原创 2018-08-23 17:16:55 · 433 阅读 · 0 评论 -
Spider学习笔记(十):一个Scrapy框架实战操作
爬取目标:爬取某论坛评论中的所有邮箱首先,创建Scrapy工程和项目在cmd命令中输入如下命令:scrapy startproject tianya(工程名)scrapy genspider mytianya "bbs.tianya.cn"(生成mytianya.py文件)(爬取的域名范围)在工程目录下生成一个start.py文件,方便程序的运行,并编写一下内容在文件...原创 2018-08-22 21:07:55 · 406 阅读 · 0 评论 -
Spider学习笔记(九):Scrapy框架的基础操作
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步...原创 2018-08-22 19:40:35 · 2136 阅读 · 0 评论