python
Pop–
熬夜不打代码
展开
-
scrapy 数据存储,实则是python和mysql的交互,使用pipeline将爬取的数据入库
在pipeline.py管道处import pymysqlfrom BOOK import settings"""MYSQL_HOST = 'localhost'MYSQL_DB_NAME = 'book'MYSQL_PORT = 3306MYSQL_USER = 'root'MYSQL_PASSWORD = '5520'"""class BookPipeline(obj...原创 2020-04-26 22:31:52 · 227 阅读 · 0 评论 -
scrapy京东翻页爬取
获取下一页的链接如果下一页有值,就发送下一页的请求,没有就什么都不做 # 只爬取 前5页 self.page += 1 if self.page > 4: return # 列表翻页 # 1. 取出 下一页 标签 的 URL 网址不齐全 next_url ...原创 2020-04-26 18:04:11 · 734 阅读 · 0 评论 -
scrapy爬取数据为什么价格为空,为什么在xpath解析有显示价格,该怎么解决,京东存在ajax反爬虫
- 图书价格爬取分析点击一个页面检查一下在json.cn页面进行分析检查,因为有很多价格,市场价,会员价,因此我们只需要选择一种即可- 图书价格ajax获取:价格 url ----ajax请求 —发送单独获取数据的 —个数不确定而我们要做的是一本书 对应一个价格2. https://p.3.cn/prices/mgets?skuIds=J_12508277 ...原创 2020-04-26 16:04:58 · 693 阅读 · 0 评论 -
scrapy爬虫如何解决图书大分类与小分类之间的匹配问题
follwing-siblingfollowing-sibling 选取当前节点之后的所有同级节点,跟preceding-sibling一样都是选取同级同父的节点,只不过following是取对应节点之后的节点,preceding-sibling取的是该节点之前的节点。1. 遍历京东图书的伪代码:# 获取所有大分类标签dt dt_list = '//*[@id="book...原创 2020-04-24 16:27:00 · 218 阅读 · 0 评论 -
yield关键字,什么鬼东西
- yield: 好处:不会将所有数据取出来存入内存中;而是返回了一个对象;可以通过对象获取数据;用多少取多少,可以节省内容空间。除了能返回一个值,还不会终止循环的运行...原创 2020-04-24 16:25:35 · 232 阅读 · 0 评论 -
scrapy基本使用--爬取图书首页
务必安装 pip install scrapy -i + 镜像源使用scrpay创建爬虫项目(终端创建):1.创建项目:scrapy startproject BOOK2.进入项目:cd BOOK3.创建爬虫:scrapy genspider book jd.com4.运行爬虫:scrapy crawl book打开pycharm 找到你创建的项目 oppen在settings...原创 2020-04-22 17:01:14 · 235 阅读 · 0 评论 -
django——Admin后台管理站点
1. 创建用户: 终端创建:`python manage.py createsuperuser` 用户名: 密码: 最少8位 数字和字母混合使用 邮箱: 随便写一个符合邮箱格式创建成功后,你可以刷新一下网址 输入用户和密码就可以登录了。2. admin.py:from .models import (BookInfo)admin.site.regis...原创 2020-04-19 16:09:54 · 122 阅读 · 0 评论 -
pycharm——djiango之数据迁移,终端操作
首先在pycharm中找到terminal(终端),输入指令:python manage.py makemigrations之后你会看到如下图:这表示创建成功。接着输入指令:python manage.py migrate 就能看到好多ok,你在数据库中也能看到很多表你可以在终端打开数据库查看表,也可以使用客户端的可视化界面查看,还可以在pycharm中右边的database里边打开查看,如...原创 2020-04-17 20:14:01 · 2900 阅读 · 0 评论 -
Server returns invalid timezone. Go to 'Advanced' tab and set 'serverTimezone' property manually.
-.Server returns invalid timezone. Go to 'Advanced' tab and set 'serverTimezone' property manually翻译过来的意思是:服务器返回无效时区。转到“高级”选项卡并手动设置“服务器时区”属性。错误原因是因为:首先,出现该问题的原因是MySQL驱动jar中的默认时区是UTC。UTC代表的是全球标准时间 ,...原创 2020-04-17 15:55:49 · 715 阅读 · 0 评论 -
django.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.13 or newer is required; you have 0.9.3
django.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.13 or newer is required; you have 0.9.3.django.core.exceptions.improperyconfigured:需要mysqlclient 1.3.13或更新版本;这个错误主要是 django 与 python 版本问...原创 2020-04-16 18:28:28 · 122 阅读 · 0 评论 -
用pycharm来运行你创建的django项目
找到你的manage.py文件点击run,如果你出现下面的图不要慌这是因为你少配个东西,点击manage找到edit–>scrapy parameters :添加runserver 点击确定,然后在run一次,出现以下界面就表示你成功了!!这就表示已经好了...原创 2020-04-15 21:35:15 · 319 阅读 · 0 评论 -
python-scrapy的安装
快速安装:cmd指令: pip install scrapy -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com安装成功界面:出现黄色字体是提示你pip版本太低,需要升级,这里你可以试试输入引号里边的内容:我这里是出错了,下面是失败的,失败原因,有家里网不太稳定经过朋友的帮助这里有更好的升级方...原创 2020-04-14 17:55:56 · 127 阅读 · 0 评论 -
一般scrapy的安装
首先进入网页:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted进入后不要慌,找到你python对应的文件类型,这里我的是所以我找的是:下载好以后把两个文件放到一个目录下接下来在cmd里输入pip install scrapy...原创 2020-04-14 18:05:58 · 88 阅读 · 0 评论 -
python添加django.pycharm的方法
输入cmd进入终端:pip install 库 -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com举个例子:例如添加scrapy,django和pymysqlpip install PyMysql -i https://pypi.doubanio.com/simple/ --trusted-host py...原创 2020-04-15 13:49:00 · 160 阅读 · 0 评论