你真有意思
码龄7年
关注
提问 私信
  • 博客:35,755
    35,755
    总访问量
  • 41
    原创
  • 1,773,008
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2017-12-29
博客简介:

你真有意思的博客

博客描述:
努力成为码农,再成为程序员
查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得5次评论
  • 获得10次收藏
创作历程
  • 41篇
    2018年
成就勋章
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

python爬虫表单总结

动态内容,ajax的数据在XHR里面,刷新可以查看新抓的包里面有没有自己想要的数据。IF-TargetVerb: POSTIF-TargetContent: [{"Lbl":"attachmentWrapper","Src":"div.InFlightAttachment:first","Data":"null","HWA":".","Ch
原创
发布博客 2018.05.28 ·
1290 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

wordcloud库

安装:http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载python -m pip install wordcloud-1.4.1-cp36-cp36m-win_amd64.whlw = wordcloud.WordCloud(<参数>)参数:width(默认400)、heigth(默认200)、min_font_size(默认...
原创
发布博客 2018.05.10 ·
981 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于爬虫错误信息

1.raise ValueError('Missing scheme in request url: %s' % self._url)结局问题: 1.下载图片files_url需要list类型       2.http不要忘记加
原创
发布博客 2018.05.09 ·
390 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

dateutil库

安装:pip install python-dateutil导入:from dateutil.parser._parser import parse方法:parse(strtime).timestamp()#时间戳,浮点数类型          parse(strtime).date()#字符串类型...
原创
发布博客 2018.05.07 ·
684 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

jieba库

精    确   模式:jieba.lcut(s)#不存在冗余全    模      式:jieba.lcut(s,cut_all = True)#存在冗余搜索引擎模式:jieba.lcut_for_search(s)#存在冗余
原创
发布博客 2018.05.06 ·
550 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

scrapy连接myqsl

在pipeline中:def __init__(self): self.connect = pymysql.connect( host='localhost', port=3306, db='****', user='root', passwd='****', charset='utf8') ...
原创
发布博客 2018.05.06 ·
1308 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

RIDES

github下载地址:https://github.com/MSOpenTech/redis/tags启动命令redis-server redis.windows.conf启动失败:连接失败:1.redis-cli.exe2.shutdown3.exit4.redis-server redis.windows.conf设置服务命令redis-server --service-install red...
原创
发布博客 2018.05.04 ·
2677 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

XPATH

今天学习了scrapy中的spiders部分,爬虫名name,start_url起始点,以及xpath的语法:nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。bookstore选取 bookstore 元素的所有子节点。/bookstore选取根元素 bookstore。注释...
原创
发布博客 2018.05.03 ·
303 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

scrapy框架

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。安装scrapy的时候用的是pip安装的,一直报错twisted,于是下载Twisted.whl再pip install Twisted也是失败,必须到文件所在位置,再pip install Twisted-18.4.0-cp36-cp36m-win32.whl才成功Scrapy运行流程大概如下:引擎从调度器中取出一个链接(URL...
原创
发布博客 2018.05.02 ·
217 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HTTP首部字段

通用首部字段Cache-Control 控制缓存的行为Connection 逐跳首部、连接的管理Date 创建报文的日期时间Pragma 报文指令Trailer 报文末端的首部一览Transfer-Encoding 指定报文主体的传输编码方式Upgrade 升级为其他协议Via 代理服务器的相关信息Warning 错误通知请求首部字段Accept 用户代理可处理的媒体类型Accept-Charse...
原创
发布博客 2018.05.02 ·
263 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HTTP状态码

200 ok204 no content206 partial content301 Moved Permanently永久性重定向。该状态码表示请求的资源已被分配了新的 URI,以后应使用资源现在所指的 URI。302 Found临时性重定向。该状态码表示请求的资源已被分配了新的 URI,希望用户(本次)能使用新的 URI 访问。303 See Other该状态码表示由于请求对应的资源存在着另一...
原创
发布博客 2018.05.02 ·
171 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HTTP协议

TCP/IP 协议族按层次分别分为以下 4 层:应用层:FTP(文件传输协议),DNS(域名系统),HTTP(超文本传输协议)传输层:TCP(传输控制协议),UDP(用户数据报协议)网络层:IP(网际协议)网络层用来处理在网络上流动的数据包。数据包是网络传输的最小数据单位。该层规定了通过怎样的路径(所谓的传输路线)到达对方计算机,并把数据包传送给对方数据链路层:用来处理连接网络的硬件部分。包括控制...
原创
发布博客 2018.04.28 ·
108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫:一个url多页

import urllib.requestimport urllib.parsefrom lxml import etree#链接url = 'http://www'#循环得到分页for i in range(1,26):#查到到页数关键词    query = {'Page':'i'}    data = urllib.parse.urlencode(query).encode(encoding...
原创
发布博客 2018.04.27 ·
2469 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

爬虫:豆瓣top250

import requestsfrom lxml import etreefor i in range(0,250,25):    url = 'https://movie.douban.com/top250?start=%s&filter='%i    r = requests.get(url)    b = r.text    s = etree.HTML(b)    file = s...
原创
发布博客 2018.04.26 ·
539 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pyinstaller库

pyinstaller库常用参数:-h                              查看帮助--clean                      清理打包过程中的临时文件-D,--onedir             默认值,生成dist文件夹-F,--onefile              在dist文件夹中只生成独立的打包文件-i<图标文件名。ico>  指定打...
原创
发布博客 2018.04.26 ·
342 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

面对对象:(进阶)

面向对象是一种编程方式,此编程方式的实现是基于对 类 和 对象 的使用类 是一个模板,模板中包装了多个“函数”供使用(可以讲多函数中公用的变量封装到对象中)对象,根据模板创建的实例(即:对象),实例用于调用被包装在类中的函数面向对象三大特性:封装、继承和多态1.字段:普通字段属于对象,静态字段属于类2.方法:普通方法:由对象调用;至少一个self参数;执行普通方法时,自动将调用该方法的对象赋值给s...
原创
发布博客 2018.04.25 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

django:表单(2)

表单框架最主要的用法是,为每一个将要处理的HTML的`` <Form>`` 定义一个Form类。 print(f)<tr><th><label for="id_subject">Subject:</label></th><td><input type="text"
原创
发布博客 2018.04.24 ·
135 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

django:表单(1)

通常,表单开发分为两个部分: 前端HTML页面用户接口和后台view函数对所提交数据的处理过程from django.shortcuts import render_to_responsefrom django.http import HttpResponsefrom books.models import Book# Create your views here.    表单def search...
原创
发布博客 2018.04.23 ·
135 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MVC思想

MVC要实现的目标是将软件用户界面和业务逻辑分离以使代码可扩展性、可复用性、可维护性、灵活性加强。控制器的作用就是这么简单, 用来将不同的View和不同的Model组织在一起,顺便替双方传递消息,仅此而已。组成MVC的三个模式分别是组合模式、策略模式、观察者模式,MVC在软件开发中发挥的威力,最终离不开这三个模式的默契配合。对应到MVC中,Model是被观察的对象,View是观察者,Model层一...
原创
发布博客 2018.04.23 ·
585 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

django:admin

激活Django自带的管理界面: python manage.py createsuperuser(必须含有django.contrib.auth)问题:django.urls.exceptions.NoReverseMatch: Reverse for 'logout' with no arguments not found. 1 pattern(s) tried: ['admin/$lo...
原创
发布博客 2018.04.22 ·
332 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多