python爬虫
WMN7Q
在校学生,多多指教
展开
-
python爬虫学习(1)--关于正则表达式输入和提取中文
做爬虫时,可能会遇到的小问题,拿出来分享一下1.关于正则表达式中类型转换问题我们在使用soup.findAll('tag')得到的是下面的数据类型class 'bs4.element.Tag'但是,这种类型是不能带入正则表达式的,必须要转换格式,使用下面的即可aa = soup.findAll('tag')aa = unicode('aa')将 a原创 2016-08-07 10:45:44 · 3264 阅读 · 1 评论 -
python使用flask和bootstrap制作网站
前言在讲之前先讲一个别的,今天刚上csdn的时候竟然发现在排名那里不是千里之外了,这么一个历史性的时刻应该记录一下。现在正好是20000,O(∩_∩)O哈哈~下面开始讲正题,就是讲今天在用flask和boostrap的时候遇到的一些问题和查的一些资料 bootstrap帮助关于bootstrap的使用我觉得看官网就可以了,讲得很详细。http://v3.bootcss.com/components/原创 2017-11-19 23:16:46 · 2224 阅读 · 0 评论 -
python的星号(*)和双星号(**)用法
看到一篇讲解python中星号和双星号的用法的文章,觉得讲的很不错,就放在这里,方便自己以后查找。http://www.cnblogs.com/empty16/p/6229538.html我在下面举一个例子,要是能看懂例子也可以了#!/usr/bin/env python#coding=utf-8#--------def one(a,*b): """ a是一个普通传入参数,*b原创 2017-11-05 14:12:28 · 2249 阅读 · 0 评论 -
python中scrapy的学习
最近再看scrapy,在这里放一些可能会用到的链接,方便自己查阅。这一篇讲了scrapy的框架,对于整体上把握scrapy还是很有帮助的scrapy架构及原理这里讲了防止爬虫被ban的一些方法,里面有下载中间件的设置方法反反爬虫相关机制这里是一些scrapy结合selenium来执行js的一些方法爬虫之动态HTML处理(Selenium与PhantomJS )执行 JavaScript 语句pyth原创 2017-11-03 20:48:40 · 562 阅读 · 0 评论 -
sqlalchemy使用过程的一个小问题
问题今天在使用 sqlalchemy的时候遇到了一个小问题,就是会有如下的报错:cannot import name create_engine解决办法然后我在下面的资料里查到了解决方法:http://blog.csdn.net/zhyh1435589631/article/details/51549944其实就是文件名与模块名字重复了, 导致模块 sqlchemy 没有被正确的引入进来。原创 2017-10-26 18:13:58 · 2582 阅读 · 2 评论 -
selenium的一些要注意的地方
今天在尝试了一下如何爬取北邮人论坛,最后使用selenium来实现了。下面记录一下使用selenium要注意的地方。python selenium模块使用出错,错误代码为:Message: ‘geckodriver’ executable needs to be in PATH. ubuntu16.04环境下 解决方法:下载 geckodriverckod 地址: mozilla/gec原创 2017-11-12 21:16:41 · 1138 阅读 · 0 评论 -
pandas时间序列操作
这里讲一下如何把pd.period_range生成的数据变成字符类型的。关于pandas时间序列操作可以看下面这篇文章。pandas 时间序列操作import pandas as pdimport numpy as npday_list = pd.period_range('2016-1','2016-12',freq='M')df = pd.DataFrame(np.random.rand(l原创 2017-11-11 21:54:03 · 1011 阅读 · 0 评论 -
python的dataframe转换为多维矩阵
最近有一个需求要把dataframe转换为多维矩阵,然后可以使用values来实现,下面记录一下代码,方便以后使用。import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.rand(3,3),columns=list('abc'),index=list('ABC'))print(df)print('============'原创 2017-11-11 21:46:21 · 16836 阅读 · 1 评论 -
关于python网页编码问题
如何查看网页编码我们可以右键查看网站源代码,在head里会包含这样一句话,chaeset后面就是网页的编码,这里就是utf8的编码 <meta http-equiv=Content-Type content="text/html;charset=utf-8">解决中文乱码问题有的时候网站的编码是gbk或者gb2312,那么python抓取后结果是乱码,我们应该如何处理呢。我是查看了下面的链接的到了解原创 2017-10-16 12:53:19 · 622 阅读 · 0 评论 -
关于itchat学习的一些资料
整理一些itchat的一些资料,方便自己查询这个是官方的介绍:itchat项目介绍这个是给指定用户发送消息的时候,toUserName的设置itchat 微信接口不能直接发消息给指定用户 itchat的一些例子itchat–玩转微信原创 2017-11-09 22:02:53 · 1203 阅读 · 0 评论 -
python中的random模块使用指南
正文andom.randomrandom.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0random.uniformrandom.uniform的函数原型为:random.uniform(a, b),用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限。如果a > b,则生成的随机数n: a <= n <= b。如果 a 参考资料 Python中原创 2017-11-09 21:43:52 · 473 阅读 · 0 评论 -
python中yield的使用
前言之前对yield感觉一直没有理解得很好,今天找到了一个挺好的例子,感觉可以帮助理解,就放在这里。例子及解释yield说明yield 的使用方法和 return 类似。不同的是,return 可以返回有效的 Python 对象,而 yield 返回的是一个生成器,函数碰到 return 就直接返回了例子代码def fib(n): a = 1 b = 1 current =原创 2017-10-31 16:20:30 · 488 阅读 · 0 评论 -
配置python3的pip3
配置python3的pip3还是先讲一下一个数学网站,最近更新了一篇关于使用mathematica来做应用回归分析的文章,其中包含相关系数的计算,散点图的绘制,拟合直线,求置信区间等等,应用回归分析之简单线性回归(Mathematica版本)ubuntu默认的python版本是2.7,于是就会有下面的问题,就是pip的时候实际上是在给python2在安装库,那么如何给python3安装原创 2017-10-19 20:40:50 · 1472 阅读 · 0 评论 -
Python3中dict.keys()转换成list类型
在python3中使用dict.keys()返回的不在是list类型了,也不支持索引,我们可以看一下下面这张图片那么我们应该怎么办呢,其实解决的方法也是非常简单的,只需要使用list()就可以了,可以看下面的代码list(dict.keys())我们可以看一下下面这张图片,现在就支持索引了参考资料https://www.zhihu.com/question/45015229原创 2017-10-19 20:25:55 · 69461 阅读 · 4 评论 -
关于(python)正则表达式
最近正好在用到正则表达式,找到了下面这一篇非常好的文章,把链接附上: python正则表达式问题下面说一下我要解决的问题吧,我要把这样的字符![](./_image/snipaste_20170731_120806.png)转换为http://ootgubexr.bkt.clouddn.com/\1.png?imageView2/0/q/75......的形式。解决方法 运原创 2017-08-01 23:12:18 · 531 阅读 · 0 评论 -
ubuntu下安装最新redis
之前参考了下面的链接:Ubuntu下用apt-get安装最新版本的Redis但是下面的命令却是执行会报错sudo apt-get install -y python-software-properties sudo apt-get install software-properties-common sudo add-apt-repository -y ppa:rwky/redis su原创 2017-11-15 22:16:41 · 1049 阅读 · 0 评论