- 博客(34)
- 收藏
- 关注
原创 pyecharts报错:jinja2.exceptions.TemplateAssertionError: no test named ‘false‘
升级jinja2即可:pip install --upgrade jinja2。
2023-12-05 17:00:39 661
原创 Python爬取新闻动态评论
1.前些天打开网易新闻,于是点开爬取该新闻的评论。也可以点这里打开!2.以前爬取的网页都是静态的,都是源代码中直接就有,一眼就可以观察到的,而这次打开却不一样,根本没有自己想要的评论内容。然后通过搜索学习,知道了获取数据的办法。主要是html中的JavaScript和Python中json模块。具体步骤如下:1.输入网址,用谷
2020-04-05 11:04:59 4713 2
原创 mysql的两个小问题
1.关于concat函数用到此函数是为了多个字段对应同一个值进行模糊匹配。例如: select * from course_info where course_id like '%xxx%' or course_name like '%xxx%' or course_school like '%xxx%'上述语句等同于:select * from course_info whe
2017-12-01 11:13:35 299
转载 xshell 评估过期
如下为 Home&School 免费版链接,卸载原程序,下载安装此程序即可。http://www.netsarang.com/download/free_license.html邮箱必须填写正确,Home&School 版的下载地址会发送到邮箱,如下
2017-10-24 11:51:04 865
原创 Python多线程爬取QQ音乐的专辑信息
1 需求: 获取专辑信息: 专辑名字,歌手,流派,语种,发行时间,发行公司,类型,介绍 以及专辑中的歌曲,歌手和时长 全部保存为json格式2 分析页面 专辑链接所在的url为上图右方的链接:去掉多余参数则如下图所示: page从0开始。 观察专辑的链接, 红框中的内容恰好是一图中的albu
2017-04-14 21:49:11 2562
原创 Python安装lxml出错:ERROR: 'xslt-config' 不是内部或外部命令,也不是可运行的程序的解决办法。
想用xpath,from lxml import etree的时候发现没有lxml。(直接蹦到四五步就好)1 pip install lxml 然后报一堆错。ERROR: 'xslt-config' 不是内部或外部命令,也不是可运行的程序的解决办法。2 下载whl文件。 安装依旧出错。3 下载exe文件,手动安装。 https://pypi.pyth
2017-04-14 21:33:21 4602
原创 scrapy连接mysql出错
报错内容大概是:connection localhost(无法连接localhost) 忘记截图。。。。。只把解决方法写进了txt settings.py文件中的设置: pipeline.py文件中连接数据库的设置:
2017-04-06 17:49:21 1592
原创 解决安装python没有scripts文件夹的问题
好久不更。 安装Python2.7,好多次都不会产生scripts文件夹,导致无法使用pip。 折腾了一下,找到了解决办法。 让人无法接受的是,只要是我给的安装包一定不会产生scripts文件夹,所以应该是我的安装包出现了问题,建议出现这个问题的宝宝们先去换个安装包,如果换了之后还有这个错误,可以看一下我是怎么解决的,仅供参考。
2017-04-06 17:11:21 37398 3
转载 python设置代理ip爬取知乎图片
原文链接:http://blog.csdn.net/willib/article/details/52374507本文接着前面两文中提到的内容来继续完善我们的Python爬虫。上文地址:通过Python爬虫爬取知乎某个问题下的图片设置代理的方式很简单,可以看看这里Requests的官方文档,这里也有对应的中文版介绍,点击打开链接先简单说下requests代理的使
2017-03-17 19:57:35 1115
转载 python爬取的图片无法显示的问题
一开始把图片爬下来的时候完全都不能看,查了很多也没清楚原因,最近看到一篇解决这个问题的博客,膜拜呀。原博客地址:http://www.cnblogs.com/eastmount/p/5055908.html一. 简单分析原因及知识巩固 1.urllib.urlretrieve() 通过urlretrieve()函数可设置下载进度发现图
2016-10-20 17:44:50 25073
原创 csv.Error: line contains NULL byte解决方法
写代码的时候,导入一个csv文件,就一直报这个错误。csv.Error: line contains NULL byte查了查,是说包含了空字符。看了一下csv的源码,其中一个函数表示,不能有空操作符,即不能有“\0”或者“\x00”(16进制)。解决办法:1.如果你的文件是从xlxs格式另存为csv格式的话,那么重新再另存为csv格式一下就ok。2.将空字符全部替
2016-10-15 15:47:44 34965
转载 Python识别验证码的模块--- pytesser
pytesser识别简单的数字和英文字母还好,复杂的以及中文都无法识别的。而且该模块需要PIL库的支持。如果要识别其他语言,需要下载相应的语言数据包放入tessdata中,然后在调用image_to_string()函数时多加一个language参数。该博客里讲解了pytesser的安装使用、解决识别率低的问题以及通过修改源代码来识别其他语言,我改了,但是。。。。。一直报错。(不明所以脸)
2016-10-10 20:52:49 6668
原创 phantomjs+selenium爬取拉勾招聘信息
我又回来了我。从开学到现在仔细想想干了点啥,嗯。。。。。没啥。一直想着补博客,然后就想着。。刚为祖国大人庆完生,又被老妈拽去地里各种折腾,回来都不想动脑子,不想不想不想,啊。。。。。还是补博客吧,废话太多了,呵呵呵。说说要达到的目标:就是获取六个热门城市中数据挖掘职位的招聘职位、职位要求、面试评价等,最后转存为json格式。遇到的问题大概就是模拟登陆和验证码识别两大块问题吧。前提啊
2016-10-10 20:12:54 2322
原创 python排序函数sort()、sorted()、argsort()
1.sort()sort()是可变对象的方法,无参数,无返回值,但会影响改变对象。例如:>>> a = [2,5,1,3,0,1,8]>>> a.sort()>>> a[0, 1, 1, 2, 3, 5, 8]2.sorted()sorted(iterable[, cmp[, key[, reverse]]])sorted()不会发生上述情况,sorted()函数
2016-07-22 18:36:55 7198
原创 python字典的get函数和iteritems函数
1.get()当我们获取字典里的值的时候,一个是通过键值对,即dict['key'],另一个就是dict.get()方法。例如:>>> dict = {'a':'AA', 'b':'BB', 'c':'CC'}>>> dict['a']'AA'>>> dict.get('a')'AA'get()方法语法:dict.get(key, default=None)ke
2016-07-21 17:15:40 15973 1
转载 NumPy的详细教程
转自:http://blog.csdn.net/lsjseu/article/details/20359201先决条件在阅读这个教程之前,你多少需要知道点Python。如果你想从新回忆下,请看看Python Tutorial.如果你想要运行教程中的示例,你至少需要在你的电脑上安装了以下一些软件:PythonNumPy这些是可能对你有帮助的:ipy
2016-07-21 10:09:40 500
原创 scrapy爬取post的数据
1.爬取瑞钱宝的投资方式的数据,爬取内容如下: 2.查看网址,可以发现:点击下一页时,地址栏里的链接均无任何变化。可以判断出该网页的数据都是post方式上传的。说一下get和post的区别:get显式的传参,而post是隐式的。get的URL会有限制,而post没有。get没有post安全。不过,小某还看到一篇内容。点击打开
2016-04-27 21:25:44 15520 1
原创 python-----os模块
常用方法:可以通过help进行查看相关的用法1.os.name---判断正在使用的平台。Windows返回“nt”,Linux返回“posix”。2.os.getcwd()---获取python脚本工作的目录路径3.os.listdir()---获取指定目录下的所有文件和目录名4.os.remove()---删除指定文件5.os.rmdir()---删除指定目录
2016-04-25 20:09:44 479
原创 用scrapy爬取网页数据
刚开始接触scrapy,乍那么一看,这都是些什么鬼,感觉好难。。。。。。学习历程大概是这样的:1.先百度了scrapy的官方文档,scrapy官方文档,早就安装了scrapy,cmd->python->import scrapy的时候是很正常的,不过在pycharm中导入一直都有红杠杠的。。。。不得不又卸了重新装。在这里特别要注意scrapy的s的大小写。pip安装的时候是大写,导入模块的
2016-03-25 22:01:52 4503
原创 pandas安装与学习
小某已经消失很长时间了,现在回来了,(*^__^*) 嘻嘻……1.关于Scripy的安装(寒假装的。。。。)这个需要依赖很多包才能运行,大家可以借鉴一下这篇博客。http://www.cnblogs.com/CLTANG/archive/2011/07/05/2098531.html每安装一个,就要在Python中import一下,看看是否已安装。在安装过程中,遇到的问题就是弹出一
2016-03-14 21:21:55 21546
转载 struct和typedef struct
祝大家新年快乐呦!!struct和typedef struct分三块来讲述: 1 首先://注意在C和C++里不同 在C中定义一个结构体类型要用typedef: typedef struct Student { int a; }Stu; 于是在声明变量的时候就可:Stu stu1;(如果没有typedef就必须用st
2015-12-31 19:58:29 363
原创 Python爬取返利网(今日值得买)数据
双十一还没消停,双十二又来了。看返利网的数据时时不断的在更新。。。。。。1.爬取返利网的商品名,分类,推荐人,好评数和差评数2.商品信息不断更新,查看页面源代码仅可以看见一开始显示的几个商品的代码。页面加载规律是往下拉页面,便加载5个商品,一页有50个商品。所以,还是打开谷歌浏览器,按F12,向下拉页面,使数据完全加载完毕。一开始并不知道数据存在哪,便一个一个点开看,查找数
2015-12-09 14:47:29 2881
原创 Python小知识
1.eval()函数的用法使用Python GUI,help一下>>> help(eval)Help on built-in function eval in module __builtin__:eval(...) eval(source[, globals[, locals]]) -> value Evaluate the source in the c
2015-12-02 21:32:43 620
原创 使用BeautifulSoup爬取药智标准网数据(更改)
#coding:utf-8import urllib2import bs4from bs4 import BeautifulSoupclass YZBZ(): def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 6.
2015-11-29 21:05:18 1149
原创 爬取豆瓣网电影信息
#coding:utf-8import urllib2import bs4from bs4 import BeautifulSoup#爬取豆瓣网电影简介,包括电影名,导演,评分以及介绍等class DBTOP(): def __init__(self): self.usr_agent='Mozilla/5.0 (Windows; U; Windows NT 6.1
2015-11-28 21:53:32 1475
原创 使用BeautifulSoup爬取药智标准网的数据
#coding:utf-8import urllib2import bs4from bs4 import BeautifulSoupclass YZBZ(): #初始化方法 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/5.0 (Windows; U;
2015-11-23 21:34:54 1121
原创 Python小错误
1.打开文件时,总是出现IOError:[Error:22]......(省略号一般写的是文件名不存在之类的英文)。但是路径与文件名完全正确。解决方法:在路径前加r或者R,例如:f=open(r"D:\pythontest\test.txt","w")这是因为原始字符串的一些特性。原始字符串是指没有进行转义的字符。打开文件时出现异常是因为“\t”被当成了特殊字符进行处理,在前面加上“r/R
2015-11-23 20:49:35 2912
转载 Python标准库urllib2的使用细节
Python 标准库 urllib2 的使用细节此文貌似也是某博主转载的吧,转自道可叨。转载自道可叨|Python标准库urllib2的使用细节(http://zhuoqiang.me/python-urllib2-usage.html)不过小某是转自“一块努力的牛皮糖”Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 ur
2015-11-21 22:56:58 582
原创 安装BeautifulSoup
在windows下安装BeautifulSoup安装方法:1.去网站http://www.crummy.com/software/BeautifulSoup/下载压缩包2.解压到本地硬盘上3.将名称为beautifulsoup4-4.2.0的文件夹放到D:\Python27下(形成路径D:\Python27\beautifulsoup4-4.2.0)4.运行cmd,切换目录到D
2015-11-19 21:53:04 757 4
原创 用正则表达式爬取链接和标题
1.爬取中国大数据首页的链接和标题2.出现好多错误,特别是正则表达式#coding:utf-8import reimport urllib#获取网页def getHtml(url): page=urllib.urlopen(url) html=page.read() return html#用正则匹配相应的链接和标题def getText(html):
2015-11-19 18:58:15 7483
原创 初用正则表达式爬取图片
#coding:utf-8#导入正则模块import reimport urllib#获取网页def getHtml(url): #打开该网页 page=urllib.urlopen(url) #读取网页的源代码 html=page.read() #print html 测试一下是否成功读取 return html#获取图片def ge
2015-11-17 21:18:04 5282 7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人