python
文章平均质量分 56
理想与少年
这个作者很懒,什么都没留下…
展开
-
使用Python实现Hadoop MapReduce程序
转自:使用Python实现Hadoop MapReduce程序 英文原文:Writing an Hadoop MapReduce Program in Python 转自:使用python实现Hadoop MapReduce 根据上面两篇文章,下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序, 打字很浪费时间滴。转载 2016-08-06 19:53:27 · 345 阅读 · 0 评论 -
Hadoop跑程序报超过内存错误
实验跑一个900多兆网络pagerank值,我用的是python程序跑,但是单机跑不了(因为这个网络非常大,所以矩阵计算特别占内存),于是需要借助Hadoop来计算。但是hadoop开始跑的时候还是跑不了,报溢出内存错误。查网上有说修改mapred-site.xml文件,但是这样很麻烦,你需要一个个点去配置,很麻烦。 其实这里有两类方法,一种是调内存,第二种就是增加mapper。而这里都有一种原创 2016-08-31 22:22:26 · 1576 阅读 · 0 评论 -
爬一爬糗事百科
这段时间在学python爬虫,就先拿糗事百科下手,教程是学点击打开链接这个的,但是我学的时候,糗事百科改版了,所以之前的正则表达式就不能用了,要自己写。 思路还是一样,先用hearders跳过验证,然后用urllib2.Request()和urllib2.urlopen()来获取网页内容,最后用正则式提取所想要的内容。 我提取的是作者、内容、点赞数和评论数。 在这里特别说一下我觉原创 2016-10-04 21:50:54 · 318 阅读 · 0 评论 -
CentOS升级Python2.7
自己的Ubantu系统出了问题,然后心血来潮突给自己的电脑换一个CentOS系统。好不容易装好,结果发现一个好的坑,Centos自带的Python版本太低了,连Networkx的包都装不了,于是就开始了更新之路。 首先是看一下python的版本:python -V,然后发现就只有2.6.6。没办法只能去更新了。 1)先去下一个Python比较新的包,我用的是2.7.3。转到你想下载的目原创 2017-01-07 14:26:00 · 374 阅读 · 0 评论 -
python编码恩怨录
在python里面,中文的编码问题是特别麻烦的问题,所以为了更好的解决这个问题,就简单整理关于编码的内容 1.编码背景: 比特与字节: 都知道计算机其实最终都会把所有的信息都变成0,1二进制比特位(bit),但是如果都是01这样的数字,正常人肯定记不住,所以就会最开始用8个二进制来表示一个字节(byte)。 ASCII码: 20世纪初的时候,美国制定了一套字符编码,将英文与二进制进行了一个对应,这...原创 2019-02-13 15:00:52 · 176 阅读 · 0 评论