自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 集体智慧学习笔记二——中文标点的去除

从网站上爬下内容其实在python中是一件还比较简单的事情,如果不需要考虑各种反爬虫机制来说的话。 集体智慧学习的第四章是搜索与排名,各种索引的建立,我之后再总结。这里我主要总结下,如何整理爬取到的文字内容。问题解决的过程中使我进一步深化对python2各种编码机制的了解。 我只以一个简单的txt文档为例,文档内容如下: 先上最后的效果图吧: 一开始以为这个过程会很简单嘛,

2016-01-31 17:04:14 7772

原创 集体智慧学习编程—— 学习笔记一

学习目标: 1、利用博客资源自我创建数据集; 2、利用皮尔逊相关度描述单个数据之间的紧密度; 3、对从新浪博客爬取的博客进行分类; 4、绘制树状图。 一、利用博客资源创建数据集: 我这里选取的是新浪博客,例如http://roll.finance.sina.com.cn/blog/blogarticle/cj-bkks/inde_1.shtml, 其中url中数字1是页码。基于

2016-01-27 11:03:08 3194

原创 python 字典中的排序

字典如何排序: python中我们知道字典dict是没有顺序的,而list是有顺序的,因此我们这里利用list和tuple对dict进行排序。 一、对dict中的key进行排序: >>> d = {'banana':2, 'apple':1, 'orange':3} >>> l = d.items() >>> l.sort() >>> print l [('apple', 1), ('ban

2016-01-21 13:03:33 458

原创 pyhton 数据结构二

dic()--字典 用get()函数获取字典中的至,如果字典中不存在对应的key,则不会返回traceback错误,将返回给定的数值: >>> d = {'apple': 1, 'banana': 3} >>> print d['apple'] 1 >>> print d['pine'] Traceback (most recent call last): File "", line 1,

2016-01-21 12:09:09 334

原创 pyhon 数据类型一

python中raw_input()输入的是字符,如果需要输入数字,则需要转换一下: 例如: apple = raw_input('example') 输入:100Type(apple)返回 需要进行转换:apple = int(apple)type(apple) 此时就可以进行数值运算了

2016-01-21 09:45:45 388

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除