- 博客(5)
- 收藏
- 关注
原创 集体智慧学习笔记二——中文标点的去除
从网站上爬下内容其实在python中是一件还比较简单的事情,如果不需要考虑各种反爬虫机制来说的话。 集体智慧学习的第四章是搜索与排名,各种索引的建立,我之后再总结。这里我主要总结下,如何整理爬取到的文字内容。问题解决的过程中使我进一步深化对python2各种编码机制的了解。 我只以一个简单的txt文档为例,文档内容如下: 先上最后的效果图吧: 一开始以为这个过程会很简单嘛,
2016-01-31 17:04:14 7772
原创 集体智慧学习编程—— 学习笔记一
学习目标: 1、利用博客资源自我创建数据集; 2、利用皮尔逊相关度描述单个数据之间的紧密度; 3、对从新浪博客爬取的博客进行分类; 4、绘制树状图。 一、利用博客资源创建数据集: 我这里选取的是新浪博客,例如http://roll.finance.sina.com.cn/blog/blogarticle/cj-bkks/inde_1.shtml, 其中url中数字1是页码。基于
2016-01-27 11:03:08 3194
原创 python 字典中的排序
字典如何排序: python中我们知道字典dict是没有顺序的,而list是有顺序的,因此我们这里利用list和tuple对dict进行排序。 一、对dict中的key进行排序: >>> d = {'banana':2, 'apple':1, 'orange':3} >>> l = d.items() >>> l.sort() >>> print l [('apple', 1), ('ban
2016-01-21 13:03:33 458
原创 pyhton 数据结构二
dic()--字典 用get()函数获取字典中的至,如果字典中不存在对应的key,则不会返回traceback错误,将返回给定的数值: >>> d = {'apple': 1, 'banana': 3} >>> print d['apple'] 1 >>> print d['pine'] Traceback (most recent call last): File "", line 1,
2016-01-21 12:09:09 334
原创 pyhon 数据类型一
python中raw_input()输入的是字符,如果需要输入数字,则需要转换一下: 例如: apple = raw_input('example') 输入:100Type(apple)返回 需要进行转换:apple = int(apple)type(apple) 此时就可以进行数值运算了
2016-01-21 09:45:45 388
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人