大数据
文章平均质量分 57
选择离开就别回头
这个作者很懒,什么都没留下…
展开
-
spearman学习
特征提取,预测都弄完了,现在要检查一下预测的效果。 spearman秩相关系数是度量两个变量之间的统计相关性的指标,用来评估当用单调函数来描述两个变量之间的关系有多好。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,那么二者之间的spearman秩相关系数就是1或+1,称为完全spearman相关 如果Y随X的增加而增加,则spearman秩相关系数是正的,否则是负的原创 2016-06-10 15:09:10 · 7135 阅读 · 0 评论 -
Python sklearn 学习笔记(快速)
近期在做预测,之前完全没有接触过,编程语言python也是临时找的简单教程学习的。 昨天开始在弄sklearn,然后就各种google,找到很多blog,而且sklearn主页也有很详尽的介绍,但是,时间啊,我木有太多时间来学习。介于此,我把自己的能快速运用sklearn的学习过程讲一下。。。。。 首先有train_data(训练数据),train_target(训练数据的真实结果),原创 2016-06-08 16:24:18 · 14544 阅读 · 0 评论 -
Python 情感分析
今天修改了情感分析的程序发现之前有一些不足。这个最简单的实现一个string情感分析的小函数,加载了积极词典,消极词典,程度词典,以及一些反转词等的词典。这里我没有做符号的分析和判断,因为的东西暂时用不到,需要的童鞋可以自己添加。。。 由于这里不能放文件所以...我放到网盘啦,,哇哇哇 链接: http://pan.baidu.com/s/1mhDqfWG 密码: vm38 import j原创 2016-06-14 11:38:52 · 2265 阅读 · 0 评论 -
python 结巴分词
昨天在处理发帖标题和内容,需要提取关键字。 首先要对句子进行分词。。。。经过一系列的查找,我决定用结巴分词来进行 介绍结巴分词 1.支持繁体 2.支持自定义词典 3.支持三种分词模式: 1:精确,适合文本分析 2:全模式,将句子所有可以成词的词语扫描出来,速度快,但不能解决句子的歧义 3:搜索引擎,在精确模式下,对长词进行再切割,使用搜索引擎分词 安装 python2原创 2016-10-10 09:26:48 · 936 阅读 · 0 评论 -
python 关键字提取
jieba 关键字提取 import jieba.analyse tags = jieba.analyse.extract_tags(str, topK=3) #str是提取关键字的内容,topK是提取关键字数 print ",".join(tags)原创 2016-10-10 16:24:21 · 8822 阅读 · 0 评论 -
python import工程其他文件方法
test.py导入mod.py 1) -src -mod.py -test.py ---------------import mod 或 from mod import *(或指定的方法) 2) -src -mod1.py -mod2 -mod.py -test.py ---------------需要在mod2中建立空文件_init_.py文原创 2016-11-03 11:20:39 · 871 阅读 · 0 评论 -
python 日期和时间 处理
timestamp:time.time() 输出结果1459994552.51 timestamp -> timetuple time.localtime(time.time()) → time.struct_time(tm_year=2016, tm_mon=4, tm_mday=7, tm_hour=10, tm_min=3, tm_sec=27, tm_wday=3, tm_yday=原创 2016-11-03 15:01:57 · 344 阅读 · 0 评论 -
python mongoDB
import pymongo conn = pymongo.MongoClient(host="localhost", port=27017) db = conn.database_name collection = db.table_name items = collection.find() for item in items: db.AddUser(us原创 2016-11-10 10:35:11 · 320 阅读 · 0 评论 -
python pickle load UnicodeDecodeError
UnicodeDecodeError: 'rawunicodeescape' codec can't decode bytes in position 207-211: truncated \uXXXX 代码: file2 = open("message_list.pkl") subject_list = pickle.load(file2) 修改为原创 2016-11-21 17:25:00 · 1038 阅读 · 0 评论