数据分析
文章平均质量分 86
z0n1l2
这个作者很懒,什么都没留下…
展开
-
均值编码-处理高基数类别属性的一个方法
转换类别属性量的一般方法数据分析中经常会遇到类别属性,比如日期,性别,街区编号,IP地址等. 绝大部分数据分析算法是无法直接处理这类变量,需要先把他们处理成数值型量.取消字符 参考 sklearn.preprocessing.LabelEncoder. 加入一个属性有NNN个不同的值,通过这个函数将把它转换到[0,N−1][0,N−1][0,N-1]上的整数. 转换后的属性具有了次序和...原创 2018-06-24 15:00:30 · 4134 阅读 · 2 评论 -
pandas - GroupBy: split-apply-combine
重点核心结果是GroupBy对象按照列的值分组,是拆分行; 按照索引(行)值分组是拆分列reset_index()可以降低索引的层数 (译注:多层级的索引有些难以理解)agg()函数支持对每个分组做处理agg()传入list或dict时返回DataFrame,否则返回Series源 “group by”的含义包括以下的一或多个操作:Splittng 基于某种准则把...翻译 2018-06-27 14:22:04 · 1487 阅读 · 0 评论 -
pandas - Series
重点Series 创建时需要data/index两个信息Series可以通过array/dict/scalar创建Series可以看作dict/ndarray,和numpy互通Series计算时自动按标签对齐源Series是带标签的一维数组,支持任意数据类型(整型,字符传,浮点数,python对象等). 标签一般称为index,生成一个Series的 函数是>...翻译 2018-06-27 15:11:05 · 1853 阅读 · 0 评论 -
pandas-DataFrame
重点index是行,column是列index/selection Operation Syntax Result Select column df[col] Series Select row by label df.loc[label] Series Select row by integer location df.i...翻译 2018-06-27 18:41:10 · 664 阅读 · 0 评论 -
Word2Vec-Tutorial-The-Skip-Gram-Model
源Chris McCormick Word2Vec(译注)Word2vec是一组产生word embeddings的模型(word embeddings是NLP中把词或短语映射到数字或向量的方法的合称).这些模型由2层的神经网络实现,通过训练来重建词或短语的语法上下文. Word2vec包括两个结构: continuous bag-of-words(CBOW)和continuou...翻译 2018-07-03 12:29:28 · 519 阅读 · 0 评论 -
时间序列分析-linear-models-to-GARCH
重点稳态时间序列要满足三个条件: 均值不随时间变化方差不随时间变化协方差不随时间变化验证一个TSM的正确性的方法是验证其残差是否是白噪声random walk process可以建模,但无法做预测?时间序列分析的套路是不断分解目标序列,提取趋势/周期性信息,直至残留信息是白噪声序列为止时间序列分析TSA的套路,一个尝试各种已知模型的过程,通过对残差的白噪声验证确定模型的有效性,...翻译 2018-07-22 14:58:19 · 3423 阅读 · 1 评论