2019年01月_yingzoe

转载大数据相关知识

需要了解的内容：spark调优 hadoop2.0 基本原理 node manager、work 怎么启动一个hadoop集群文件/数据传输到hdfs的过程 stage、job、task、driver、master、worker、DAGscheduler、taskscheduler、executor的关系 spark1和spark2的区别读文件（RDD格式/datafram...

2019-01-27 16:29:56 156

转载简单理解Hadoop（Hadoop是什么、如何工作）

hadoop是什么?Hadoop是一种分析和处理大数据的软件平台，是Appach的一个用Java语言所实现的开源软件的加框，在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。Hadoop主要的任务部署分为3个部分，分别是：Client机器，主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map R...

2019-01-27 12:54:01 4636

原创模型融合

原理：https://www.jianshu.com/p/c0ba78242466代码：https://blog.csdn.net/shine19930820/article/details/75209021#17-stacking1. 模型堆叠stacking【注意】在模型堆叠中，第二层将第一层得到的新的特征作为训练数据集的输入，不再利用原始的特征，为了避免过拟合。'''5折stacki...

2019-01-27 12:38:17 920

逻辑回归官方使用文档：https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegressionclass sklearn.linear_model.LogisticRegression(penalt...

2019-01-26 21:37:52 312

原创 scikit-learn 支持向量机

参考链接：http://www.cnblogs.com/solong1989/p/9620170.html参数：C : float, optional (default=1.0)惩罚系数，用来控制损失函数的惩罚系数，类似于LR中的正则化系数。C越大，相当于惩罚松弛变量，希望松弛变量接近0，即对误分类的惩罚增大，趋向于对训练集全分对的情况，这样会出现训练集测试时准确率很高，但泛化能力弱，...

2019-01-26 17:00:24 250

原创文本情感分析

基于主题模型的文本情感分析系统主要包括以下部分：评论信息采集与预处理（如网页爬取、中文分词、停用词处理等）、主题抽取、情感词抽取（可能涉及到情感词典构建）、主题的情感分类或评分、主题情感摘要生成（方便用户直接了解主题）、系统评测等。此外，当前的基于主题模型的文本情感分析技术主要侧重于文本评论，而较少关注与客服人员的文本问答或者语音咨询；而后者对于挖掘用户需求也是有意义的。文本情感极性分...

2019-01-21 20:11:58 13409 2

原创数据处理的基础知识

1. 数据标准化：求均值标准差：(python) sklearn.preprocessing.scale(X) (scala) import org.apache.spark.ml.feature.StandardScaler 均值标准差 = （X - mean）/std 得到的结果是，对于每个属...

2019-01-08 16:24:20 1867

转载聚类评价指标

内容参考于该博客，叙述得较为全面：https://blog.csdn.net/liuy9803/article/details/80762862我在此基础上再稍微做点总结和补充：****************************** 需要给定实际类别信息 labels_true **************************************1. 同分类的评价指标：混...

2019-01-07 15:17:20 2425

yingzoe的博客