自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 大数据相关知识

需要了解的内容:spark调优 hadoop2.0 基本原理 node manager、work 怎么启动一个hadoop集群 文件/数据传输到hdfs的过程 stage、job、task、driver、master、worker、DAGscheduler、taskscheduler、executor的关系 spark1和spark2的区别 读文件(RDD格式/datafram...

2019-01-27 16:29:56 156

转载 简单理解Hadoop(Hadoop是什么、如何工作)

hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map R...

2019-01-27 12:54:01 4636

原创 模型融合

原理:https://www.jianshu.com/p/c0ba78242466代码:https://blog.csdn.net/shine19930820/article/details/75209021#17-stacking1. 模型堆叠stacking【注意】在模型堆叠中,第二层将第一层得到的新的特征作为训练数据集的输入,不再利用原始的特征,为了避免过拟合。'''5折stacki...

2019-01-27 12:38:17 918

原创 scikit-learn 逻辑回归

逻辑回归官方使用文档:https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegressionclass sklearn.linear_model.LogisticRegression(penalt...

2019-01-26 21:37:52 310

原创 scikit-learn 支持向量机

参考链接:http://www.cnblogs.com/solong1989/p/9620170.html参数:C : float, optional (default=1.0)惩罚系数,用来控制损失函数的惩罚系数,类似于LR中的正则化系数。C越大,相当于惩罚松弛变量,希望松弛变量接近0,即对误分类的惩罚增大,趋向于对训练集全分对的情况,这样会出现训练集测试时准确率很高,但泛化能力弱,...

2019-01-26 17:00:24 250

原创 文本情感分析

基于主题模型的文本情感分析系统主要包括以下部分:评论信息采集与预处理(如网页爬取、中文分词、停用词处理等)、主题抽取、情感词抽取(可能涉及到情感词典构建)、主题的情感分类或评分、主题情感摘要生成(方便用户直接了解主题)、系统评测等。此外,当前的基于主题模型的文本情感分析技术主要侧重于文本评论,而较少关注与客服人员的文本问答或者语音咨询;而后者对于挖掘用户需求也是有意义的。文本情感极性分...

2019-01-21 20:11:58 13405 2

原创 数据处理的基础知识

1. 数据标准化:求均值标准差:(python) sklearn.preprocessing.scale(X) (scala)  import org.apache.spark.ml.feature.StandardScaler                                          均值标准差 = (X - mean)/std  得到的结果是,对于每个属...

2019-01-08 16:24:20 1864

转载 聚类评价指标

内容参考于该博客,叙述得较为全面:https://blog.csdn.net/liuy9803/article/details/80762862我在此基础上再稍微做点总结和补充:****************************** 需要给定实际类别信息 labels_true **************************************1. 同分类的评价指标:混...

2019-01-07 15:17:20 2424

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除