数据挖掘
xianjie0318
坚持下去
展开
-
数据挖掘之七种常用的方法
数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。 分类 分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的转载 2017-06-24 15:12:14 · 54449 阅读 · 1 评论 -
sqoop从mysql抓数据tinyint类型会变成boolean类型
mysql数据库里面的字段是 tinyint 类型通过sqoop 抓取出来的数据在HDFS 上面显示的true、false解决办法:jdbc会把tinyint 认为是java.sql.Types.BIT,然后sqoop就会转为Boolean了在连接上加上一句话tinyInt1isBit=falsejdbc:mysql://localhost/test?tinyInt1isBit=false问题就解...原创 2018-02-11 12:46:48 · 485 阅读 · 0 评论 -
sqoop 导入mysql数据到hive中,把多个mysql字段数据类型转换hive数据类型
如:sqoop import --connect "jdbc:mysql://192.168.2.42:3306/test?useUnicode=true&characterEncoding=utf-8" --username smap --password ***** --hive-table table_201711 --table table_201711 --hive-import...原创 2018-02-09 17:19:53 · 11008 阅读 · 0 评论 -
sqoop把mysql数据导入hive中,报错:java.lang.NullPointerException at org.json.JSONObject.
在大数据环境中,使用sqoop导入mysql数据到hive中,报错,如下解决办法:这是因为sqoop缺少java-json.jar包.下载java-json.jar包: http://www.java2s.com/Code/Jar/j/Downloadjavajsonjar.htm 把java-json.jar添加到../sqoop/lib目录:还有其他问题问题2:root用户写入HDFS文件错误...原创 2018-02-09 09:28:27 · 1741 阅读 · 3 评论 -
python3.6+BeautifulSoup4.2 爬取各类app应用信息并下载app包
---------------环境配置---------------1、在Windows操作系统下安装python-3.6.4-amd64.exe2、配置环境变量Path变量:如C:\Users\Administrator\AppData\Local\Programs\Python\Python36\打开cmd命令窗口,输入:python命令,可以进入python 编辑命令行,即可。3、把beau...原创 2018-02-08 13:56:17 · 1235 阅读 · 0 评论 -
使用scikit-learn进行机器学习(scikit-learn教程1)
该章节,我们将介绍贯穿scikit-learn使用中的“机器学习(Machine Learning)”这个词汇,并给出一些简单的学习示例。前言scikit-learn (Python机器学习库)进行数据挖掘和数据分析的简单而高效的工具任何人都可使用,可在多种场景/上下文复用基于NumPy,SciPy和matplotlib构建开放源代码,可用于商业用途_BSD协议分类原创 2018-02-02 11:14:52 · 1236 阅读 · 0 评论 -
数据挖掘RapidMiner工具使用----解析客户流失模版CHURN MODELING
分析客户流失模型---决策树分析背景:为什么电信客户流失?建立一个基于过去客户流失行为数据的模型:使用平衡训练数据集训练、优化和评估决策树模型。模型建立步骤:步骤1:加载一个客户数据集包含客户属性:age:客户的年龄Technology:技术类型(4G、光纤等)CustomerSince:客户开始使用时间AverageBill:去年客户平均使用帐单SupportCallsLas原创 2017-07-28 16:44:01 · 9278 阅读 · 1 评论 -
数据挖掘RapidMiner工具使用----产品介绍与安装过程
RapidMiner简介1、RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。2、应用介绍:RapidMiner具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等典型商业案例。RapidMiner解决方案覆盖了各个领域原创 2017-07-13 13:34:56 · 10679 阅读 · 0 评论 -
数据挖掘RapidMiner工具使用----聚类K-Means案例分析
这里以学校的学生成绩进行聚类分析为案例1、背景 随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律。那么,如何从大量的数据中提取并发现有用信息以提供决策的依据,已成为一个新原创 2017-07-13 17:30:39 · 27339 阅读 · 5 评论 -
数据挖掘与预测分析------数据预处理
1、数据预处理的原因 现实世界中数据大体上都是不完整,不一致的脏数据,包含在数据库中的大部分原始数据也是不完整且含有噪声的,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间原创 2017-06-24 15:55:38 · 7615 阅读 · 0 评论 -
数据挖掘与预测分析------跨行业数据挖掘标准流程:CRISP-DM
1、首先说一下KDD模型的概念 知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。 这里不得不提一下数据挖掘的概念,数据挖掘(英语:Data mining),又译为资料探勘、数据采原创 2017-06-24 11:58:23 · 6966 阅读 · 0 评论 -
什么是文本挖掘 ?
什么是文本挖掘 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处转载 2018-02-07 14:18:33 · 32246 阅读 · 1 评论