数据挖掘
wuxiaosi808
这个作者很懒,什么都没留下…
展开
-
数据维度爆炸怎么办?详解5大常用的特征选择方法
数据维度爆炸怎么办?详解5大常用的特征选择方法Datawhale干货 作者:Edwin Jarvis,cnblog博客整理在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值之间的理解 好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这...转载 2020-08-04 13:49:31 · 1815 阅读 · 0 评论 -
用数据分析搭配肯德基早餐
今天看到一个好玩的数据分析小case,通过对KFC的早餐爬取部分数据,并做简单处理,查看肯定早餐搭配原数据集及初始代码网址如下:https://www.kesci.com/home/project/5ecf10d0162df90036dd6bc9/code。首先读取数据#数据导入,探查数据缺失data = pd.read_csv(r'D:\ML_data\kfca8585\kfc.csv')data.head()查看数据0 1元安心大油条 产品实付满49元(不含外送费),可1元.原创 2020-06-28 15:00:43 · 576 阅读 · 0 评论 -
短信文本分类的实践
由于最近接触到一些短信内容,本着想要做一个模板提取和分类,先试试水。开局就遇到一堆问题,也可能是我自己太菜。所以想把遇到的问题进行记录,以备不时之需。第一部分①由于我拿到的数据是没有标签的,就是只有短信内容,没有短信标签,是分为那个类。所以我打算只添加两类标签,就用0和1区分。问题出来了,pandas可以把标签都赋值成一类,data1['score']=1。但是就没有负标签,也不能人工去标...原创 2019-11-07 20:15:54 · 514 阅读 · 0 评论 -
hive sql数据分析面试整理
1.写作目的说明hive sql是从事数据分析的同学的基本功。无论是秋招、春招或者是实习,sql都是面试官考察的重点,拿刚刚过去的19秋招来说,搜狐、网易、京东等在数据分析师岗位面试时都考了sql,而拼多多在数据分析笔试时就安排了四到五道复杂的sql题,虽然实习的难度会比秋招要小,可是sql仍然是重头戏。因此可以说数据分析的敲门砖之一就是sql在工作中,也有人戏称数据分析师是sql提数机,也...转载 2019-09-03 19:46:09 · 4529 阅读 · 1 评论 -
算法工程师 -常见面试题
▌1. LDA(线性判别分析) 和 PCA 的区别与联系首先将LDA 扩展到多类高维的情况,以和问题1 中PCA 的求解对应。假设有N 个类别,并需要最终将特征降维至d 维。因此,我们要找到一个d 维投影超平面,使得投影后的样本点满足LDA 的目标—最大化类间距离和最小化类内距离。回顾两个散度矩阵, 类内散度矩阵在类别增加至 N 时仍满足定义, 而之前两类问题的类间散度矩阵在...转载 2019-09-03 11:38:52 · 10490 阅读 · 0 评论 -
Logistic Regression(逻辑回归)模型实现二分类和多分类
一、逻辑回归二、判定边界当将训练集的样本以其各个特征为坐标轴在图中进行绘制时,通常可以找到某一个判定边界去将样本点进行分类。例如:线性判定边界:非线性判定边界:三、二分类和sigmoid函数sigmoid函数图像如下:四、损失函数1. 定义2. 极大似然估计上面是一种求损失函...转载 2019-09-03 10:15:11 · 4304 阅读 · 2 评论 -
Hive SQL优化
本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。1 使用分区剪裁、列剪裁在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤,比如:SELECT a.idFROM lxw1234_a a...转载 2019-05-08 10:02:34 · 381 阅读 · 0 评论 -
sklearn.classification_report预测准确率
SKLearn中预测准确率函数介绍1、在使用Sklearn进行机器学习算法预测测试数据时,常用到classification_report函数来进行测试的准确率的计算输#开始预测y_pred = clf.predict(X_test)print("done in %0.3fs" % (time() - t0))#通过该函数,比较预测出的标签和真实标签,并输出准确率print(cla...转载 2019-03-04 14:30:34 · 1505 阅读 · 0 评论 -
FM算法(一):算法理论
主要内容:动机 FM算法模型 FM算法VS 其他算法一、动机在传统的线性模型如LR中,每个特征都是独立的,如果需要考虑特征与特征直接的交互作用,可能需要人工对特征进行交叉组合;非线性SVM可以对特征进行kernel映射,但是在特征高度稀疏的情况下,并不能很好地进行学习;现在也有很多分解模型Factorization model如矩阵分解MF、SVD++等,这些模型可以学习到特征...转载 2019-03-06 10:24:15 · 542 阅读 · 0 评论 -
Python机器学习实践指南-第四章(1)
由于第三章的国外网站无法翻墙,拿不到数据。故跳过第三章,直接进行第四章.由于篇幅较长,故分篇章实现。PS:这次下周的数据截止到2019年2月的数据,和书上的数据相比数据有小量增加。出现的问题也比较多,在尝试处理。如果有做的不对或者不合理的地方,还希望各位老师、小伙伴指正。有更好的想法也可以给我留言。# -*- encoding:utf-8 -*-import numpy as np...原创 2019-02-15 17:08:13 · 349 阅读 · 0 评论 -
Python机器学习实践指南-第二章
# # -*- coding:utf-8 -*-#准备数据import pandas as pdimport reimport numpy as npimport matplotlib.pyplot as pltplt.style.use(('ggplot'))pd.set_option("display.max_columns",30)pd.set_option("displ...原创 2019-01-25 11:10:12 · 402 阅读 · 0 评论 -
kaggle数据挖掘比赛经验
简介Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内转载 2017-09-05 19:40:28 · 1235 阅读 · 0 评论 -
如何进行特征选择?
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择转载 2017-08-22 14:48:48 · 969 阅读 · 0 评论 -
数据处理:如何处理缺失数据(missing value)? 各种处理方法有什么利弊?
1、缺失值的分类按照数据缺失机制可分为:(1) 完全随机缺失(missing completely at random, MCAR)所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关.(2) 随机缺失(missing at random, MAR) 假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是转载 2017-08-22 14:35:23 · 56864 阅读 · 0 评论 -
数据挖掘中的关联规则
浅谈数据挖掘中的关联规则挖掘 数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子,比如通过调查商场里顾客买的东西发现,30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—>枕套,也转载 2017-08-18 18:38:35 · 1820 阅读 · 0 评论 -
数据挖掘面试题
2013百度校园招聘数据挖掘工程师一、简答题(30分)1、简述数据库操作的步骤(10分)步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外,对实时性要求不强时,可以使用数据库缓存。2、TCP/IP的四层结构(10分)3、转载 2017-08-18 18:04:29 · 7111 阅读 · 0 评论 -
数据挖掘笔试题
单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现 B. 聚类C. 分类 D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。转载 2017-08-18 17:18:41 · 2657 阅读 · 0 评论