![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析实战
ywangjiyl
这个作者很懒,什么都没留下…
展开
-
数据挖掘实战(1):信用卡违约率分析
如何选择各种分类器,到底应该选择哪个分类算法,是SVM,决策树,还是KNN?如何优化分类器的参数,以便于得到更好的分类准确率?一、机器学习算法分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;就是有具体数值的任务预测明天是阴、晴还是雨,就是一个分类任务。就是分两类1、分类算法决策树:目前一般用CART算法。他建立的是二叉树,分类时使用基尼系数来度量划分点朴素贝叶斯:一原创 2020-08-24 10:57:31 · 2140 阅读 · 0 评论 -
基于决策树的分类预测
DataWhale—16期组队学习—Task2:基于决策树的分类预测1 决策树介绍决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一转载 2020-08-22 18:07:26 · 1007 阅读 · 0 评论 -
机器学习算法(一): 基于逻辑回归的分类预测
逻辑回归的介绍逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而言,最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势:优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高逻辑回归的应用逻辑回归模型广泛用于各个领域原创 2020-08-18 18:33:22 · 421 阅读 · 0 评论 -
KNN(上):如何根据打斗和接吻次数来划分电影类型?
KNN(上):如何根据打斗和接吻次数来划分电影类型?想对电影的类型进行分类,统计了电影中打斗次数、接吻次数,还有其他的指标可以被统计到希望当有一部新电影的时候自动分类它的类型,把打斗次数看成X轴,接吻次数看成Y轴,然后在二维的的坐标轴上,对这几部电影进行标记,对于未知电影A,坐标为(x,y),需要看下离电影A最近的都有哪些电影,大多属于哪个分类,那么电影A就属于哪个分类,实际,还需要确定一个K...原创 2020-04-10 09:01:17 · 1367 阅读 · 0 评论 -
SVM(下):如何进行乳腺癌检测?
SVM(下):如何进行乳腺癌检测?如何在sklearn中使用SVM在Python的sklearn工具包中有SVM算法,首先引用工具包from sklearn import svmSVM可以做回归可以做分类器,当用SVM做回归的时候,使用SVR,当做分类器的时候,用的是SVC,SVC是个线性分类器,用于处理线性可分的数据,只能使用线性核函数,SVM就是通过核函数将样本从原始空间映射到一个更...原创 2020-03-27 10:23:51 · 1044 阅读 · 1 评论 -
SVM(上):如何用一根棍子将蓝红两色球分开?
SVM(上):如何用一根棍子将蓝红两色球分开?SVM,叫做支持向量机,是最常见的一种分类方法,SVM是有监督的学习模型。有监督的学习模型是指我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类,无监督学习就是数据没有被打上分类标签,可能因为不具备先验的知识或者成本很高,需要机器代替我们完成这个工作,比如将数据进行聚类,方便人工对每个类进行分析,SVM作为有监督的学习模型,可以帮我...原创 2020-03-27 09:06:29 · 440 阅读 · 0 评论 -
朴素贝叶斯分类(下):如何对文档进行分类?
朴素贝叶斯分类(下):如何对文档进行分类?朴素贝叶斯分类最适合的场景是文本分类、情感分析和垃圾邮件识别,其中情感分析和垃圾邮件识别都是通过文本来进行判断,三个场景基本都是文本分类,所以朴素贝叶斯常用于自然语言处理NLP的工具使用朴素贝叶斯做文档分类:sklearn机器学习包sklearn提供了3个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯根据特征变量的不...原创 2020-03-27 09:06:00 · 479 阅读 · 0 评论 -
朴素贝叶斯分类(上):如何让机器判断男女?
朴素贝叶斯分类(上):如何让机器判断男女?当你不能准确预知一个事物本质的时候,可以依靠和事物本质相关的事件来进行判断,如果事情发生的频次多,则证明这个属性更有可能存在贝叶斯原理贝叶斯解决一个叫“逆向概率”尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。在现实生活中,我们很难知道事情的全貌,贝叶斯从实际场景出发,提出来一个问题:我们事先不知道袋子里面黑球和白球的比例,而是通过...原创 2020-03-24 09:55:38 · 1562 阅读 · 0 评论 -
决策树(下):泰坦尼克乘客生存预测
决策树(下):泰坦尼克乘客生存预测决策树分类的应用场景有很多,比如在金融行业用决策树做贷款风险评估,医疗行业用决策树生成辅助诊断,用sklearn工具解决泰坦尼克乘客生存预测:sklearn中的决策树模型sklearn中自带的决策树分类器DecisionTreeClassifierclf = DecisionTreeClassifier(criterion='entropy')在构建D...原创 2020-03-24 09:29:50 · 705 阅读 · 0 评论 -
决策树(中):CART,一颗是回归树,另一颗是分类树
决策树(中):CART,一颗是回归树,另一颗是分类树基于信息度量的不同方式,把决策树分为ID3算法、C4.5算法和CART算法,CART算法叫做分类回归树,ID3和C4.5算法可以生成二叉树或多叉树,而CART只支持二叉树,既可以作分类树,又可以作回归树什么是分类树?什么是回归树?能看到不同职业的人,年龄也不同,学习时长也不同,如果构造一颗决策树,想要基于数据判断这个人职业身份,就属于分类...原创 2020-03-24 09:27:49 · 394 阅读 · 0 评论 -
决策树(上):要不要去打篮球?决策树来告诉你
决策树(上):要不要去打篮球?决策树来告诉你生活中,会遇到各种选择,都是基于以往的经验来做判断的,如果把判断背后的逻辑整理成一张结构图,发现是一个树状图,即决策树决策树的工作原理把我们以前的经验总结出来,如果准备了一个打篮球的训练集,如果要出门打篮球,会根据“天气”“湿度”“温度”“刮风”几个条件来判断,最后得到结果“去打篮球?还是不去”天气-> 温度? -> 打篮球...原创 2020-03-23 10:14:59 · 2294 阅读 · 0 评论 -
数据集成:这些大号一共20亿粉丝?
数据集成和数据变换数据集成就是将多个数据源合并存放在一个数据存储中数据集成的两种架构:ELT & ETLETL就是Extract 、Transform 、Load的缩写,包括数据抽取、转换、加载三个过程,是进行数据挖掘工作之前的准备过程Extract 数据抽取是将数据从已有的数据源中提取出来Transform转换是对原始数据进行处理,例如将表1和表2进行链接形成一张新表,如果是三...原创 2020-03-23 10:14:04 · 127 阅读 · 0 评论 -
数据可视化:掌握数据领域的万金油技能
数据可视化&Python数据可视化数据可视化的视图都有哪些?文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、等这些视图使用的目的是分布(Distribution) 时间相关(change over time) 局部/整体(part to whole) 偏差(Deviation) 相关性(Correlation) 排名(Ranking) 量级(Magni...原创 2020-03-23 10:13:29 · 342 阅读 · 0 评论 -
数据科学家80%时间都花费在清洗任务上?
数据科学家80%时间都花费在清洗任务上?将数据清洗规则总结为4个关键点:“完全合一”完整性:单条数据是否存在空值,统计的字段是否完善。全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,比如:数据定义、单位标识、数值本身。合法性:数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符...原创 2020-03-10 11:23:08 · 409 阅读 · 0 评论 -
Python爬虫:如何自动化下载王祖贤海报?
Python爬虫:如何自动化下载王祖贤海报?爬虫的流程如何编写爬虫来抓取数据?爬虫实际上使用浏览器访问的方式模拟了访问网站的过程,整个过程有三个阶段:打开网页、提取数据和保存数据在Python中,这三个阶段都有对应的工具可以使用“打开网页”步骤中,可以使用Requests访问页面,得到服务器返回给我们的数据,包括HTML页面以及JSON数据"提取数据"中,用到了两个工具,针对HTML页面...原创 2020-03-09 19:09:23 · 238 阅读 · 0 评论 -
数据采集:如何自动化采集数据
数据采集:如何自动化采集数据一个数据的走势,是由多个维度影响的,收集到尽可能多的数据维度,同时保证数据的质量,才能得到高质量的数据挖掘结构数据源分四类:开放数据源(政府、企业、高校)、爬虫抓取(网页、APP)、日志采集(前端采集、后端脚本)、传感器(图像、测速、热敏)如何使用开放数据源开放数据源可以从两个维度来考虑,一个是单位的维度,比如政府、企业、高校;一个是行业维度,比如交通、金融、能...原创 2020-03-08 21:00:59 · 2517 阅读 · 0 评论 -
用户画像:标签化就是数据的抽象能力
用户画像:标签化就是数据的抽象能力用户画像的准则将企业的用户画像做白描,告诉这些用户“都是谁”“从哪来”“要去哪”一个卖羊肉串的公司想让你分析下用户数据,先建模,用户画像建模是个系统工程,要解决三个问题,1.用户从哪来,统一标记用户ID,方便以后进行跟踪,了解客户从哪来,为了聚餐还是吃宵夜,2.用户都是谁,对用户进行标签化,3.到哪去,将用户画像与我们业务相关联,提升转化率首先,设计唯一标...原创 2020-03-08 20:59:51 · 448 阅读 · 0 评论 -
Python科学计算:Pandas
Python科学计算:PandasPandas提供的数据结构DataFrame与json的锲合度很高,转换很方便Series和DataFrame两个核心数据结构,分别代表一维的序列和二维的表结构,基于这两个数据结构,Pandas可以对数据进行导入等等数据结构:Series 和 DataFrameSeries是个定长的字典序列,在存储的时候,相当于两个ndarray,这也是和字典结构最大的...原创 2020-03-07 18:55:24 · 233 阅读 · 0 评论 -
Python科学计算:用numpy快速处理数据
Python科学计算:用numpy快速处理数据非常重要的第三方库NumPy是Python数据分析的基础标准的Python中,用列表list保存数组的数值,由于列表中的元素可以是任意的对象,所以list保存的是对象的指针Python的列表list就是数组,保存一个简单的数组[0,1,2],需要有3个指针和3个整数对象,对python不经济还浪费内存和计算时间除了使用numpy,需要一些技巧...原创 2020-03-07 18:54:42 · 600 阅读 · 0 评论 -
你为什么需要数据分析能力?
你为什么需要数据分析能力?学会如何从海量的数据中找到关联关系进行价值挖掘数据分析分为三个重要的组成部分:数据采集 数据源攻击使用爬虫编写数据挖掘 基本流程十大算法数据基础数据可视化 使用Python可视化数据挖掘十大算法:分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART,聚类算...原创 2020-02-17 19:37:13 · 302 阅读 · 0 评论