数据分析
文章平均质量分 92
数据社
欢迎关注公众号:数据社
展开
-
亲测!决策树可视化Graphviz中文乱码问题~
在使用Graphviz进行决策树可视化的过程中遇到一个问题:export_graphviz似乎不支持中文,当feature_name包含中文时,导出的决策树pdf中文都是乱码。查了一些资料,说是要把源文件保存为UTF-8的格式,但在export_graphviz时不知道该怎么改。import pydotplusfrom sklearn import treefrom sklearn.externals.six import StringIOfrom sklearn.model_selection i原创 2020-12-19 16:14:39 · 2383 阅读 · 3 评论 -
传统数仓如何转型大数据
大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈——现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据...原创 2020-11-23 07:00:00 · 9932 阅读 · 0 评论 -
如何入门数据分析?
如今,大多数公司都意识到数据驱动的商业策略的价值,因此需要有数据分析才能的人来洞察不断收集的信息。随着我们继续将现实世界数字化,对分析师的需求只会增加。 可以了解之前讲解的《数据分析为什么火了》。如果你刚开始学习数据分析,那么怎么入门呢?其实各大招聘网站的数据分析职位就是一个很好的参考。那么数据分析师究竟需要哪些技能呢?数据分析必备技能:ExcelSQLPython或者R数据可视化机器学习PPT逻辑思维下面我们一个个看下一、Excel说到Excel,首先想到的可能是电子表格,但是原创 2020-05-16 12:54:41 · 57058 阅读 · 1 评论 -
数据分析为什么火了
某天你去买西瓜,你问老板多少钱一个,老板称了一个大的说20元。你说要一半,老板从中间切开,称后说15元。你拿起另一半,丢下5块钱……一、什么是数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。当我们在日常生活中做任何决定时,我们都会根据以往已经发生的事情和现在所处的环境进行思考,然后做出决定。期间,我们可能还收集过去的一些记忆或未来的预.原创 2020-05-16 12:48:31 · 19786 阅读 · 0 评论 -
数据分析师应该了解的数据湖
数据湖数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。这是AWS给出的解释。看了很多数据湖的介绍文章,笔者认为数据胡和我们常说的ODS数据很类似,也就是原始数据的保存区域,存储来自各业务系统(消息队列)的原始数据。...原创 2020-04-03 23:00:21 · 16679 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(1)
数据库说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(可能现在很多开发者没再用过),到后来的互联网电商用的MySql,这些都是关系型数据库。后来有了newSQL、NoSQL(not only sql),现在也分了很多种类,比如大型互联网公司存储用户画像的HBase,还有用于存储文档,...原创 2020-03-12 08:44:15 · 15642 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(3)
小B是一名数据分析师,他问小A XXX的所有指标给我一下,小A“鄙视的”给了他一个文档。元数据知道多少小B作为一名数据分析师,为什么自己没能去找到数据呢?这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不就你还能看单词...原创 2020-03-16 21:26:13 · 16337 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(2)
数据仓库知多少首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。我们来看这几个词:面向主题,数据仓库会规划各种业务主题,所以我们需要理解各大主题的范畴以及之间的关系,这样就了解了数仓的基本架构。集成,数据仓库的数据会来自各个业务系统数据或者外部爬取数据,所以需要我们知道每个数据仓库的模型字段都是来自哪个源,这样我们就能快速全面的了解相关...原创 2020-03-16 21:23:18 · 16155 阅读 · 0 评论 -
你想了解的数据架构都在这
一、背景最近领导和团队沟通,想提高数据建模团队的能力。结合自己工作的经验和朋友的交流,来总结下如何去做。二、我做过什么很多大数据数据仓库人员都是从事过传统BI业务或者数据库业务的。传统BI一般都是Oracle存储过程,O是真的牛,很多银行和电力业务目前还是存储过程写的业务代码。自己曾经亲身经历过,两千行的业务package,写起来和改起来特别有“成就感”!后来听说了Hadoop,网上自己自己...原创 2019-11-17 10:30:14 · 50255 阅读 · 0 评论 -
数据分析05-SVM
标签(空格分隔): 数据分析SVM 是有监督的学习模型,我们需要事先对数据打上分类标签,通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题,可以将多个二分类器组合起来形成一个多分类器。如何创建一个 SVM 分类器呢?我们首先使用 SVC 的构造函数:model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’),这里有三个重要的参数 kernel...原创 2019-11-17 10:16:57 · 14667 阅读 · 0 评论 -
数据分析04-朴素贝叶斯
标签(空格分隔): 数据分析朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(Ga...原创 2019-11-17 10:16:26 · 14456 阅读 · 0 评论 -
数据分析03-决策树
标签(空格分隔): 数据分析CART 创建决策树做分类# encoding=utf-8from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.tree import DecisionTreeClassifierfrom skle...原创 2019-11-17 10:15:52 · 13801 阅读 · 0 评论 -
数据分析02-线性回归
可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。Python sklearn中的LinearRegreesion实例:import pandas as pdfrom sklearn imp...原创 2019-11-17 10:10:44 · 13994 阅读 · 0 评论 -
数据分析01 - 规范化方法
标签(空格分隔): 数据分析Min-max 规范化将原始数据规范到[0-1]之间,公式如下:新数值=(原数值-极小值)/(极大值-极小值)代码实现:# coding:utf-8from sklearn import preprocessingimport numpy as np# 初始化数据,每一行表示一个样本,每一列表示一个特征x = np.array([[ 0., -...原创 2019-10-21 14:49:13 · 13561 阅读 · 0 评论