自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 收藏
  • 关注

原创 数据分析师常见面试题.

1、成为一名数据分析师需要具备哪些技能?要成为一名数据分析师,需要掌握丰富的报告软件包(BusinessObjects),编程语言(XML,Javascript或ETL框架),数据库(SQL,SQLite等);能够准确分析、组织、收集或传播数据;掌握数据库设计,数据模型,数据挖掘等方面的技术知识以及分析大型数据集(SAS,Excel,SPSS等)的统计软件包知识。2、分析项目的各个步骤包括:·问题定义·数据挖掘数据准备模型化数据认证实施跟踪3、列出数据清理的最佳实践?一些数据清理的最佳

2021-07-09 17:27:14 2739

原创 finebi

前段时间,老同学居然和我说她在学编程。当时我很不理解,她是市场专员,又不是程序员,为啥要学编程?直到上周,她请我吃饭,告诉我她调到了新项目组做主管。“学编程不一定就是做程序员,我用python搜集竞品信息,对产品和服务做数据分析,毕竟知己知彼,百战不殆嘛。”新职位给了她更大的职场可能,也获得了翻倍的薪水,毕竟几个月前,她可是向我们吐槽自己是“吃麻辣烫不敢加两根肠的搬砖工”呢。直到第三季度尾,领导让她马上出一份市场团队前几个月的销售统计表和竞品信息,第二天开会用,这些数据和信息分布在大小几十个表格和文档

2021-07-09 17:26:17 504

原创 excel部分字段相同模糊匹配

一、提出问题你要么获取一批数据,然后根据它提问,或者先提问,然后根据问题收集数据。在这两种情况下,好的问题可以帮助你将精力集中在数据的相关部分,并帮助你得出有洞察力的分析。二、理解数据1、理解各字段的意思,如果有英文可修改成中文更易理解。2、在数据清洗前复制一份保存,将CSV文件另存为xlsx类型保存。3、Excel有四种数据了类型:(1)文本型:中、英文、混合文本、符号和字符串形成存储的数值(123)(2)数值型:数值、科学计数法、时间、日期和货币…(3)逻辑性:TRUE和FALSE(.

2021-07-09 17:24:16 5774

原创 Excel高级应用教程:数据处理与数据分析

为一名合格的数据分析师或者说一名称职的数据挖掘领域从业者,大家肯定都耳熟能详的认为其必须具有如下基本技能:** 一、熟练的掌握SQL、Hive等; **** 二、R、SAS、Python等至少精通其中一种。 **但往往大家忽视了最基本的技能要求:使用Excle进行数据处理与数据分析的能力。大家可以仔细回想下自己公司里面,excel玩的很6的人绝对不是数据部门的人,而往往是业务部门或财务部门的同事。Excel作为数据分析工具,可以分为两大部分,一是Excel的数据处理能力,一是Excle的高级数据分

2021-07-09 17:23:15 855

原创 Excel进行数据分析数据理解数据清洗构建模型

众所周知,excel是一个强大的办公软件。作为一个统计学专业的学生,一提到数据分析,大家所用的都是python、C、R等语言,却忘了很多基本的工作完全可以在excel里面用更简单的操作完成,尤其是那些对编程头痛的小伙伴,这是一种福音,当然这些可能只是数据分析师的初级工作。这篇文章是在听了知乎上猴子的live直播后自己整理的,希望能够进一步巩固自己的操作能力。数据理解1、 _试图的详细化 _拿到一份数据,我们首先要观察行和列,看看都有哪些属性,如果想要全部看到每一列每一行的数据,就全选列表,然后进行 自

2021-07-09 17:21:14 499

原创 EXCEL与数据分析

目录一、常用技巧二、数据收集、清洗技巧三、常用公式四、常用函数五、数组六、查找与引用函数七、图表八、数据透视表九、交互式界面和组合框动态制作十、录制宏十一、Power BI(商业智能)(一)Power Query :#查询编辑器#(二)Power Pivot:#“超级”数据透视表#(三)Power View:#交互式报表#(四)Powet Map: #地图可视化#(五)Power BI Desktop一、常用技巧隐藏公式: 设置单元格格式-保护-隐藏、视图-保护工作

2021-07-09 17:19:14 662

原创 EXCEL中的数据分析—描述统计

今天给大家分享的是在数据分析中很重要的一环,也就是描述统计。在百科的解释中,描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。在这三个部分当中,集中趋势主要是靠数据当中的平均数、中数、众数等统计指标来表示。离中趋势主要是靠数据当中的四分差、平均差、方差和标准差等统计指标来进行研究。最后一个相关分析之前有跟大家介绍过,主要是看数据之间是否存在统计学上的关联性并进行分析和研究。我

2021-07-09 17:17:44 1537

原创 新浪微博大数据分析

**1、组织数据 (需要处理每条数据开头和结尾的中括号)(1)创建Hive表weibo_json(json string),表只有一个字段,导入所有数据,并验证查询前5条数据 ** create table weibo_json(json string); load data local inpath '/root/weibo.txt' into table weibo_json; select * from weibo_json limit 5;(2)解析完weibo_jso

2021-07-09 17:16:50 2447 1

原创 Kaggle竞赛:泰坦尼克号灾难数据分

Kaggle竞赛:泰坦尼克号灾难数据分 https://www.kaggle.com/c/titanic 目标确定 :根据已有数据预测未知旅客生死数据准备 :数据获取,载入训练集csv、测试集csv数据清洗,补齐或抛弃缺失值,数据类型变换(字符串转数字)数据重构,根据需要重新构造数据(重组数据,构建新特征)数据分析 :描述性分析,画图,直观分析探索性分析,机器学习模型成果输出 :csv文件上传得到正确率和排名载入库 import numpy as np

2021-07-09 17:15:13 235

原创 Kaggle数据集之电信客户流失数据分析

分析背景某电信公司市场部为了预防用户流失,收集了已经打好流失标签的用户数据。现在要对流失用户情况进行分析,找出哪些用户可能会流失?理解数据采集数据本数据集描述了电信用户是否流失以及其相关信息,共包含7043条数据,共21个字段,分别介绍如下:customerID : 用户ID。gender:性别。(Female & Male)SeniorCitizen :老年用户 (1表示是,0表示不是)Partner :伴侣用户 (Yes or No)Dependents :亲属用户 (Yes

2021-07-09 17:12:03 1696

原创 Python分析RFM

-- coding: utf-8 --#1. 概念:RFM分析是根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法.#R(Recency):近度,客户最近一次交易时间的间隔。R越大,表示客户越久未发生交易,R越小,表示客户越近有交易发生#F(Frequency):频度,客户在最近一段时间内交易的次数。F越大,表示客户交易越平凡,F越小,表示客户不够活跃#M(Monetary):额度,客户在最近一段时间内交易的金额。M越大,表示客户价值越高,M越小,表示客户价值越低#2. RFM分析过程#

2021-07-08 16:40:48 172

原创 Python大数据分析-看了这篇文章,数据清洗你也就完全掌握了

所有做数据分析的前提就是:你得有数据,而且已经经过清洗,整理成需要的格式。不管你从哪里获取了数据,你都需要认真仔细观察你的数据,对不合规的数据进行清理,虽然不是说一定要有这个步骤,但是这是一个好习惯,因为保不齐后面分析的时候发现之前因为没有对数据进行整理,而导致统计的数据有问题,今天小编就把平时用的数据清洗的技巧进行一个梳理,里面可能很多你都懂,那就当温习了吧!文章大纲:如何更有效的导入你的数据全面的观察数据设置索引设置标签处理缺失值删除重复项数据类型转换筛选数据数据排序处理文本

2021-07-08 16:39:42 157

原创 PYTHON大数据分析-IWC赛题

PYTHON大数据分析-IWC赛题1(企业投资价值评估)数据分析方法总结一、目的二、代码结构简述三、数据分析过程1、数据清洗2、模型选型3、参数调优4、模型校验5、结果预测四、比赛心得一、目的本次比赛主要解决的问题是根据官方提供的37个EXCEL表信息与企业评分,训练出一个模型,使之能够根据对新企业进行评分估计。![在这里插入图片描述](https://img-blog.csdnimg.cn/20190427000847165.png?x-oss-process=ima

2021-07-08 16:26:07 370 1

原创 Python爬虫案例

新的代码 :https://github.com/Whitehua/datamine.git特性:全自动爬取,每个城市建一张表Mysql数据库带有拟合曲线分析2020.1.04最近在做一个课程设计,关于爬取安居客房价信息的,本次用到的框架有BeautifulSoupxlwt,xlrdrequestsmatplotlibpandasnumpy最终实现下图效果:![在这里插入图片描述](https://img-blog.csdnimg.cn/20200107105806793.

2021-07-08 16:19:56 175

原创 python金融风控评分卡模型

python金融风控评分卡模型和数据分析微专业课(博主录制): [ http://dwz.date/b9vv](https://study.163.com/series/1202875601.htm?share=2&shareId=400000000398149)![在这里插入图片描述](https://img-blog.csdnimg.cn/20200824105327895.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk

2021-07-08 11:06:38 530

原创 Python数据可视化

文章目录5.1.3 其他绘图样式5.2 金融学图表#第5章 数据可视化##5.1 二维绘图###5.1.1 一维数据集按照给定的x和y值绘图 import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline # 如果是在控制台上执行代码,这行如果报错,下面的图片显示一张,关闭后再执行下一张的显示,不然都会画到一张图上 np.random.seed(1000)

2021-07-08 11:05:53 214

原创 Python金融大数据分析

_无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。教程链接:https://www.cbedai.net/qtlyx _1.简单的例子了解一点金融工程的对这个公式都不会太陌生,是用现在股价预测T时间股价的公式,其背后是股价符合几何布朗运动,也就是大名鼎鼎的BSM期权定价模型的基础。我们假设现在一个股票的价值是100,那么两年后是多少呢? import numpy as np imp

2021-07-08 11:04:10 176 2

原创 共享单车骑行数据分析数据来源

背景介绍随着我国的经济迅速发展,城市人口急剧增加,随之带来的是一系列的问题,交通拥堵,环境受到破坏,发展公共交通可以完美的解决现在我们面临的这些问题,自行车具有机动灵活、低碳环保的优点,如果自行车可以取代现在的机动车,那么道路就不会那么拥挤,人们的出行效率就会大大提升,汽车废气的排放量也将大大的减少,环境的质量也会提升。同时,为了完美的解决从地铁站到公司、从公交站到家的“最后一公里”路程,共享单车应运而生. 共享单车有效的解决了“走路累,公交挤,开车堵,打车贵”的苦恼。一夜之间,北上广深、甚至部分...

2021-07-07 14:55:56 496 1

原创 拉格朗日差值

缺失值处理:举止,中位数,众数插补法使用固定值(规定的标准值)最近邻插补法回归方法插值法插值法有拉格朗日差值和牛顿插值法。一个较大的区别是,当节点增减的时候,拉格朗日插值必须重新计算,牛顿法则 可以避免这一点。下面是pythonscipy中的lagrange插值函数的使用,使用某个插值点前后的5个值x=[0,1,2,3,4,6,7,8,9,10],y=[y0,y1,y2,y3,y4,y6,y7,y8,y9,y10]一共10个点,我们要求的是5对应的y5,这里的的参数为[a9…a0]一个10

2021-07-07 14:53:11 190

原创 Python数据分析工具

一、Python数据分析工具![](https://img-blog.csdnimg.cn/20190417153008529.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)二、数据探索一、 对数据的质量分析异常值的分析:简单的统计量分析:查看最大最小值是否在合

2021-07-07 14:52:00 134

原创 数据建模

第五章 数据建模(一)聚类分析1、主要方法![](https://img-blog.csdnimg.cn/20190722172713329.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lpbGlfc2hhMTE=,size_16,color_FFFFFF,t_70)![](https://img-blog.csdnimg.cn/201

2021-07-07 14:50:26 319

原创 淘宝商品数据清洗及预处理

这一节开始就正式开始啦~~这一部分主要是针对淘宝的部分商品数据(小零食)进行预处理。读取商品源数据这里拿到的数据是sql数据,因此需要使用mysql。首先我们安装好mysql,可以直接通过指令安装:sudo apt-get install mysql-serverapt-get install mysql-clientsudo apt-get install libmysqlclient-dev安装过程中别忘记自己设置的密码,最后连接数据库需要该密码。 安装完成后可以通过下面的

2021-07-07 14:47:17 803

原创 python数据分析之金融欺诈行为检测

python数据分析之金融欺诈行为检测项目的思维导图![思维导图](https://img-blog.csdnimg.cn/20201018193015576.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDg3MTkwMw==,size_16,color_FFFFFF,t_70#pic_center)数据分析与处理

2021-07-07 14:45:12 1016

转载 Python数据分析之numpy的应用

numpy (Numerical Python) 是 Python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。numpy 通常与 SciPy(ScientificPython)和 Matplotlib(绘图库)一起使用.numpy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndarray广播功能函数整合 C/C++/Fortran 代码的工具线性代数、傅里叶变换、随机数生成等功能1.nu

2021-07-07 14:43:37 1255

原创 Python中numpy与pandas

python常用网址:1.Python官网: https://www.python.org/ 2.各种库的whl离线安装包: [ http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn](http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn“http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn”)3.数据分析常用库的离线安装包

2021-07-07 14:42:14 379

原创 SPSS数据分析流程经验总结

最近几日忙于在淘宝上接单做数据分析,从接单的情况来看,数据分析主要的对象是在校大学生和部分在职公职人员。分析的主要问题包括对问卷的数据分析与简单的模型建立。SPSS对于问卷的数据分析:1.数据的录入:需要将问卷的选项编码成数字,主要存在的问题包括问卷的答案可能是A B CD你需要通过重新编码为不同变量,包括将数值型变量通过重新编码为不同变量,转换为分类型变量,如22岁的孩子被分入青年这个人群。通过计算变量这个菜单,将某些变量通过一定的公式转换为一个新的变量。2.检查问卷的信度,要想取得可信度很高的

2021-07-07 14:27:37 1123

原创 SPSS数据分析方法不知道如何选择

一提到数学,高等数学,线性代数,概率论与数理统计,数值分析,空间解析几何这些数学课程,头疼呀。作为文科生,遇见这些课程时,通常都是各种寻求帮助,班上有位宅男数学很厉害,各种被女生‘围观’,这数学为什么这么难,学了有啥用呀。有用的,当做数据分析的时候,使用到SPSS,在线SPSS分析的时候就知道用处了,在写论文的时候会用到SPSS数据分析,工作的时候也会用到SPSS数据分析。此时才知道原来数学很重要。我的数学不好肿么办?听我一一道来。数据类型学过数学的童鞋都知道,数学里面分了两类数据,离散和连续数

2021-07-06 18:31:03 218

原创 利用Python进行文本分类

** 利用Python进行文本分类,可用于过滤垃圾文本抽样人工标注样本文本中垃圾信息样本建模模型评估新文本预测参考:http://scikit-learn.org/stable/user_guide.htmlPYTHON自然语言处理中文翻译 NLTK Natural Language Processing with Python 中文版主要步骤:分词特征词提取生成词-文档矩阵整合分类变量建模评估**** 7. 预测新文本 ****** #示例

2021-07-06 18:28:33 390

原创 Python之--时间序列

1.时间序列不管在哪个领域中(金融学、经济学、生态学、神经科学、物理学等),时间序列数据都是一种重要的结构化数据形式,在多个时间点观察或者测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15分钟、每5分钟、每一个月等)。时间序列也可以是不定期的。时间序列数据的意义取决于具体的应用场景,主要有以下几种:时间戳(timestamp):特定的时刻固定时期(period):如2019年1月或者2019年全年时间间隔(interval):由起

2021-07-06 18:27:44 961 2

原创 《R语言入门与数据分析》

**前言:这是根据 B站《R语言入门与数据分析》 自学整理的学习笔记。非科班出身,之前也没接触过代码,自己理解能力也比较差,所以会显得外行又笨拙,但还是希望多交流学习,才有动力持续进步。目前这个课程笔记还没完结,会边学边更新。 **文章目录P1 课程介绍P2 数据分析P3 数据挖掘P4 数据可视化P5 R语言介绍R语言的特点R语言的缺点P6 案例演示P7 R软件的安装P8 R软件的运行与设置P9 Rstudio左上脚本窗口左下控制台窗口右上环境和历

2021-07-06 18:25:06 3486

原创 R语言入门

基本操作(包括读取数据)设置工作目录 setwd('D://R/')读取数据文件 listing<-read.csv('listings.csv',header = T,sep = ',',quote = '') listings<-na.omit(listing) # 去除所有含缺失值的行连接mysql数据库方法一:RMYSQL包----中文会出现乱码 library(RMySQL) con<- dbConnect(MySQL(),

2021-07-06 18:23:56 666 1

原创 数据分析数据探索

文章目录第三章 数据探索3.1数据质量分析1.主要任务2.缺失值分析3.异常值分析4.一致性分析3.2数据特征分析1.分布分析2.对比分析3.统计量分析4.周期性分析5.相关性分析3.3 R语言主要数据探索函数1.统计特征函数2.统计作图函数第三章 数据探索什么是数据探索数据探索:检测数据,了解数据,这一步只做数据的分析,下一步针对这一步的分析结果,做数据的预处理。书上的定义:对样本数据集的结构和规律进行分析的过程就是数据探索。数据探索有助

2021-07-06 18:22:44 578 1

原创 R语言之数据分析高级方法

‍‍‍‍‍‍‍‍‍** 作者简介 Introduction **姚某某知乎专栏: https://zhuanlan.zhihu.com/mydata往期回顾:[ R语言之高级数据分析「聚类分析」](http://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5Ng==&mid=2651057911&idx=1&sn=81a7cc1d659773724469a60513b943cd&chksm=84d9cf60b3ae4676bc

2021-07-06 18:21:44 934 1

原创 超市数据分析

我们需要用到的包有:arules、arulesViz、chron、dplyr、ggplot2、gplots、reshape2、wordcloud2、plyr。 > library("arules", lib.loc="~/R/win-library/3.5") > library("arulesViz", lib.loc="~/R/win-library/3.5") > library("chron", lib.loc="~/R/win-library/3.5".

2021-07-06 18:18:54 107

原创 Python数据分析之双色球基于线性回归算法预测

@本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府本文实例讲述了Python数据分析之双色球基于线性回归算法预测下期中奖结果。分享给大家供大家参考,具体如下:前面讲述了关于双色球的各种算法,这里将进行下期双色球号码的预测,想想有些小激动啊。代码中使用了线性回归算法,这个场景使用这个算法,预测效果一般,各位可以考虑使用其他算法尝试结果。发现之前有很多代码都是重复的工作,为了让代码看的更优雅,定义了函数,去调用,顿时高大上了 #!/usr/bin/python # -*

2021-06-30 14:22:17 1834 1

原创 贝壳房价数据分析

目录项目内容项目目的房源数据爬取数据清洗数据分析+可视化项目内容本案案例选择贝壳网宁波地区的二手房房源信息进行分析![](https://img-blog.csdnimg.cn/2020031416160973.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dhbGF4eV9fNDI=,size_16,color_FFFFFF

2021-06-30 14:11:31 375

原创 行业薪资分析

目录:数据分析岗位薪水趋势数据分析职位量发展趋势数据分析职位就业指导薪酬—北上深平均月薪10K+薪酬地图:从职位薪水来看,数据分析行业的高薪主要分布在长三角、珠三角和京津地区。北京、上海和深圳的薪水位列第一方阵,均薪在10k+;杭州、宁波和广州位列第二方阵,均薪在9k+;其他沿海及内陆区域中心城市,如南京、重庆、苏州、无锡等位于第三方阵,均薪在8k左右。薪水地图职位量—北京职位量3W+职位量地图:从职位量来看,北京、上海、深圳和广州位列第一方阵,职位量在30000+,杭州、成都、南京和

2021-06-30 14:10:46 124

原创 python数据分析

前言相信对于很多想要开始python数据分析学习的小伙伴来说,下载和安装python,成为了第一件令人头痛的事情。那么这篇文章,兴许能够在你学习python数据分析的道路上有一个好的开始。——————————————————————————————————————————————————————————————————准备python环境首先你要知道,python有两个版本,python2和python3,在语法方面存在着一定差异,就目前形势而言,python2预计将于2020年4月停止维护,pyt

2021-06-30 14:09:13 44

原创 巴西电商数据分析

写作背景:从kaggle上找了一份巴西电商数据集,结合python+MYSQL+tableau等分析工具,从多个维度对网站的各项指标进行分析,发现网站现存的问题并对网站提出优化建议。文章结构如下:![在这里插入图片描述](https://img-blog.csdnimg.cn/20200313172125881.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG

2021-06-30 14:07:53 931 1

原创 用户模型

1、用户模型“不仅要知道用户当下在想什么,更要知道用户背后在想什么,以及用户正在经历着什么。”传统用户模型构建方式用户模型 :基于对用户的访谈和观察等研究结果建立,严谨可靠但费时;临时用户模型 :基于行业专家或市场调查数据对用户的理解建立,快速但容易有偏颇。(缺乏时间,资源的情况下)为了节省时间,降低风险,产品团队往往尽快将产品推向用户,快速试错,在这种场景下如何构造用户模型?1,首先,整理和收集已经获得的任何可认知用户的经验和数据,将这些信息映射成为用户的描述信息(属性)或用户的行为信息,并存

2021-06-30 14:06:20 320

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除