自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 信用贷款违约预测项目

零、项目概述**项目背景:**比赛由 Kaggle 举办,要求选手依据客户的信用卡信息(application)、信用局信息(bureau)、历史申请信息(previous_application)分期付款信息(installments_payments)等7个主、副数据集来预测客户贷款是否会违约。分析流程:首先对数据进行预览和可视化探索,理解各个属性,查看数据集中的缺失值和异常值并进行相应地处理;其次对违约用户和非违约用户的属性分布进行可视化分析,探索差异点;接着通过用户属性可视化分析和业务理

2020-08-31 21:22:39 7912 2

原创 如何稳定情绪,不断勇猛精进?

从今年3月份开始学习数据分析的相关技能,打算9月份秋招应聘数据分析/数据运营相关的岗位。到目前为止,我都是一边学习数据分析,一边搞论文准备毕业的状态。每天按部就班的做这两件事儿,尽管数据分析岗竞争很大,且我非统计学、数学、计算机等相关专业出身。回顾了一下我这段时间的时间日志,却发现这段时间我目标依然坚定,情绪也很稳定。思考了一下这段时间我为什么能够保持情绪稳定?首先,面对许多事儿时,我先按照是否重要将事情分为重要和不重要,不重要的事物暂时记录,碎片时间处理;其次,对于重要的事情,继续按照是否

2020-08-22 12:57:27 344

原创 数据分析师面试必备(1)——SQL基础部分

SQL是数据分析师必备技能,本文详细地汇总整理了数据分析师面试的SQL全部重点。一、数据分析基础二、数据库与初识SQL三、数据管理工具及数据获取途径四、SQL非查询命令总结五、利用SQL查询数据行和列六、利用SQL数据预处理SQL的数据运算(算术运算、比较运算、逻辑运算、数学运算、字符串运算、聚合运算)八、控制函数(if、case)九、时间和日期函数十、数据分组(group by)与数据透视表十一、窗口函数十二、多表连接十三、子查询十四、SQL中的其他

2020-08-19 19:16:21 389

原创 一个公式搞定求职

马上开始秋招了,按照求职的流程,把个人可控的因素抽象出来,形成了求职公式。即Offer数量=简历质量 x 简历投递次数 x 学习时长 x 模拟面试次数。影响最终拿到Offer的因素有很多,但作为求职者个人可控的因素我认为主要有这四个。对于简历质量,主要包括项目经历、实习经历、或者能够证明自己能力的作品,至于学历短时间内改变的可能性也不大,不予考虑;对于通过笔试的因素,唯有掌握扎实的知识咯,但学习时长并不等同于学习效果,为了量化方便,这里有学习时长代替,具体指的是有效学习时长;对于面试,这个影响因

2020-08-14 22:11:00 327

原创 读书笔记(1)——《精力管理手册》

分享一下阅读张萌萌姐的书**《精力管理手册》,以人生效率体系**为核心,讲述了实现输入系统、自我管理系统以及输出系统的方法。特别的,区分了时间管理、效率管理以及精力管理,并给出了管理自我精力的详细方法。...

2020-08-05 00:00:42 212

原创 机器学习笔记(3)——机器学习方法的本质与常用的损失函数总结

本文概览:机器学习方法=模型+策略+算法;常见的6种损失函数参考资料:《机器学习基础:从入门到求职》

2020-08-04 00:27:44 150

原创 机器学习笔记(2)——机器学习回归模型和分类模型评价标准总结

本文主要总结了机器学习模型中回归模型和分类模型的评价指标。其中,回归模型的3种评价指标:平均绝对误差MAE、均方误差MSE以及均方根误差RMSE;分类模型的8种评价指标:准确率accuracy、精度precision、召回率recall、F1值、可以同时输出精度召回率F1值的classification_report函数、ROC曲线、AUC曲线以及混淆矩阵。...

2020-08-03 00:52:04 489

原创 机器学习笔记(1)——机器学习概述与机器学习的四种分类方式

机器学习与传统编程模式比较什么是机器学习机器学习的四种分类常见机器学习模型的分类参考文献:《机器学习基础:从入门到求职》,胡欢武著《数据分析求职指南》,徐麟著作

2020-08-01 20:14:53 736

原创 入门NLP新闻文本分类Task5——基于深度学习文本分类Word2Vec

概述Word2Vec的基本思想:首先把自然语言中的每一个词都表示成一个统一意义、同一纬度的短向量(Word Embedding),这样词与词之间的关系就可以用短向量之间的关系度量,即词向量之间的距离可以表示词语之间的相似度。Word2Vec模型包括两种:CBOW(Continuous Bag-of-Words Model)模型和Skip-gram(Continuous Skip-Gram Model)模型,这两种模型都可以使用基于哈夫曼树的Hierarchical Softmax方法或基于负采样的Neg

2020-07-31 23:56:20 445

原创 入门NLP新闻文本分类Task4——基于深度学习的文本分类之FastText

与传统机器学习模型不同,深度学习既提供特征提取功能,也可以完成分类功能。学习目标学会FastText的使用和基础原理学会使用验证集进行调参在机器学习的文本处理中,常用One-hot、Bag of Words、N-gram、TF-IDF来进行文本分类,并使用了sklearn进行了实践,但这些方法存在着文本转换后向量维度过高,需要较长时间的训练;没有考虑单词间的关系仅进行单词数量的统计等问题;而在深度学习中,也可以用FastText、Word2Vec和Bert等进行文本处理,并将文本映射到较低维

2020-07-27 22:19:35 540

原创 入门NLP新闻文本分类Task3——基于机器学习的文本分类

学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类常见概念机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。文本表示的方法在自然语言处理中,因为文本是不定长度的,所以,要将文本表示成计算机能够运算的数字或向量的方法,即通过词嵌入(Word Embedding)方法将不定长的文本转换为定长的空间内

2020-07-25 22:24:39 283

原创 入门NLP新闻文本分类Task2——数据读取与数据分析

数据加载#导入相关库import osimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np#导入数据集os.chdir('D:/DLdata')#从数据集中随机抽取1%的数据df=pd.read_csv('D:/DLdata/train_set.csv/train_set.csv',sep='\t',skiprows=lambda x:x>0 and np.random.rand()>0.01)

2020-07-22 23:54:51 209

原创 Datawhale入门NLP比赛——Task1NLP之新闻文本分类赛题理解

赛题任务以自然语言处理为背景,对新闻文本进行分类,本质上是字符识别问题。赛题数据赛题数据包括三部分:训练数据集train_set.csv,共20W条、测试数据集test_a.csv,共5W条、以及结果提交格式示意文件test_a_sample_submit.csv。其中数据集按照字符级别进行了匿名处理,划分出了14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据标签14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、

2020-07-21 23:13:37 188

原创 Pandas数据分析基础总结(导图版)

微信公众号数据不吹牛号主开源了一本《用实战玩转Pandas数据分析》,本书分为两篇:基础篇和实战篇(资料可在其公号下载)。本文是基础篇的学习总结。

2020-07-14 22:07:43 350

原创 机器学习算法——决策树(ID3、C4.5和CART算法总结)

一、 决策树是什么决策树是基于人们总结经验的树状决策图,是一种基本的分类和回归算法。二、决策树的原理1、 构造原理,如何构造出一个决策树,即选择哪些属性分别作为根节点、中间节点以及叶节点。2、剪枝原理,即给决策树瘦身,把对分类效果促进不明显的节点取掉的过程,分为前剪枝和后剪枝两种。前剪枝,即在构造决策树的过程中就进行剪枝。后剪枝,即将决策树构造完毕后再进行剪枝。如何确定各个节点1、根节点、中间节点以及叶节点的确定是基于纯度和信息熵。2、 决策树构造的过程就是寻找纯净划分的过程,数学上用

2020-07-13 16:20:03 1822

转载 推荐!自学成才的数据科学家告诉要学习数据科学的10件事(附学习资源链接)

本文转载于微信公众号Datawhale,译文作者Datewhale,原文作者为Ken Jee,Ken Jee的研究方向为数据挖掘和生物医学,目前是一所大学的全职生物信息学副教授,通过自学数据科学家。转载链接 原文链接本文可以分为三大部分,第一部分为Ken对数据科学学习路线的介绍;第二部分为学习心态、学习方法及学习策略的分享;第三部分是Ken推荐的一些学习资料(附链接)。转载译文如下:我经常在我的YouTube频道DataProfessor上被问到以下有关如何进入数据科学领域的问题:如何

2020-06-27 20:15:06 1246

原创 入坑数据分析的几个问题——学习、面试、作报告

本文盘点了入坑数据分析的几个问题,主要涉及数据分析入门学习策略、面试数据分析岗位工具及业务的考察点、无实习经历如何准备面试以及面试时项目经历如何叙述等问题。一、问题概览二、问题解答问题1:数据分析入门学习1、入门学习最大的误区是求“大而全”,应该学习最少必要知识;2、入门数据分析的最少必要知识:统计学:描述性统计分析(平均值、四分位数、标准差、标准分)、推断性统计分析(参数估计、假设检验)Excel:使用频率最高的工具**SQL:**不必要学习很深,要会查询分析方法问题2:面试数据

2020-06-23 19:59:09 1325

原创 SQL基础教程总结

Mick的《SQL基础教程》(第二版)总结。1、前言本书很适合入门学习SQL语言,以PostgreSQL数据库为例,讲解了SQL的基础知识。如何安装PostgreSQL:如何安装PostgreSQL下载《SQL基础教程》(第二版):[百度网盘链接]提取码:9hpm2、正文本书有九章内容,以下是每一章内容的导图。第一章:数据库和SQL第二章:查询基础第三章:聚合和排序第四章:数据更新第五章:复杂查询第六章:函数、谓词、CA

2020-06-11 11:39:52 3209 2

原创 A公司某知识付费产品用户增长数据分析复盘

2020年4月-6月参加了乔布Up学院与GrowingIO合作的互联网数据分析实习生项目,这是本次实习对某知识付费产品案例的数据分析报告。

2020-06-08 12:29:00 259

原创 Win10安装ProgreSQL或当安装失败:Problem running post-install step. Installation may not complete correctly.

Win10安装ProgreSQL或当安装失败:Problem running post-install step. Installation may not complete correctly.步骤步骤1、下载ProgreSQL安装程序,下载链接2、关闭所有杀毒软件,以管理者模式打开安装包3、默认,点击Next——Next,两次Next后进入密码设置界面4、密码要输入两次,密码要用英文...

2020-04-20 22:17:02 2141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除