果小撮-CSDN博客

原创北师大应用统计432专业课复习【干货！！】

写在前面这篇文章的初衷是想回馈考研路上所有帮助过我的人。因为我经历过、感受过，一路上受到过太多人的帮助，老师的、朋友的、家人的、陌生人的…我很感恩，也想能尽自己的微薄力量帮助更多的考研人。所以，上岸之后，我带过学生，授过课，虽然过去很久了，我还是想多整理一些资料，想以最干货的形式呈现给需要的人。如果大家有任何问题，都可以在评论区留言，我会尽力解答，后续也会不断更新知识点详解。当然这些也只是我的一些小经验，如果有整理不当或说的不到位的，还请见谅。今天这篇先主要谈一谈北师大应用统计考点、参考书目、往年录取情

2020-09-17 17:11:43 3185 4

原创学习笔记之Hadoop

作为一个大数据人，从没有系统的学习过Hadoop，这可还行？！最近开始整理一些大数据相关基础知识，及时整理汇总，自我督促。大数据部门常见组织架构大公司完整的组织架构一般需要有四部分：平台组Hadoop、Flume、Kafka、HBase框架平台的搭建集群性能的监控集群性能的调优数据仓库组ETL工程师——数据清洗Hive工程师——数据分析、数仓建模数据挖掘组算法工程师推荐系统工程师用户画像工程师报表开发组JavaEEI工程师对Hadoop的一

2021-08-19 21:37:56 260

原创邮储总行/民生/人保/农发行/中邮/ViVo面经汇总【7000字干货预警】

应用统计&大数据&银行等领域面试经验

2021-01-06 17:05:24 1536

原创浅话机器学习

最近大热的机器学习，似乎很多场景都会见到，但是很多非数学非统计的同学会觉得上手有点困难，每次下定决心学习一下就会被各种参考书中长篇大论的数学证明吓跑，本篇文章抛开各种复杂的公式和代码，针对于入门小白，想用最简单形象的语言介绍一下机器学习领域的基本概念。什么是机器学习机器学习ML，顾名思义，就是机器学习的过程，我们希望机器可以像人类一样学习和思考，能够使自身行为在没有人为干预的情况下适应新的输入，这就使我们产生机器真的像人一样在不断学习的感觉，但是实际在机器学习的背后，这种自身行为的适应是和人类编写的每一

2020-10-27 10:37:53 348

原创 Python“四大金刚”之列表字典集合元组

对于初学者，Python最大的优势在于语法简洁、容易上手，我个人觉得这很大一部分要归功于Python里的“四大金刚”——列表list、字典dict、集合set、元组tuple。对于初学者，一定要养成好的编程习惯，有时候代码写多了却很容易在最最基本的地方犯小错误，这也是我第一次系统地总结Python中的四种数据结构，希望可以帮助大家有效避坑。列表列表的创建最为简单的一种方法是利用方括号 [] 创建。>>> a = []>>> a[]>>> b

2020-10-14 17:24:54 900 2

原创北师大应统考研432真题之抽样方法

在北师大应统考研专业课考试中，从15年开始有选择题，针对抽样调查的理解**，基本每年都有一道选择题，在部分年份简答题中也有所体现。**先对抽样方法有个整体的认识：抽样调查：按照随机原则，从全部研究对象中抽取一部分进行观察，并根据样本的实际数据，对整体的数量特征进行有一定可靠程度的估计和判断，从而达到对全部研究对象有一定认识的目的。可以分成概率抽样和非概率抽样。概率抽样：假定每个个体出现在样本中的概率是已知的，这种抽样方法使得数据能够进行合理的统计推断。非概率抽样：指调查者根据自己的方便或主观判断抽取

2020-09-25 15:17:15 1917 2

原创从数据分析角度谈谈谁才是这个夏天的无价之姐——基于弹幕文本分析

从数据分析角度谈谈谁才是这个夏天的无价之姐——基于弹幕文本分析写在前面这个夏天最火的综艺节目之一，《乘风破浪的姐姐》。前段时间刚刚补完所有期公演舞台，作为一个时刻充满好奇心的统计人，今天就来从数据分析的角度谈谈谁才是这个夏天的无价之姐，本篇文章是从公演舞台正片弹幕角度出发的，涉及网络爬虫、分词处理、文本分析、词云图等。首先说明两点：①数据真实，分析客观，但由于出发角度的片面性可能会有失偏颇，②所有分析及论述仅为个人观点，不上升节目组以及任何一位姐姐。数据说明来源：《乘风破浪的姐姐舞台完整版》第2

2020-09-24 21:02:36 768

原创 Python制作词云图

在一些简单的数据分析场景中，制作词云图是一个非常基本的数据可视化操作。由于词云图的直观性，在很多业务场景中使用都很频繁，不管是做的人、用的人、看的人都不需要有太多的技术背景。制作简单、直观美观让词云图在很多业务场景中都能脱颖而出，尤其是汇报展示，词云图通常可以用最直观的视觉冲击起到事半功倍的效果。常用包介绍Python制作中文词云图最为常用的方法之一就是 wordcloud + jieba。jiebajieba库是Python的第三方库，是一个中文分词库，是Python中目前最受欢迎的中文分词工具，

2020-09-16 09:24:04 1312

原创网络爬虫之豆瓣评论

在上篇网络爬虫之豆瓣电影中，简单介绍了Python网络爬虫三种常用方法，同时给出了爬取豆瓣电影信息的小案例。今天整理出视频业务线另一个比较常见的需求，针对某一影视剧，我们比较关注人们对它的评价，可以把这些评论生成词云图，比较直观地展示出来评论的方向；也可以后续对评论进行文本分析，对演员、剧情、特效以及对应的受众人群信息等方面进行深层次地探讨以及统计层面的分析，深挖评论信息背后的价值。案例这个案例用的是电影《爵迹》，通过更改代码url中的豆瓣ID即可换成其他影视剧，爬取的评论信息包括用户名、发表日期、评论

2020-09-15 17:09:24 1107