自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 北师大应用统计432专业课复习【干货!!】

写在前面这篇文章的初衷是想回馈考研路上所有帮助过我的人。因为我经历过、感受过,一路上受到过太多人的帮助,老师的、朋友的、家人的、陌生人的…我很感恩,也想能尽自己的微薄力量帮助更多的考研人。所以,上岸之后,我带过学生,授过课,虽然过去很久了,我还是想多整理一些资料,想以最干货的形式呈现给需要的人。如果大家有任何问题,都可以在评论区留言,我会尽力解答,后续也会不断更新知识点详解。当然这些也只是我的一些小经验,如果有整理不当或说的不到位的,还请见谅。今天这篇先主要谈一谈北师大应用统计考点、参考书目、往年录取情

2020-09-17 17:11:43 2717 4

原创 学习笔记之Hadoop

作为一个大数据人,从没有系统的学习过Hadoop,这可还行?!最近开始整理一些大数据相关基础知识,及时整理汇总,自我督促。大数据部门常见组织架构大公司完整的组织架构一般需要有四部分:平台组Hadoop、Flume、Kafka、HBase框架平台的搭建集群性能的监控集群性能的调优数据仓库组ETL工程师——数据清洗Hive工程师——数据分析、数仓建模数据挖掘组算法工程师推荐系统工程师用户画像工程师报表开发组JavaEEI工程师对Hadoop的一

2021-08-19 21:37:56 188

原创 邮储总行/民生/人保/农发行/中邮/ViVo面经汇总【7000字干货预警】

应用统计&大数据&银行等领域面试经验

2021-01-06 17:05:24 1359

原创 浅话机器学习

最近大热的机器学习,似乎很多场景都会见到,但是很多非数学非统计的同学会觉得上手有点困难,每次下定决心学习一下就会被各种参考书中长篇大论的数学证明吓跑,本篇文章抛开各种复杂的公式和代码,针对于入门小白,想用最简单形象的语言介绍一下机器学习领域的基本概念。什么是机器学习机器学习ML,顾名思义,就是机器学习的过程,我们希望机器可以像人类一样学习和思考,能够使自身行为在没有人为干预的情况下适应新的输入,这就使我们产生机器真的像人一样在不断学习的感觉,但是实际在机器学习的背后,这种自身行为的适应是和人类编写的每一

2020-10-27 10:37:53 264

原创 Python“四大金刚”之列表 字典 集合 元组

对于初学者,Python最大的优势在于语法简洁、容易上手,我个人觉得这很大一部分要归功于Python里的“四大金刚”——列表list、字典dict、集合set、元组tuple。对于初学者,一定要养成好的编程习惯,有时候代码写多了却很容易在最最基本的地方犯小错误,这也是我第一次系统地总结Python中的四种数据结构,希望可以帮助大家有效避坑。列表列表的创建最为简单的一种方法是利用方括号 [] 创建。>>> a = []>>> a[]>>> b

2020-10-14 17:24:54 759 2

原创 北师大应统考研432真题之抽样方法

在北师大应统考研专业课考试中,从15年开始有选择题,针对抽样调查的理解**,基本每年都有一道选择题,在部分年份简答题中也有所体现。**先对抽样方法有个整体的认识:抽样调查:按照随机原则,从全部研究对象中抽取一部分进行观察,并根据样本的实际数据,对整体的数量特征进行有一定可靠程度的估计和判断,从而达到对全部研究对象有一定认识的目的。可以分成概率抽样和非概率抽样。概率抽样:假定每个个体出现在样本中的概率是已知的,这种抽样方法使得数据能够进行合理的统计推断。非概率抽样:指调查者根据自己的方便或主观判断抽取

2020-09-25 15:17:15 1747 2

原创 从数据分析角度谈谈谁才是这个夏天的无价之姐——基于弹幕文本分析

从数据分析角度谈谈谁才是这个夏天的无价之姐——基于弹幕文本分析写在前面这个夏天最火的综艺节目之一,《乘风破浪的姐姐》。前段时间刚刚补完所有期公演舞台,作为一个时刻充满好奇心的统计人,今天就来从数据分析的角度谈谈谁才是这个夏天的无价之姐,本篇文章是从公演舞台正片弹幕角度出发的,涉及网络爬虫、分词处理、文本分析、词云图等。首先说明两点:①数据真实,分析客观,但由于出发角度的片面性可能会有失偏颇,②所有分析及论述仅为个人观点,不上升节目组以及任何一位姐姐。数据说明来源:《乘风破浪的姐姐 舞台完整版》第2

2020-09-24 21:02:36 686

原创 Python制作词云图

在一些简单的数据分析场景中,制作词云图是一个非常基本的数据可视化操作。由于词云图的直观性,在很多业务场景中使用都很频繁,不管是做的人、用的人、看的人都不需要有太多的技术背景。制作简单、直观美观让词云图在很多业务场景中都能脱颖而出,尤其是汇报展示,词云图通常可以用最直观的视觉冲击起到事半功倍的效果。常用包介绍Python制作中文词云图最为常用的方法之一就是 wordcloud + jieba。jiebajieba库是Python的第三方库,是一个中文分词库,是Python中目前最受欢迎的中文分词工具,

2020-09-16 09:24:04 1165

原创 网络爬虫之豆瓣评论

在上篇网络爬虫之豆瓣电影中,简单介绍了Python网络爬虫三种常用方法,同时给出了爬取豆瓣电影信息的小案例。今天整理出视频业务线另一个比较常见的需求,针对某一影视剧,我们比较关注人们对它的评价,可以把这些评论生成词云图,比较直观地展示出来评论的方向;也可以后续对评论进行文本分析,对演员、剧情、特效以及对应的受众人群信息等方面进行深层次地探讨以及统计层面的分析,深挖评论信息背后的价值。案例这个案例用的是电影《爵迹》,通过更改代码url中的豆瓣ID即可换成其他影视剧,爬取的评论信息包括用户名、发表日期、评论

2020-09-15 17:09:24 973

原创 网络爬虫之豆瓣电影

网络爬虫常用方法Python作为最易上手的编程语言之一,在很多领域的应用已经相对成熟,尤其是一些工具应用类的场景,比如本文要介绍的网络爬虫。网络爬虫目前比较成熟的方法有三种,在Python中都有现有打包好的包/库,直接调用,非常方便。本篇博客只关注网络爬虫的应用层面,重点放在如何解决实际问题,所以对三种方法的理论介绍不做过多描述。BeautifulSoupXPathlxmlBeautifulSoupPython中的一个HTML/XML的解析库,可以很方便地从网页中提取数据,自动将输入文档

2020-09-15 08:56:52 523

原创 学习笔记之云原生

什么是云原生云原生概念理解一种构建和运行程序的方法一个不断丰富的理念和技术体系不是一个产品,是一套技术体系和方法论,是一种文化,是云计算的必然导向。传统云计算的三层概念IaasPaasSaas云原生出现的背景在云时代,更多的应用会被迁移到云上,基于云的架构设计和开发模式需要一套全新的理念去承载,因此出现了云原生。云原生应用简单来说,就是把传统的应用不做任何改变放到云平台上,此时仅仅是把虚拟机当作物理机来使用,没有真正地发挥云平台的作用。真正的云化不只是基础设施和平台的改

2020-09-14 10:56:17 203

原创 学习笔记之DevOps

背景及含义开发和运维的战争。对于一些小项目,开发、测试、运维都是由一个人或一个小团队完成,但是对于很多大企业来说,开发和运维通常是由两个团队负责的。单看开发和运维两项工作,出发点和目的不同,开发追求变化,运维想要稳定,这是这场战争的本质矛盾,也因此催生了DevOps。具体来说,哪些场景可能促使一个组织引入DevOps:使用敏捷或其他软件开发办法或方法业务负责人要求加快产品交付速率虚拟化和云计算基础设施日益普遍数据中心自动化技术和配置管理工具的普及有一种观点认为,占主导地位的“传统”美国式管

2020-09-04 11:08:18 246

北师大应用统计432统计学真题

北京师范大学应用统计考研432统计学真题_2019年 资料保真,后续还会陆续上传2013-2020年的,仅用于考研复习,不可用于任何其它用途,谢谢。

2020-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除