自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 Scala版本的eval()实现

Scala版本的eval()实现python的eval()函数可以执行一个字符串表达式,并返回表达式结果。但是scala中并没有改方法。查了很多资料,找到了一个可以类似python的eval()函数执行字符串表达式的方法。代码实现:import javax.script.Compilableimport scala.tools.nsc.Settingsimport scala.tools.nsc.interpreter.{IMain, JPrintWriter}/** * 输入一个字符串,对

2021-08-02 15:43:03 441

原创 scala版bitmap实现

scala版bitmap实现bitmap实现原理一个int类型占32个字节,我们用一个int数组来表示时未new int[32],总计占用内存32*32bit,现假如我们用int字节码的每一位表示一个数字的话,那么32个数字只需要一个int类型所占内存空间大小就够了,这样在大数据量的情况下会节省很多内存。具体思路:1个int占4字节即4*8=32位,那么我们只需要申请一个int数组长度为 int tmp[1+N/32]即可存储完这些数据,其中N代表要进行查找的总数,tmp中的每个元素在内存在占32位

2021-08-02 15:27:56 360

原创 预判经济的经典方法

预判经济的经典方法M0=现金M1=M0+活期存款M2=M1+定期M1M2剪刀差:https://legulegu.com/stockdata/m1m2M1上穿M2时,经济活跃M1下穿M2时,经济衰退M1M2每个月公布一次,可以通过M1M2简单预测经济走势每年的国内生产总值(GDP)为第一、第二、第三产业增加值的和第一、第二、第三产业如何区分第一、第二、第三产业。从城市到郊区到...

2020-04-15 20:48:23 889

原创 行为经济学2

行为经济学2##损失厌恶同样的损失带来的负效应是相同收益的2.5倍人们会避免那些让自己产生损失的行为展示损失:将未来不确定损失定性为损失’以后绝对不会…得到,你将多花…,可以说现在是…的最好的时候‘卖课文案等给予-收回:同样的损失带来的负效应是同样收益的2.5倍如各视频网站的会员,先给你免费试用的时间,当试用期到期后收回,让你有损失的感觉。抽奖: 我们在实际拥有所有权之前就...

2020-04-13 22:27:37 652

原创 行为经济学1

行为经济学1什么是行为经济学:行为经济学是研究心理、认知、情感、文化和社会因素对个人和机构的经济决策影响这个领域的两个观点:经济学家对利润最大化的假设与现实人的行为有良好的近似性个人会最大化主观期望效率对比当你想卖产品A的时候,再给一个A-让消费者选择。作用:A的好处会被放大有限的选择让人更快做出反应互惠先给予,再汇报。要是人家给了我们什么好处,负债感会驱使我们...

2020-04-06 21:09:30 883

原创 python实现-时间序列分析

python实现-时间序列分析import numpy as npimport pandas as pdimport datetime import matplotlib.pyplot as pltimport statsmodels.api as smfrom dateutil.relativedelta import relativedeltafrom statsmodels.t...

2020-03-08 14:14:22 341

原创 数据科学-序列分析和预测

时间序列分析和预测时间序列及其分解时间序列: 同一现象在不同时间的相继观察值排列而成的序列。经济数据大多数以时间序列的形式给出。平稳序列: 基本不存在的趋势序列。这类序列中的各个观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,波动可以看成是随机的。非平稳序列: 包含趋势、季节性或周期性的序列,他可能只包含其中一种成分,也可能含有几种成分。可以分为有...

2020-03-06 14:53:41 895

原创 python实现-方差分析

python实现-方差分析import pandas as pdimport numpy as npdata=pd.read_excel("/Users/huangqiankun/Downloads/market_data.xlsx")data# A地区均值print(data['A'].mean())# B地区均值print(data['B'].mean())# C地区均值...

2020-02-23 17:57:29 1278

原创 数据科学-方差分析

方差分析方差分析方差分析:通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。因素(因子): 要检验的对象;因素的不同表现称为水平或处理每个因子下得到的样本数据称为观测值。基本思想和原理通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。单因素方差分析单因素方差分析: 方差分析中只涉及一个分类型自变量,研究的是一个分...

2020-02-23 16:15:01 963

原创 python实现-回归分析

python实现-回归分析import pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardSc...

2020-02-16 21:02:26 1095

原创 数据科学-回归分析

回归分析一元线性回归一元线性回归是分析只有一个自变量(自变量x和因变量y)线性相关关系的方法。一个经济指标的数值往往受许多因素影响,若其中只有一个因素是主要的,起决定性作用,则可用一元线性回归进行预测分析。回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量、自变量)之间的依存关系,用解释变量的已知值或固定值来估计或预测因变量的总体平均值。一元线性回归分析预测法,是根据自变量x和因变...

2020-02-09 20:36:00 723

原创 python实现-假设检验

假设检验人体温度是否符合正态分布import pandas as pdimport numpy as npimport osfrom scipy import statsdata = pd.read_csv('/Users/huangqiankun/Downloads/test.csv')data.Temperature.describe()ks_test = stats.ks...

2020-01-19 15:19:52 609

原创 通过某字段将记录分组

通过某个字段将记录分组Q:如果有一个字典,想根据date来分组迭代访问.A:itertools.groupby()函数对于这样的数据分组操作非常实用。rows = [{'address': '5412 N CLARK', 'date': '07/01/2012'}, {'address': '4801 N BROADWAY', 'date': '07/01/2012'}, {'add...

2020-01-14 11:01:44 189

原创 python-通过关键字排序字典

通过关键字排序字典Q:有一个字典列表,想根据某个或某几个字典字段排序这个列表A:可以使用operator模块的itemgetter函数来实现rows = [ {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': ...

2020-01-13 14:29:36 801

原创 数据科学-假设检验

假设检验假设检验的基本问题原假设H0:原假设或零假设,需要去验证的假设;一般先认定原假设是正确的,然后根据显著性水平选择接受还是拒绝原假设备择假设H1: 原假设不成立,就需要拒绝原假设。默认选择备择假设两类错误接受或拒绝都可能犯错误I类错误——弃真错误,发生的概率为αII类错误——取伪错误,发生的概率为βP值P值是在原假设为真的添加下某一统计量以其观察值为最...

2020-01-05 16:10:47 210

原创 数据科学-python实现参数估计

python实现参数估计import pandas as pdimport numpy as npfrom scipy import statspath = '/Users/huangqiankun/Desktop/data.xlsx'date = pd.read_excel(path)age = date['Age']# 抽取100个样本age_sam = sge.sample(...

2020-01-05 15:02:55 243

原创 数据科学-参数估计

参数估计点估计点估计:用样本统计量θ的某个取值直接作为总体参数的θ的估计值矩估计法 :即矩估计,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数如:用样本平均值估计总体的平均值,用样本的方差来估计总体的方差区间估计区间估计: 在点估计的基础上,给出总体参数估计的一个区间范围,该范围通常由样本统计量加减估计误差得到。置信区间: 在区间估计中,由样本统计量所构造的总体参数的估计区间...

2019-12-29 18:32:43 369

原创 数据科学-抽样分布验证

抽样分布的验证import pandas as pdimport numpy as npdf=pd.read_excel(r'/Users/huangqiankun/Downloads/data.xlsx')embark=data.groupby(['Embarked'])embark_basic = df.groupby(['Embarked']).agg(['count','min'...

2019-12-22 21:05:02 224

原创 数据科学-统计量及其抽样分布

统计量及其抽样分布1 统计量1.1 统计量的概念设X1,X2,...XnX_{1},X_{2},...X_{n}X1​,X2​,...Xn​ 是从总体XXX 中抽取的容量为nnn 的一个样本,如果有此样本构造一个函数T(X1,X2,...Xn)T(X_{1},X_{2},...X_{n})T(X1​,X2​,...Xn​),不依赖于任何未知参数,则称函数T(X1,X2,...Xn)T(X_{...

2019-12-07 17:26:09 943

原创 数据科学-概率分布实现

概率分布实现二项分布import numpy as npimport matplotlib.pyplot as pltlist = np.random.binomial(n=10, p=0.5,size = 10000)plt.hist(list, bins = 8,color = 'g', alpha = 0.4,edgecolor = 'b')plt.show()泊松分布i...

2019-12-01 18:20:54 107

原创 数据科学-概率与概率分布

数据科学-概率与概率分布1. 随机事件及其概率1.1 随机事件的几个基本概念试验和事件在同一组条件下,对某事物或现象所进行的观察或实验叫做试验,把观察或试验的结果叫做事件**随机事件:**在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件**必然事件:**在同一组条件下,每次试验一定出现的事件**不可能事件:**在同一组条件下,每次试验一定不会出现的事件如果一个时间不...

2019-12-01 17:28:55 436

原创 数据科学-描述统计实现

描述统计实现

2019-11-24 20:23:43 86

原创 数据科学-描述性统计

描述性统计1 集中趋势的度量集中趋势:指一组数据向某一中心值靠拢的程度,反应了一组数据中心点的位置所在。1.1 分类数据:众数众数:一组数据中出现次数最多的变量值。使用 MoM_{o}Mo​ 表示。主要用于测度分类数据的集中趋势,也可作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有数据量比较大的情况下众数才有意义。1.2 顺序数据:中位数和分位数中位数一组数据排序后处于中...

2019-11-10 14:34:54 1098

原创 数据科学-数据的图表展示

数据的图表展示1数据预处理1.1数据审核原始数据:完整性,准确性完整性:调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全准确性:检查数据是否有错误,是否存在异常值异常值处理:如果属于记录时的错误,在分析之前应给予纠正,若异常值是一个正确的值,给予保留二手数据:适用性,时效性适用性:应弄清楚数据的来源,数据的口径以及有关的背景资料时效性:对于时效性较强的问题,如果数据过于滞后...

2019-11-03 15:57:45 919

原创 linux五大IO模型

同步 & 异步同步:如果有多个任务或事件发生,这个任务或事件必须逐个进行,一个任务或事件的执行会导致整个流程的暂时等待,这些事件没有办法并发执行。 异步:如果有多个任务或事件,这些任务或事件可以并发执行,一个任务或事件的执行不会导致整个流程的等待。void fun1(){}void fun2(){}void function(){fun1();fun2()}...

2019-01-17 11:16:00 402

原创 Anaconda安装

  什么是Anaconda? Anaconda是一个开源的Python发行版本,python是一个编译器,如果不使用Anaconda那么安装起来会比较痛苦,各个库之间的依赖性就很难连接的很好。Anaconda可以看做Python的一个集成安装,里面集成了很多关于python科学计算的第三方库,安装它后就默认安装了python、IPython、集成开发环境Spyder和众多的包和模块,包含...

2019-01-17 11:12:00 160

原创 PyCharm 基于Anaconda配置PySpark

开发PySpark 所需准备环境 安装python环境 下载安装Anaconda。详细见文档。 安装PyCharm 下载安装PyCharm。 官网下载Spark安装包 由于PyCharm开发spark 需要本地Spark环境,所以要在官网中下载Spark安装包到本地(这里我们下载Spark1.6版本)。 进入Spark官网,找到对应的Spark版本下载。...

2019-01-17 11:00:40 1662 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除