Kentos(acoustic ver.)-CSDN博客

原创计量经济学与stata应用（二）：内生性问题与工具变量

内生性问题的产生和处理，工具变量IV与两阶段最小二乘回归2SLS

2024-03-10 19:27:52 5400

原创计量经济学与stata应用（一）：异方差与自相关

异方差是指随机扰动项的方差不再是常数，而是依赖于下标，此时高斯-马尔可夫假定下的检验统计量都不成立。自相关是指随机变量与自身（不同时间，也叫滞后）的相关性，主要存在于时间序列数据。

2024-03-02 18:55:14 2030

原创 python数据挖掘——聚类

(1)任意选择k个对象作为初始的簇中心；(2)根据距离（欧式距离）中心最近原则，将其他对象分配到相应类中；(3) 更新簇的质心，即重新计算每个簇中对象的平均值；(4) 重新分配所有对象，直到质心不再发生变化。

2022-11-30 21:56:12 1556

人们希望用较少的变量来代替原来较多的变量，这种代替可以反映原来多个变量的大部分信息，这实际上是一种“降维”的思想。一般要求所选主成分的方差总和占全部方差的80%以上，一般来说，主成分的累计方差贡献率达到80%以上的前几个主成分，都可以选作最后的主成分。（6）根据主成分分析模型和主成分载荷，可以得到主成分与原来变量之间的线性组合表达式。：如果第一个主成分不足以代表原来的变量，在考虑选择第二个主成分，依次类推。（3）确定主成分：特征值越大，则对应的特征向量表示的主成分的方差越大，，新的变量(即主成分)为。

2022-11-12 13:58:45 2224

原创 python统计（二）假设检验

单总体参数的假设检验单总体均值的检验DescrStatsW.ztest_mean() statsmodels.stats.weightstats.DescrStatsW.ztest_mean(value=0,alternative='two-sided') 参数说明 value 假设的均值 alternative 备择假设的形式，可选值：‘two-sided.

2022-05-30 18:12:49 2266 3

原创 python数据分析（一）：列联分析与方差分析

<此部分理论内容结合统计学教材学习>列联分析1. 收集样本数据产生二维或多维交叉列联表；2. 对两个分类变量的相关性进行检验（假设检验）pandas.crosstab(index,columns,margins,normalize)- margins默认为False不带合计数据- normalize=True频率列联表salary_reform.scv结果为列联表补充的内容列联表的期望分布根据比例求出的各个变量...

2022-05-12 17:48:15 10549 2

原创 python统计（一）描述性统计与参数估计

连续型数据的描述pandas.DataFrame.describe()对数值型数据进行描述，包括个数、均值、标准差、最小值、分分位数和最大值import pandas as pddf = pd.read_csv(r'/.../bs_data.csv')df.describe() #首先将数字作为数值型数据处理bs_data.scv也可以用单独的方法描述各个总体的参数（都是DataFrame和Series的自带方法）均值df['身高'].mean()df.mean

2022-03-31 13:57:57 4276

原创数据可视化（二）pandas和seaborn作图

pandaspandas.DataFrame.plot(kind,x,y,title,figsize,grid)可以通过Series或DataFrame对象调用，本质是对pyplot.plot()的一个包装器kind默认为line折线图，gird默认为False不显示网格例一df = pd.read_csv(r'/.../600000.csv')df['date'] = pd.to_datetime(df['date']) # 转换为时间序列df.set_index('date..

2022-03-24 01:14:49 3416

原创 python数据可视化（一）matplotlib

matplotlib的架构体系由下到上分别为后端层，美工层，脚本层（函数层）美工层Artist Layer- 提供了绘制统计图所需的各种组成对象，如标题、直线、刻度标记等对象；所有对象都直接或间接继承自matplotlib.artist.Artist对象，各对象间形成一个树状的结构体系- primitives 表示我们要渲染在画布上的标准的图形对象：Line2D, Rectangle, Text, AxesImage等；- containers 是容纳这些图形对象的地方（Axis, A..

2022-03-18 14:37:50 1335

原创 Pandas库的基本操作(二)

数据抽取字段拆分对字符串类型的处理slice() 函数：实现字符串的切片split() 函数：按分隔符拆分字符串df1 = pd.read_csv(r'/.../str_op2.csv')df1['name'].str.split(n = 1, expand = True) # 默认分隔符为空格分隔数量为所有结果为列表若expand = True则结果为DataFramestr_op2.csv时间型数据列的处理df2 = pd.read_csv(r'/..

2022-03-13 18:35:03 1409

原创 pandas库的基本操作(一）

数据结构引入模块import pandas as pd序列Series：带标签(索引)的一维数组创建序列d = {'b':1,'a':0,'c':3} # 参数为字典s1 = pd.Series(d) # series是pandas的一个类实例化方法s2 = pd.Series(d,index = ['b','c','d','a']) # 标签print(s1)b 1a 0c 3dtype: int64print(s2) # NaN: Not

2022-03-13 17:35:39 1694

原创排序算法（一）选择排序堆排序插入排序和希尔排序

选择排序每趟排序在当前待排序序列中选出关键码最小的记录，添加到有序序列中。简单选择排序第 i 趟在n-i+1（i=1,2,3,…,n-1）个记录中选取关键码最小的记录作为有序序列中的第i个记录：⑴ 将整个记录序列划分为有序区和无序区，初始状态有序区为空，无序区含有待排序的所有记录。⑵ 在无序区中选取关键码最小的记录，将它与无序区中的第一个记录交换，使得有序区扩展了一个记录，而无序区减少了一个记录。⑶ 不断重复⑵，直到无序区只剩下一个记录为止。此时所有的记录已经按关键码从小到...

2022-03-05 23:09:45 180

原创有向无环图的拓扑排序关键路径

拓扑排序：在不违背先决条件的基础上将有向无环图排成线性序列- 排序结果不唯一- 用一维数组Indegree存储各顶点的入度- 采用邻接表与队列bool TopSort(LGraph Graph, Vertex TopOrder[]){ int Indegree[MaxVertexNum], cnt; Vertex V; PtrToAdjVNode W; Queue Q = CreateQueue(Graph->Nv); //初始化Indegr

2022-02-26 16:17:49 915

原创 Numpy 数组的操作

numpy数组的操作数组的创建向量的创建和操作数据类型type astype() 数据形状shape数组的运算、索引，赋值、视图view()和拷贝copy()

2022-02-26 15:41:38 417

原创最短路径算法，Dijkstra与Floyd算法的实现

单源最短路算法：找从源点到图中各顶点的最短路径邻接表存储-无权图的单源最短路算法void Unweighted(LGraph Graph, int dist[], int path[], Vertex S){ //dist[]和path[]全部初始化为-1 Queue Q; Vertex V; PtrToAdjVNode W; Q = CreateQueue(Graph->Nv); //创建空队列,MaxSize为外部定义的常数 dist[S

2021-12-31 15:51:40 493

原创最小生成树贪心算法，Prim算法和Kruskal算法的实现

生成树：包含图中全部n个顶点的极小连通子图，包含n-1条边且没有环Prim-稠密图O(E^2)-类似Dijkstra-用邻接矩阵存图邻接表存树（图结点、边结点、邻接表、邻接矩阵的定义见前）找未被收录顶点中dist最小者Vertex FindMinDist(MGraph Graph, WeightType dist[]){ Vertex MinV, V; WeightType MinDist = INFINITY; //INFINITY表示不联通

2021-12-31 15:37:20 380

原创图的遍历，邻接矩阵与邻接表的实现

图的遍历图的结点定义邻接矩阵、邻接表

2021-12-31 15:16:51 424

原创散列查找的实现

散列函数：将关键码映射为散列表中适当存储位置时间复杂度：O(1)装填因子处理冲突的办法：开放定址法，拉链法

2021-12-30 00:59:27 1058

原创 Huffman Tree哈夫曼树的最小堆实现

带权路径长度WPL：从根结点到各个叶子结点的路径长度和相应叶子结点权值的乘积之和哈夫曼树：带权路径长度最小的二叉树（最优二叉树）哈夫曼树的构造：将权值按升序排列，每次把权值最小的两棵二叉树合并为一棵树，合并产生的新结点的权值为左右子树的权值之和，最终的根结点的权值即为最短带权路径长度。如何找到权值最小的结点？——最小堆

2021-12-21 21:10:55 1743

原创二分查找，二叉排序树与平衡二叉树

二分查找，二叉排序树/二叉搜索树，二叉平衡树的相关操作

2021-12-13 15:52:56 1006

原创树与二叉树的存储结构，二叉树的多种遍历实现

树树不可以为空树的存储结构-树没有顺序存储结构（没法表示结点之间的关系）-静态链式存储（双亲表示法、孩子表示法、双亲孩子表示法）-孩子链表示法（结点里是下标而不是数据）二叉树可以为空，不是树的一种特殊情况顺序存储完全二叉树或满二叉树中结点的序号可以唯一地反映出结点之间的逻辑关系-非根结点的父结点的序号为[i/2]-序号为i的结点的左孩子的结点的序号为2i（若2i<=n，则没有左孩子）-序号为i的结点的右孩子的结点的序号为2i+1（若2i+1<=n，

2021-12-12 15:52:19 1566

原创线性结构——顺序表与链表，循环链表和双向链表

顺序表顺序存储是指在内存中用地址连续的一块存储空间顺序存放线性表的各元素-元素顺序和地址顺序相同（下标能直接反应元素间的关系）元素的物理位置相邻-由一维数组实现（但一维数组不一定是顺序存储结构）顺序存储结构类型定义

2021-12-04 15:38:47 788

原创栈与队列的顺序和链表的实现，双堆栈

栈（后进先出）栈的顺序存储结构（双堆栈）数据结构定义#include <stdio.h>#include <stdbool.h>#include <stdlib.h>#define ERROR -1typedef int ElementType;typedef int Position;typedef struct SNode *PtrToLNode;struct SNode{ ElementType *Data; Posit

2021-12-04 15:37:40 378 1

weixin_56631477的博客