笔记
文章平均质量分 75
小力子~
这个作者很懒,什么都没留下…
展开
-
数据管理
数据治理领域包括但不限于一下内容:数据标准、元数据、数据模型、数据分布、数据存储、数据交换、数据生命周期管理、数据质量、数据安全以及数据共享服务。从未来银行业务发展的角度来看,先进技术做支撑(必然是低成本的),业务主题及发展趋势做导向,底层+中台+应用构成三维一体,从半人工、到自动化、再到智能化。数据治理领域是随着银行业务发展而不断变化的,领域之间的关系也需要不断深入挖掘和分布,最终形成一个相互协同与验证的领域网,全方位的提升数据治理成效。数据模型是数据治理中的重要部分,合适、合理、合规的数据模型,.原创 2020-06-28 09:28:45 · 917 阅读 · 0 评论 -
meta分析:对文献进行综合统计的方法
Meta 分析作为一种结合独立研究的统计学方法,具有传统综述不可比拟的优越性。根据统计假设的不同可将Meta 分析方法分为两类:固定效应模型和随机效应模型,前者假设所有研究享有共同的真实效应大小,后者假设所有研究的真实效应大小不同,具体体现在计算所有研究平均效应的权重上。由于随机效应模型比较符合实际,得到了Meta分析家们的认可,正被广泛应用开来。综述是对同一主题不同实验结果的总结,也是对过...原创 2019-11-22 21:11:23 · 2457 阅读 · 0 评论 -
anaconda安装第三方包相关知识
查看已经安装好的anaconda环境安装Anaconda新环境Anaconda创建、激活、删除环境注:在通过conda activate base激活环境时报错调整为activate base激活环境补充:anaconda打开创建环境cmd教程mac环境下anaconda安装第三方库mac进入anaconda promptanaconda安装第三方库/模块(mac环境)wi...原创 2019-11-13 15:15:55 · 495 阅读 · 0 评论 -
数学之美读书笔记
早期数字并没有书写的形式,而是掰手指,这就是我们今天使用十进制的原因。古印度人发明了包括0在内的10个阿拉伯数字,只是欧洲人并不知道这些数字的真正发明人是印度人,而把功劳给了“二道贩子”阿拉伯人。阿拉伯数字或者说印度数字的革命性不仅在于它的简洁有效,而且标志着数字和文字的分离。这在客观上让自然语言的研究和数学在几千年里没有重复的轨迹,而且越走越远。从象形文字到拼音文字是一个飞跃,因为人类在描...原创 2019-10-19 21:28:58 · 178 阅读 · 0 评论 -
参考文献
出版社和出版商对照表https://blog.csdn.net/zxfhahaha/article/details/80054978谷歌学术https://e.glgoo.top/scholar?hl=zh-CN&as_sdt=0%2C5&q=Online+Actions+with+Offline+Impact%3A+How+Online+Social+Networks+Inf...原创 2019-10-19 18:49:01 · 196 阅读 · 0 评论 -
利用PS将图片上的中文改写成英文
利用矩形选框工具选择需要修改的中文,然后shift+F5选择白色填充,然后利用横排文字工具输入更改后的英文(利用编辑,自由变换实现文字的移动,按enter键确定)。...原创 2019-08-24 08:48:59 · 15738 阅读 · 0 评论 -
SQL学习笔记
Having与where的区别:https://baijiahao.baidu.com/s?id=1600513158500665764&wfr=spider&for=pcLEFT JOIN 关键字从左表(Websites)返回所有的行,即使右表(access_log)中没有匹配。好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日,用户’小...原创 2019-08-05 19:10:53 · 8088 阅读 · 0 评论 -
期刊投稿总结
投稿Information Science(期刊)下的 Special Issue on Secure Data Science and Big Knowledge(专题)确定投稿版式:Guide for Authors(确定投稿要求) -> preparation中有latex办事要求(参考指定模块的版式要求)-> 模板下载并结合最近出版期刊进行模板调整。爱思唯尔的文章类els...原创 2019-07-15 16:45:26 · 770 阅读 · 0 评论 -
窗口函数
窗口函数可以进行排序,生成序列号等一般的聚合函数无法实现的高级操作。窗口函数也称为OLAP函数,意思是对数据库数据进行实时分析处理。窗口函数就是为了实现OLAP而添加的标准SQL功能。窗口函数语法:其中[]中的内容可以省略。<窗口函数> over ([partition by <列清单>] order by <排...原创 2019-09-27 19:00:19 · 123 阅读 · 0 评论 -
机器学习常用性能度量指标
机器学习常用性能度量指标https://blog.csdn.net/lrs1353281004/article/details/79411552AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏,值越大越好。https://blog.csdn.net/u013385925/article/details/8038587...转载 2019-06-30 18:34:41 · 910 阅读 · 0 评论 -
如何解决QQ能上网,但是浏览器无法联网的问题
设置代理服务器是不影响QQ联网的,因为QQ使用的是4000端口,而访问互联网使用的是80或8080端口。而代理服务器一般不是很稳定,有时候能上,有时候不能上。如果有这样的设置,将代理服务器取消即可。代理服务器:控制面板–Internet选项–连接–局域网设置–为LAN使用代理服务器...转载 2019-08-12 09:18:35 · 8757 阅读 · 2 评论 -
学习机器学习之如何根据需求选择一种算法
第 1 步:对问题进行分类这是一个两步步骤:通过输入分类:如果我们有标签数据,这是一个监督学习问题。如果我们有无标签数据并且想要去发现结构,这是一个无监督学习问题。如果我们想要通过与环境交互优化目标函数,这是一个强化学习问题。通过输出分类:如果一个模型的输出是一个数字,这是一个回归问题。如果模型的输出是一个类(或者分类),这是一个分类问题。如果模型的输出是输入组的集合,这是一个分类问...原创 2019-09-07 15:32:08 · 428 阅读 · 0 评论 -
数据类岗位区别
数据工程师,是从事管理和维护数据库管理系统的相关工作人员的统称,他属于运维工程师的一个分支,主要负责业务数据库从设计、测试到部署交付的全生命周期管理。(保证数据库管理系统的稳定性、安全性)大数据工程师。大数据工程师主要偏开发层面,指的是围绕大数据平台系统级的研发人员,熟练hadoop大数据平台的核心框架,能够掌握hadoop提供的通用算法,熟练掌握Hadoop整个生态系统的组件:Yarn,HB...原创 2019-09-30 15:18:32 · 718 阅读 · 0 评论 -
5.4
1.联通增值业务费:主要包括您使用的短信/彩信、联通在信、炫铃、悦铃、超级炫铃、语音信箱、掌上股市、手机上网、手机电视、手机报、手机音乐、手机邮箱、手机搜索、即时通信、联通丽音、联通秘书、电话导航、电视会议、电话会议等增值业务产生的费用。2.Python可视化库:https://blog.csdn.net/weixin_39777626/article/details/785983463.数据...原创 2019-05-09 11:11:25 · 198 阅读 · 0 评论 -
MySQL高效编程
数据库的基本概念https://blog.csdn.net/small_prince_/article/details/79400912#数据库data-base转载 2019-06-27 12:46:27 · 172 阅读 · 0 评论 -
神经网络
1.设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定。2.神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向。3.结构图里的关键不是圆圈(代表“神经元”),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的权重(其值称为权值),这是需要训练得到的。4.神经元模型是一个包含输入,输出与计算功能的模型。5.当我们用“神经元”组成网络以后,描述网络中...原创 2019-06-24 18:59:22 · 933 阅读 · 0 评论 -
机器学习中防止过拟合的处理方法
过拟合概念过拟合指的是训练误差小,测试误差大,训练误差和测试误差与模型复杂度的关系如下图所示。防止过拟合的方法early stopping、数据集扩增(Data augmentation)、正则化(Regularization)、DropoutEarly stoppingEarly stopping是一种迭代次数截断的方法来防止过拟合的方法,即在模型对训练数据集迭代收敛之前停止迭代来防...转载 2019-06-24 14:37:46 · 381 阅读 · 0 评论 -
因果关系模型读书笔记
一、非递归因果模型第三章 可辨识性的检验次序条件两种次序条件方法有利于我们迅速判断某些方程是否是可辨识的。如果方程不能满足次序条件,那么它必然是不可辨识的。但我们也必须清醒地认识到次序条件法的局限:它对可辨识性是必要条件,但不是充分条件。因此,某方程满足了次序条件并不足以证明它是可辨识的。在假定该方程可辨识性(即能获得合理的参数估计)之前,还必须对该方程进行秩条件检验。秩条件秩条件时可辨...原创 2019-05-31 14:04:18 · 1628 阅读 · 0 评论 -
深入浅出统计学读书笔记
1.中位数:当偏斜数据和异常值使均值产生误导时,我们可以用中间值(另一种平均数)表示典型值。2.均值带来的巨大危险是:当存在异常值时,它可能会给出一个不存在于数据集中区的数值。3.偏斜数据偏向的判断:偏斜数据有一条“异常值”的尾巴。若要知道数据的偏斜方向,可看看尾巴(图形横轴表示数值,纵轴表示频数)的指向。例如右偏斜数据的尾巴指向右方。具体而言,如果数据向右偏斜,则均值位于中位数右侧(教大),...原创 2019-05-23 15:15:33 · 4506 阅读 · 0 评论 -
8.19
1.实现输入a = [1,2], b = [3,4], c = [5,6],输出d = [[1,2],[3,4],[5,6]].利用append。a = [1,2]b = [3,4] c = [5,6]d = []d.append(a)d.append(b)d.append(c)2.实现嵌套列表oldList=[x for x in range(1,101)]newList...原创 2019-04-30 12:40:15 · 142 阅读 · 0 评论 -
PCA降维
1.降维的作用①数据在低维下更容易处理、更容易使用;②相关特征,特别是重要特征更能在数据中明确的显示出来;如果只有两维或者三维的话,更便于可视化展示;③去除数据噪声④降低算法开销2.降维通俗点的解释一些高维度的数据,比如淘宝交易数据,为便于解释降维作用,我们在这假设有下单数,付款数,商品类别,售价四个维度,数据量上百万条,对于下单数和付款数,我们可以认为两者是线性相关的,即知道下单数,...转载 2019-04-26 09:28:29 · 231 阅读 · 0 评论 -
内存计算,线性可分数据集
https://www.cnblogs.com/moonandstar08/p/5218419.html转载 2019-03-23 15:17:04 · 1129 阅读 · 0 评论 -
固定ip地址
1、搜索192.168.100.1,输入密码123456登录。2、点击DHCP选择客户端列表查看本机mac地址并复制。3、点击DHCP选择静态地址分配并选择添加新条目,填写复制的mac地址和想设置的ip地址。4、选择系统工具并重启路由器。...原创 2019-05-29 11:18:21 · 2495 阅读 · 0 评论 -
倾向值分析(协变量选择)
Hirano 和 Imbens 基于预设的临界t值来设定预测变量的方法1.逻辑回归:逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法。逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于二分类。a.逻辑回归公式如下:其中,Y为决策值,x为特征值,e为自然对数。Y(x)的图形如下:对于常见二分类,逻辑回归通过一个区间分布进行划分,即如果Y值大于等于0.5,则属于正样本,如...原创 2019-06-25 15:01:42 · 8356 阅读 · 0 评论 -
机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?
偏差与方差的区别:Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,即算法本身的拟合能力。(训练集)Variance则是“不同的训练数据集训练出的模型”的输出值之间的差异。反应预测的波动情况。(测试集)Overfitting(过拟合),Underfitting(欠拟合)过拟合:也就是我对训练样本能够百分百命中了,超级拟合了,但是测试时候就掉链子,拟合很差,也就是我们...原创 2019-06-21 15:43:37 · 334 阅读 · 0 评论 -
python的存储机制
Python是如何进行内存管理的?答:一对象的引用计数机制,二垃圾回收机制,三内存池机制一、对象的引用计数机制Python内部使用引用计数,来保持追踪内存中的对象,所有对象都有引用计数。引用计数增加的情况:1,对象被创建:x=42,作为容器对象的一个元素:a=[1,x,‘33’]3,被作为参数传递给函数:foo(x)引用计数减少的情况:1,对象的别名被显式的销毁:del x ;或...转载 2019-06-20 20:12:44 · 865 阅读 · 0 评论 -
利用python实现PSM
1.采用临近匹配法实现倾向值的匹配https://www.jianshu.com/p/34dd19ebe475注:a. patsy.dmatrices函数,取一个公式字符串和一个数据集(可以使DataFrame或dict),然后为线性模型产生设计矩阵。https://blog.csdn.net/wuzlun/article/details/80287583b. 字符串格式化用法:通过’ {...转载 2019-06-20 15:46:02 · 5163 阅读 · 0 评论 -
倾向值匹配法的概述和应用+倾向值分析:统计方法与应用
1.在应用倾向值匹配法进行因果推断时需要注意后续的检验理论,否则容易妄议因果。2.什么是倾向值匹配法?将各个手册单元多维度的信息,使用统计方法简化成一维的数值,是为倾向值,然后据之进行匹配,匹配的目的就是要找寻实验组和对照组样本中拥有相同(或者相似)倾向值的样本,它们之间的差异,就是因果效用。3.严谨科学的研究设计是进行因果推断的前设,倾向值匹配法是协助我们解决因果推断的研究方法,它不能帮助...原创 2020-04-01 15:34:41 · 22560 阅读 · 0 评论 -
python中list, tuple, dictionary, set的底层细节
1.列表实现是基于数组或基于链表结构的。2.列表和元组的区别是显然的:列表是动态的,其大小可以该标 (重新分配),而元组是不可变的,一旦创建就不能修改。3.字典a.CPython使用伪随机探测(pseudo-random probing)的散列表(hash table)(哈希表)作为字典的底层数据结构。由于这个实现细节,只有可哈希的对象才能作为字典的键。Python中所有不可变的内置类型...原创 2019-06-20 09:11:29 · 873 阅读 · 0 评论 -
python程序笔记
1.接收输入:a_sequence = [i for i in input().split()]2.参数定义的顺序必须是:必选参数、默认参数、可变参数、命名关键字参数和关键字参数。3.堆棋子:#include <bits/stdc++.h> using namespace std; // 计算曼哈顿距离int manhattan_dist(int x1, int y1,...原创 2019-06-10 14:08:22 · 503 阅读 · 0 评论 -
时间与空间复杂度分析
1.时间复杂度:a.实际上,在大多数情况下,我们并不需要区分最好、最坏、平均情况时间复杂度三种情况。像我们上一节课举的那些例子那样,很多时候,我们使用一个复杂度就可以满足需求了。只有同一块代码在不同的情况下,时间复杂度有量级的差距,我们才会使用这三种复杂度表示法来区分。b.目标为结合例子说明平均时间复杂度的概念(说明程序,指出将每种情况出现的概率结合考虑)c. 一般情况下,算法中基本操作重复...原创 2019-06-19 08:54:34 · 283 阅读 · 0 评论 -
时间复杂度,空间复杂度与排序算法
计算时间复杂度的方法:1.用常数1代替运行时间中的所有加法常数2.修改后的运行次数函数中,只保留最高阶项3.去除最高阶项的系数空间复杂度: 1 a = 'Python' # 空间复杂度为1 2 3 4 # 空间复杂度为1 5 a = 'Python' 6 b = 'PHP' 7 c = 'Java' 8 10 num = [1, 2, 3, 4, 5] # 空间...原创 2019-04-10 15:33:15 · 118 阅读 · 0 评论