- 博客(79)
- 收藏
- 关注
原创 如何利用python进行统计显著性检验
在统计学中,显著性差异检验是用来决定两组或多组数据之间是否存在统计学上的差异。若存在显著性差异,则说明数据集之间不是来自于同一个分布。在Python中,可以使用多种方法来进行显著性差异检验,如t检验、KS检验、Wilcoxon符号秩检验等。总的来说,在进行显著性差异检验时,选择合适的检验方法非常重要。Python中的SciPy和Numpy等库提供了强大的统计功能,使用户可以方便地进行各种显著性检验。无论是参数检验还是非参数检验,都需确保数据满足检验的前提条件,以确保结果的准确性和可靠性。
2024-07-11 10:30:06 895
原创 数据管理
数据治理领域包括但不限于一下内容:数据标准、元数据、数据模型、数据分布、数据存储、数据交换、数据生命周期管理、数据质量、数据安全以及数据共享服务。从未来银行业务发展的角度来看,先进技术做支撑(必然是低成本的),业务主题及发展趋势做导向,底层+中台+应用构成三维一体,从半人工、到自动化、再到智能化。数据治理领域是随着银行业务发展而不断变化的,领域之间的关系也需要不断深入挖掘和分布,最终形成一个相互协同与验证的领域网,全方位的提升数据治理成效。数据模型是数据治理中的重要部分,合适、合理、合规的数据模型,.
2020-06-28 09:28:45 927
原创 倾向值匹配法的概述和应用+倾向值分析:统计方法与应用
1.在应用倾向值匹配法进行因果推断时需要注意后续的检验理论,否则容易妄议因果。2.什么是倾向值匹配法?将各个手册单元多维度的信息,使用统计方法简化成一维的数值,是为倾向值,然后据之进行匹配,匹配的目的就是要找寻实验组和对照组样本中拥有相同(或者相似)倾向值的样本,它们之间的差异,就是因果效用。3.严谨科学的研究设计是进行因果推断的前设,倾向值匹配法是协助我们解决因果推断的研究方法,它不能帮助...
2020-04-01 15:34:41 22632
原创 pycharm+python环境配置
pycharm安装教程python安装后不能通过简单的复制粘贴改变文件python安装文件所在位置,如更改会导致终端无法通过pip安装新的模块。添加环境变量时需要添加python37文件路径(C:\Users\晓力\AppData\Local\Programs\Python\Python37;)和pip.exe所在文件路径(C:\Users\晓力\AppData\Local\Programs...
2020-02-28 16:20:37 610
原创 Jupyter Notebook常用操作学习
介绍: Jupyter Notebook 是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码、数学方程、可视化和 Markdown,其用途包括数据清理和转换、数值模拟、统计建模、机器学习等等。目前,数据挖掘领域中最热门的比赛 Kaggle 里的资料都是 Jupyter 格式。优点: 当你还在构建项目原型时,Jupyter Notebooks 真的特别好用,因为你的代码是被写入独...
2019-12-21 21:26:28 250
原创 学习网站和书籍
哈佛商学院学习网站:https://www.hbs.edu/faculty/Pages/default.aspx统计学是研究客观事物数量关系和数量特征的方法论学科。
2019-11-30 22:02:20 167
原创 meta分析:对文献进行综合统计的方法
Meta 分析作为一种结合独立研究的统计学方法,具有传统综述不可比拟的优越性。根据统计假设的不同可将Meta 分析方法分为两类:固定效应模型和随机效应模型,前者假设所有研究享有共同的真实效应大小,后者假设所有研究的真实效应大小不同,具体体现在计算所有研究平均效应的权重上。由于随机效应模型比较符合实际,得到了Meta分析家们的认可,正被广泛应用开来。综述是对同一主题不同实验结果的总结,也是对过...
2019-11-22 21:11:23 2496
原创 毕设论文阅读摘选
大数据背景下中国电信行业的用户细分大数据能够提升企业的竞争力,主要体现在以下几个方面:客户分析、风险控制、精准营销、产品开发、产品优化、物流管理和人力资源管理。电信产业相关网站:中国通信网、中国工信部网、通信产业网、中国信息网和ITU。国外的用户研究从社会心理学、个性心理学、行为学出发形成差异化的细分学派。选择影响用户消费行为的特征进行用户群体的细分。数据挖掘得全球最顶级的峰会KDD(...
2019-11-13 21:33:13 177
原创 anaconda安装第三方包相关知识
查看已经安装好的anaconda环境安装Anaconda新环境Anaconda创建、激活、删除环境注:在通过conda activate base激活环境时报错调整为activate base激活环境补充:anaconda打开创建环境cmd教程mac环境下anaconda安装第三方库mac进入anaconda promptanaconda安装第三方库/模块(mac环境)wi...
2019-11-13 15:15:55 515
原创 数学之美读书笔记
早期数字并没有书写的形式,而是掰手指,这就是我们今天使用十进制的原因。古印度人发明了包括0在内的10个阿拉伯数字,只是欧洲人并不知道这些数字的真正发明人是印度人,而把功劳给了“二道贩子”阿拉伯人。阿拉伯数字或者说印度数字的革命性不仅在于它的简洁有效,而且标志着数字和文字的分离。这在客观上让自然语言的研究和数学在几千年里没有重复的轨迹,而且越走越远。从象形文字到拼音文字是一个飞跃,因为人类在描...
2019-10-19 21:28:58 185
原创 参考文献
出版社和出版商对照表https://blog.csdn.net/zxfhahaha/article/details/80054978谷歌学术https://e.glgoo.top/scholar?hl=zh-CN&as_sdt=0%2C5&q=Online+Actions+with+Offline+Impact%3A+How+Online+Social+Networks+Inf...
2019-10-19 18:49:01 207
原创 python实现文件的读写和时间戳的排序
#Author: xiaoli zhangimport datetimedef get_timestamp(date): return datetime.datetime.strptime(date, '%Y-%m-%d %H:%M:%S').timestamp()f=open(r'E:\python_txt\x.txt')#如果你的x.txt文件不在python的路径下,那么必须用...
2019-10-11 19:00:02 1096
原创 数据类岗位区别
数据工程师,是从事管理和维护数据库管理系统的相关工作人员的统称,他属于运维工程师的一个分支,主要负责业务数据库从设计、测试到部署交付的全生命周期管理。(保证数据库管理系统的稳定性、安全性)大数据工程师。大数据工程师主要偏开发层面,指的是围绕大数据平台系统级的研发人员,熟练hadoop大数据平台的核心框架,能够掌握hadoop提供的通用算法,熟练掌握Hadoop整个生态系统的组件:Yarn,HB...
2019-09-30 15:18:32 731
原创 窗口函数
窗口函数可以进行排序,生成序列号等一般的聚合函数无法实现的高级操作。窗口函数也称为OLAP函数,意思是对数据库数据进行实时分析处理。窗口函数就是为了实现OLAP而添加的标准SQL功能。窗口函数语法:其中[]中的内容可以省略。<窗口函数> over ([partition by <列清单>] order by <排...
2019-09-27 19:00:19 139
原创 学习机器学习之如何根据需求选择一种算法
第 1 步:对问题进行分类这是一个两步步骤:通过输入分类:如果我们有标签数据,这是一个监督学习问题。如果我们有无标签数据并且想要去发现结构,这是一个无监督学习问题。如果我们想要通过与环境交互优化目标函数,这是一个强化学习问题。通过输出分类:如果一个模型的输出是一个数字,这是一个回归问题。如果模型的输出是一个类(或者分类),这是一个分类问题。如果模型的输出是输入组的集合,这是一个分类问...
2019-09-07 15:32:08 447
原创 银行大数据工程师笔试题
Spark有3种运行模式(分布式部署方式):独立集群运行模式、YARN运行模式、Mesos运行模式。SecondaryNameNode:它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间。以下python语句(Python 2.7.13)的执行结果是:import rekey = r"mat cat hat pat"p1 = r"[^c|p]at"pa...
2019-09-06 14:29:00 14130
原创 小红书数据分析笔试题整理
销量下降的原因分析利用结构化思维拆分销量。 对 “店铺销量构成” 进行拆解并分析不同类目的销量,进一步明确问题根源(哪几类商品销量下降最严重)。接下来我们针对每种品类去分析影响销量的因素有哪些,可能原因见图1。图1将与销量相关的指标量化所谓量化就是穷尽所有指标的最小单元,即最小不可分割原则。经过这样一层一层公式化的量化,你就最可能找到那些“最小不可分割的指标”,进而最可能发现本质...
2019-09-04 16:31:51 4295
原创 leetcode分项复习
二分查找https://www.cnblogs.com/andingding-blog/p/8717936.html双指针:3
2019-09-03 18:36:01 155
原创 二分查找
二分搜索(英语:binary search)是一种在有序数组中查找某一特定元素的搜索算法。搜索过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜索过程结束;如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较。如果在某一步骤数组为空,则代表找不到。这种搜索算法每一次比较都使搜索范围缩小一半。时间复杂法为O(log)的...
2019-09-01 09:27:50 246
原创 MYSQL安装
mysql安装路径:C:\Program Files\MySQL\MySQL Server 5.7\binWindows下Python包和模块的安装方法:https://blog.csdn.net/dq_dm/article/details/47080755pycharm操作mysql数据库 创建表 向表中插入数据 操作mysql数据库查询 修改 删除数据https://blog.csd...
2019-08-31 16:04:52 132
原创 大数据的应用
有关数据显示,中国大数据应用投资规模以五大行业最高,第一是互联网行业,占28.9%,第二是电信领域,占19.9%,第三是金融领域,占17.5%,政府和医疗分别为第四和第五,分别占8.8%和6.3%。无论是投资规模还是应用潜力,金融业中银行又是重点,占41.1%;证券占35.1%;保险占23.8%。银行功能正在从过去的资金中介逐步向信息中介转变,由过去单一的存贷汇服务向信息提供者、业务撮合者、财...
2019-08-28 15:56:47 289
原创 操作系统(进程,线程,死锁)
进程与线程的一个简单解释(进程,线程,互斥锁,信号量,操作系统的设计)http://www.ruanyifeng.com/blog/2013/04/processes_and_threads.html进程与线程的区别1、进程有自己的独立地址空间,每启动一个进程,系统就会为它分配地址空间,建立数据表来维护代码段、堆栈段和数据段,这种操作非常昂贵。而线程是共享进程中的数据的,使用相同的地址空间...
2019-08-27 20:41:48 287
原创 python(try-except)
python-try-except:pass的用法a. 1.为了跳过for循环里的某次循环,以下代码当某次循环发生错误时,执行except代码块,continue跳过该次循环:for i in range(x): try: i += 1 print(i) except: continueb. 遇到错误时直接中断整个for循环:...
2019-08-27 20:01:26 10895
原创 利用PS将图片上的中文改写成英文
利用矩形选框工具选择需要修改的中文,然后shift+F5选择白色填充,然后利用横排文字工具输入更改后的英文(利用编辑,自由变换实现文字的移动,按enter键确定)。...
2019-08-24 08:48:59 15916
转载 搭建开发环境
在PC端搭建spark+python开发环境A. 安装anaconda+JAVA(JDK8)+spark+hadoop支持模块B. 将…\spark\python\pyspark文件夹拷贝至…\Anaconda3\Lib\site-packages文件夹下(注意安装路径)引用:https://mp.weixin.qq.com/s?_biz=MzI5MzIwNDI1MQ==&mid...
2019-08-22 09:00:29 129
原创 ARIMA时间序列预测
ARIMA模型运用的流程根据时间序列的散点图、自相关函数和偏自相关函数图识别其平稳性。对非平稳的时间序列数据进行平稳化处理。直到处理后的自相关函数和偏自相关函数的数值非显著非零。根据所识别出来的特征建立相应的时间序列模型。平稳化处理后,若偏自相关函数是截尾的,而自相关函数是拖尾的,则建立AR模型;若偏自相关函数是拖尾的,而自相关函数是截尾的,则建立MA模型;若偏自相关函数和自相关函数均是拖...
2019-08-21 08:45:26 4481
转载 如何解决QQ能上网,但是浏览器无法联网的问题
设置代理服务器是不影响QQ联网的,因为QQ使用的是4000端口,而访问互联网使用的是80或8080端口。而代理服务器一般不是很稳定,有时候能上,有时候不能上。如果有这样的设置,将代理服务器取消即可。代理服务器:控制面板–Internet选项–连接–局域网设置–为LAN使用代理服务器...
2019-08-12 09:18:35 8820 2
原创 SQL学习笔记
Having与where的区别:https://baijiahao.baidu.com/s?id=1600513158500665764&wfr=spider&for=pcLEFT JOIN 关键字从左表(Websites)返回所有的行,即使右表(access_log)中没有匹配。好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日,用户’小...
2019-08-05 19:10:53 8121
原创 数据分析笔试题(网易,阿里,京东...)
1. 推荐系统评价指标和实验方法a. 评价指标:1)用户满意度:只能通过用户调查或在线实验获得。对于用户调查方式,用调查问卷方式;对于在线实验方式,主要通过一些对用户行为的统计得到。对于用户行为,可分为显性和隐性之分。若用户购买了推荐的商品,则说明在一定程度上满意,可用购买率度量。还可用用户反馈界面收集,通过统计两种按钮的单击情况度量。更一般的情况下,用点击率、用户停留时间和转化率等指标度...
2019-08-04 21:23:46 8265 1
原创 Latex bug修正
LaTeX Font Warning: Font shape `OMS/cmtt/m/n’ undefined–>在\documentclass[runningheads]{llncs}之后加上这行:\usepackage[T1]{fontenc}。inputenc Error: Unicode char not set up for use with LaTeX problem?–&g...
2019-07-31 19:06:43 931
原创 期刊投稿总结
投稿Information Science(期刊)下的 Special Issue on Secure Data Science and Big Knowledge(专题)确定投稿版式:Guide for Authors(确定投稿要求) -> preparation中有latex办事要求(参考指定模块的版式要求)-> 模板下载并结合最近出版期刊进行模板调整。爱思唯尔的文章类els...
2019-07-15 16:45:26 792
原创 海量数据处理面试题
数据量太大导致的问题:无法在较短时间内迅速解决,无法一次性装入内存。针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如 Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树 。针对空间,无非就一个办法:大而化小, 分而治之(hash映射) ,你不是说规模太大嘛,那简单啊,就把规模大化为规模小的,各个击破不就完了嘛。单机及集群问题,通俗点来讲,单机就是处理装...
2019-07-13 17:15:15 156
原创 数据分析岗面试题
怎么做恶意刷单检测?a. 选取特征利用机器学习方法做分类。特征: 结合商家特征和环境特征做商家恶意刷单分类预测,结合用户行为特征和环境特征做商家恶意刷单分类预测。1)商家特征:商家历史销量、信用、产品类别、发货快递公司等。2)用户行为特征:用户信用、下单量、下单路径、浏览店铺行为、支付账号。3)环境特征(主要是避免机器刷单):地区、ip、手机型号等。注:构造特征。刷单的评论文本可能套...
2019-07-08 14:42:09 6230
原创 生成模型和判别模型
分类器的一般形式为决策函数Y=f(X)或者条件概率分布P(Y|X)。a. 决策函数Y=f(X):你输入一个X,它就输出一个Y,这个Y与一个阈值比较,根据比较结果判定X属于哪个类别。例如两类(w1和w2)分类问题,如果Y大于阈值,X就属于类w1,如果小于阈值就属于类w2。这样就得到了该X对应的类别了。b. 条件概率分布P(Y|X):你输入一个X,它通过比较它属于所有类的概率,然后输出概率最大的...
2019-07-01 18:58:59 261
转载 机器学习常用性能度量指标
机器学习常用性能度量指标https://blog.csdn.net/lrs1353281004/article/details/79411552AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏,值越大越好。https://blog.csdn.net/u013385925/article/details/8038587...
2019-06-30 18:34:41 921
转载 MySQL高效编程
数据库的基本概念https://blog.csdn.net/small_prince_/article/details/79400912#数据库data-base
2019-06-27 12:46:27 181
原创 八种常用排序算法(python)
常见排序方法的时间与空间复杂度平均情况时间复杂度最坏和最好情况是极端情况,发生的概率并不大。为了更有效的表示平均情况下的时间复杂度,引入另一个概念:平均情况时间复杂度,全称叫加权平均时间复杂度或者期望时间复杂度。(引入各自情况发生的概率再具体分析)多数情况下,我们不需要区分最好、最坏、平均情况时间复杂度。只有同一块代码在不同情况下时间复杂度有量级差距,我们才会区分3种情况,为的是更有效的描...
2019-06-27 08:24:35 358
原创 倾向值分析(协变量选择)
Hirano 和 Imbens 基于预设的临界t值来设定预测变量的方法1.逻辑回归:逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法。逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于二分类。a.逻辑回归公式如下:其中,Y为决策值,x为特征值,e为自然对数。Y(x)的图形如下:对于常见二分类,逻辑回归通过一个区间分布进行划分,即如果Y值大于等于0.5,则属于正样本,如...
2019-06-25 15:01:42 8394
原创 字符串
线性表与字符串操作的不同对于线性表,人们经常考虑的是元素与表的关系、元素的插入和删除。而在考虑字符串时,人们关注的操作不同于一般的线性表,经常需要把字符串作为一个整体使用和处理,考虑许多以整个串为对象的操作。字符串的相关概念新知识点:字典序,字符串s1在字符串s2出现的位置,两种特殊子串(前缀和后缀),串s的n次幂,字符串内容的存储...
2019-06-24 21:41:52 95
原创 神经网络
1.设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定。2.神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向。3.结构图里的关键不是圆圈(代表“神经元”),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的权重(其值称为权值),这是需要训练得到的。4.神经元模型是一个包含输入,输出与计算功能的模型。5.当我们用“神经元”组成网络以后,描述网络中...
2019-06-24 18:59:22 952
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人