自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 收藏
  • 关注

原创 mysql运行时报[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause

2、在mysqld后面加入一句:sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION。在mysql安装目录下找到my.ini文件,右击打开。1、需要修改my.ini文件。3.重启mysql服务器。

2023-03-23 11:08:30 167

原创 Mysql应用安装后找不到my.ini文件

mysql安装后,找不到my.ini文件

2023-03-23 11:04:16 1387 1

原创 6.3-7 医学、强化学习等应用和结论

人工智能之强化学习6.3 医学学习最优的患者治疗规则是治疗效果评估方法在医学领域应用的目标之一。当可以估计出不同可用药物的疗效时,医生就可以据此开出更好的处方。在[121]中,为实现该目标提到了两个挑战:混杂因素的存在和未观察到的混杂因素的存在。尽管从随机实验数据集进行分析是黄金解决方案,但它具有以下局限性: (1)随机实验数据的目标是分析ATE而不是ITE,因此数据量通常很小,从而限制了得出个性化治疗规则的能力。 (2)如第2节所述,进行随机试验通常很昂贵, ...

2021-05-21 21:41:57 425

原创 6 应用领域

6 应用领域人工智能之强化学习因果推理在现实世界中有多种应用。总的来说,因果推理的应用可以分为三个方向: (1)决策评价。这是治疗效果评估的自然应用,因为它与治疗效果评估的目标一致 (2)反事实估计。反事实学习可以极大地帮助与决策相关的领域,因为它可以提供不同决策选择(或政策)的潜在结果。 (3)处理选择偏差。在许多真实的应用程序中,收集的数据集中出现的记录不能代表感兴趣的全部人口。如果不适当地处理选择偏差,将会损害训练模型的泛化性。...

2021-05-21 21:38:50 397

原创 5.2码/包

5.2码/包人工智能之强化学习 在这一部分中,我们学习用于因果推理的可用代码或工具包。表2和表3提供了第3节中提到的方法的代码,其中表2列出了工具包及其支持的方法和语言,表3列出了一种特定方法的开源代码。 表2.用于因果推断的可用工具包工具包 支持方法 语言 链接 Dowhy [124] 基于倾向的分层,PSM, IPW,回归 Python https:/...

2021-05-13 20:51:16 213

原创 5.1 实验准则

人工智能之强化学习在本节中,文章提供相关的实验信息,包括实验中常用的可用数据集,以及前两节中提到的方法的开源代码。5.1可用数据集5.1.1第3节的数据集。由于永远无法观察到反事实的结果,因此很难找到完全满足实验要求的数据集,即它是具有地面真实性ATE(或ITE)的观察性数据集。文献中使用的数据集通常是半合成数据集。某些数据集(例如IHDP数据集)是由随机数据集按照一定的生成过程生成其观测结果,并去除一个有偏子集来模拟观测数据集中的选择偏倚而得到的。一些数据集(...

2021-05-11 21:43:31 877

原创 4.2 毫无疑虑的假设

人工智能之强化学习这一节学习4.2和4.3两个部分。可忽略性假设也称为无混杂假设。给定背景变量X,治疗分配W与潜在结果无关,即W⊥⊥Y(W = 0),Y(W = 1)| X。有了这个毫无疑问的假设,对于具有相同背景变量X的单元,可以将它们的处理分配视为随机的。显然,识别和收集所有背景变量是不可能的,这假设很难满足。例如,在一项观察性研究中,试图估计一种药物的个人治疗效果,而不是随机实验,而是根据一系列因素将药物分配给个人。某些因素(例如,社会经济地位)难以衡量,因此成为隐藏的混杂...

2021-05-11 21:40:28 483

原创 4 放松三个假设的方法

人工智能之强化学习在第3节中,详细介绍了基于三个假设的因果推断方法,即稳定单位治疗值假设(SUTVA),可燃性假设和积极性假设。然而,在实践中,对于一些特定的应用,如社交媒体分析,它涉及到依赖的网络信息、特殊的数据类型(如时间序列数据)或特定的条件(如未观察到的混杂因素的存在),这三个假设并不总是成立的。在这一节中,将讨论试图放松某些假设的方法。4.1稳定单位治疗值假设(SUTVA)假设稳定单位治疗价值假设(SUTVA)指出,任何单位的潜在结果不会随分配给其他单位...

2021-05-11 21:37:41 1072

原创 3.6 多任务学习方法

人工智能之强化学习这一节是第三部分的最后两个方法-多任务学习和元学习。3.6 多任务学习除特质特征等位基因外,治疗组和对照组始终具有一些共同的特征。自然,因果推理可以被概念化为一个多任务学习问题,其中一组用于治疗组和对照组的共享层在一起,而一组分别用于治疗组和对照组的特定层。多任务学习问题中选择偏差的影响可以通过倾向-辍学正则化方案来缓解,该方案通过依赖于相关倾向评分的辍学概率对每个训练示例进行细化。如果受试者的特征在治疗组和对照组的特征空间中属于较差的重叠区域,那么退出概率更...

2021-05-11 21:33:37 444

原创 3.5表征学习方法

3.5表征学习方法人工智能之强化学习本节学习第五个方法-表征学习。3.5.1平衡表示学习统计学习理论中最基本假设是,训练数据和测试数据来自同一分布。但是,在大多数实际情况下,测试数据是从一个仅与训练数据的分布相关但不相同的分布中提取的。在因果推理中,这也是一个很大的挑战。与随机对照试验不同,观察数据中不明确治疗分配的机制。因此,感兴趣的干预并非独立于受试者的属性。例如,在对药物治疗效果的观察性研究中,根据几个因素(包括已知的混杂因素和一些未知的混杂因素)将药物分配给个体。...

2021-05-11 21:28:38 1184

原创 3.4 基于树的方法

3.4 基于树的方法人工智能之强化学习因果推理中的另一种流行方法是基于决策树学习,这是一种预测建模方法。决策树是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,该模型通过学习从数据推断出的简单决策规则来预测目标变量的值。目标变量是离散的树模型称为分类树,其预测误差基于错误分类成本进行度量。在这些树结构中,叶子代表类标签,而分支代表通向那些类标签的要素的并集。目标变量是连续的决策树称为回归树,其预测误差由观察值和预测值之间的平方差来衡量。分类和回归树(CART)...

2021-05-11 21:24:07 581

原创 3.3 匹配方式

人工智能之强化学习如前所述,缺少反事实和混杂因素偏差是治疗效果评估中的两个主要挑战。基于匹配的方法提供了一种估计反事实的方法,同时减少了混杂因素带来的估计偏差。通常,通过匹配估计的第i个unit的潜在结果为:其中和是估计的对照和治疗结果,J(i)是相对治疗组中unit i的匹配邻居。匹配样本的分析可以模仿RCT:可以直接比较匹配样本中治疗组和对照组的结果。在RCT的背景下,人们期望平均而言,治疗组和对照组之间的协变量分布相似。因此,当使用观察数据估计治疗效果时,可以使...

2021-05-11 21:20:42 2239

原创 3.2 分层方法

人工智能之强化学习这一节介绍基于三个假设的因果推理方法中的第二部分:分层方法。分层,也称为子分类或封闭,是一种调整混杂因素的代表性方法。分层的想法是通过将整个组分为同质亚组(块)来调整由治疗组和对照组之间的差异引起的偏见。理想情况下,在每个亚组中,治疗组和对照组在某些变量上对协变量是相似的,因此,可以将同一亚组中的单位视为从随机对照试验中的数据中取样。基于每个子组的同质性,可以通过根据RCTs数据开发的方法来计算每个子组(即CATE)内的治疗效果。在获得每个子组的CATE之后,可...

2021-05-11 21:14:53 586

原创 基于三个假设的因果推断方法1

基于三个假设的因果推断方法1原创人工智能之强化学习第三部分是基于三个假设的因果推论方法。在本节中,介绍现有的因果推断方法,这些方法依赖于第2节中介绍的三个假设。将会根据分类分为7小结进行解决,先来介绍第一种方法-重新加权方法。根据控制混杂因素的方法,将这些方法分为以下类别:(1)重新加权方法;(2)分层方法;(3)匹配方式;(4)基于树的方法;(5)基于表示的方法;(6)多任务方法;(7)元学习方法。3.1重新加权方法由于混杂因素的存在,治疗组和对...

2021-05-10 21:29:01 1354

原创 因果推断综述-基础知识2

这一节是文章中第二部分基础知识。这一节公式较多,会影响阅读时效。2.3假设为了估计治疗效果,在因果推断文献中通常使用以下假设。假设2.1稳定的unit治疗价值假设(SUTVA) 任何unit的潜在结果都不会随分配给其他unit的治疗方法而变化,并且对于每个unit,每种治疗水平都没有不同的形式或版本,从而导致不同的潜在结果。 该假设强调两点: 第一点是每个unit的独立性,即unit之间没有交互作用。在上面的示例中,一个患者的结果不会影响其他患者的...

2021-05-06 21:02:44 1809

原创 因果推断综述-基础知识1

本文2700字,读完需要15分钟在本节中,介绍因果推理的背景知识,包括任务描述、数学概念、假设、挑战和一般解决方案。还给出了一个将在整个综述中使用的说明性的例子。一般来说,因果推理的任务是估计如果采用了另一种治疗方法,结果的变化。例如,假设有两种治疗方法可以应用到患者身上:药物A和药物B。在感兴趣的患者队列中,药物A的治愈率为70%,而在同一队列中,药物B的治愈率为90%。治愈率的变化是治疗(即本例中的药物)对治愈率的影响。上面的例子描述了衡量治疗效果的理想情况:对同一队列应用不同的治...

2021-04-29 21:56:37 1186

原创 因果推断综述-A Survey on Causal Inference

最近读到一篇讲述很全面的综述文献-《A Survey on Causal Inference》,对于接触因果推断不久的同学而言是特别详细的介绍和科普。文献很长,我会分成几部分介绍。目录摘要第一部分:简介第二部分:因果推断基础知识第三部分:基于三种假设的因果推断方法第四部分:实验第五部分:应用摘要几十年来,因果推理是一个跨许多领域的关键研究主题,如统计、计算机科学、教育、公共政策和经济学。与随机对照试验相比,研究方向由于可用数据量大且预算要求低,如今,从观测数据..

2021-04-28 20:53:40 2687

原创 183.从不订购的客户

1、代码2、运行结果3、left join on 左表中返回符合条件的全部数据

2019-08-12 00:33:57 250

原创 182. 查找重复的邮箱

1、代码及结果2、group by 常常和having一起使用,group by代表分组,having是条件

2019-08-12 00:09:19 219

原创 177.第N高的薪水

1、代码2、create function 声明一个函数3、declare 声明一个变量,set 为变量赋值4、limit offset 越过m条数据,读第m+1条

2019-08-11 23:57:38 88

原创 178.分数排名

1、代码2、代码执行结果3、count(distinct )返回指定列的不同值的数目:

2019-08-11 23:22:14 102

原创 181. 超过经理收入的员工姓名

1、代码2、执行结果3、一个经理下对应一个员工,员工和经理是一一对应关系

2019-08-10 14:42:40 117

原创 176. 求第二高的薪水

1、求第二高薪水2、代码执行结果3、知识点:distinct 去重; order by 排序 ;4、limit 和limit offsetlimit 2,1 和limit 2 offset 1含义不同,前者越过二条数据开始读取,读1条数据,后者越过1条数据,读2条limit 2,1 和limit 1 offset 2含义相同,从越过二条数据,读1条数据...

2019-08-10 13:46:39 60

原创 175. 组合两个表

1.2.考察知识点:left join、right join 及 onleft join:将返回左表的所有行,如果左表的某行在右表中没有匹配行,则在相关联的结果集行中右表的所有选择列表列均为空值。 3.测试用例4. 代码执行结果...

2019-08-07 06:51:34 64

原创 14.4 usda食品数据库

1、对JSON数据进行规整、读取2、将所有食物的营养成分整合到一个大表中:首先数据转换成DataFrame,并添加一个表示编号的列;然后将该DataFrame添加到一个列表中,最后通过concat将这些东西连接起来...

2019-07-20 15:33:09 1031

原创 14.3 1880-2010年间全美婴儿姓名

1、这是非常标准的逗号隔开的文件,使用pandas.read_csv读取2、年度出生率3、

2019-07-20 15:06:27 265

原创 14.2 movielens

1、数据集是6000名用户对4000部电影的100万条 评论,是dat格式文件,可以通过pandas.read_table将各表分别读到一个pandas DataFrame对象中2、将三个表数据合并到一个表中,先用pandas的merge函数合并两个,再跟另一个合并3、按性别计算每部电影的平均得分,使用pivot_table4、过滤掉不足某个数的电影,先对title(电影名...

2019-07-20 14:38:28 335

原创 14.1 来自Bitly的USA.gov的数据(2)

1、用pandas对时区进行计数2、取出前10个时区并计数3、先将缺失数据填充,再可视化这个数据;fillna对缺失数据进行填充、seaborn对数据进行可视化4、按Windows和非Windows用户对时区数据进行分解先移除缺失值再根据a值计算各行是否含有Windows值对数据进行分组,用size计数...

2019-07-20 12:47:09 437

原创 第14章 14.1 来自Bitly的USA.gov数据(1)

1、数据是每小时更新一次,格式是JSON形式,下面是只读取文件中的第一行2、可以使用Python内置或第三方模块将json字符串转换成Python字典对象3、用纯Python代码对时区进行计数,采样的计数办法是在遍历时区的过程中将计数值保存在字典中...

2019-07-20 11:48:20 168

原创 13.3 statsmodels介绍

1、statsmodels是拟合统计模型、进行统计试验和数据探索可视化的库,但没有贝叶斯方法和机器学习模型2、有两种接口:基于数组和基于公式;可以通过api模块引入fit方法返回一个回归结果对象...

2019-07-20 00:31:39 1363

原创 13.2 用Patsy创建模型

1、patsy适合描述statsmodels的线性模型,其公式是一个特殊的字符串语法,表示为模型设计矩阵2、patsy.dmatrices函数接收一个公式字符串和一个数据集,为线性模型设计矩阵3、Pasty对象可以直接传递到算法,如下面的最小二乘回归4、在Pasty公式中使用非数值数据,会默认转变为 虚变量...

2019-07-19 23:41:35 896

原创 第13章 13.1pandas与模型代码的接口

1、模型开发的通常工作流是使用pandas进行数据加载和清洗,然后切换到建模库进行建模2、开发模型 重要的一节是特征工程,特征工程描述的是从原始数据集中提取信息的任何数据转换或分析3、使用.values将DataFrame转换为Numpy;反转的转换使用ndarray4、若使用列的子集,可使用values作索引,然后使用loc操作...

2019-07-19 22:59:47 79

原创 12.2 链式编程技术

1、DataFrame.assign方法是一个df[k]=v形式的函数式的列分配方法,它不是就地修改对象,而是返回新的修改过的DataFrame2、管道方法-pipe使用自己 的函数或第三方库时会用到管道方法...

2019-07-19 22:13:04 85

原创 第12章 12.1 分类数据

1、将分类数据进行one-hot编码,使用pandas方法的get_dummies函数

2019-07-19 21:34:09 96

原创 11.7 移动窗口函数

1、在移动窗口上计算的各种统计函数称为移动窗口函数

2019-07-19 06:45:19 287

原创 11.6 重采样及频率转换

1、重采样指的是将时间序列从一个频率转换到另一个频率的过程;将高频率数据聚合成低频率数据成为降采样;将低频率数据转换成高频率数据成为升采样;降采样:使用pandas对象的一个resample方法可以分组数据然后调用一个聚合函数通过求和的方式将这些数据聚合到5分钟内2、金融领域数据中一种时间序列聚合方式是使用ohlc,一次可以获得第一个值,最后一个值、最大值及最小值3、升采样不需...

2019-07-19 06:41:12 765

原创 11.5 时期及其算术运算

1、时期表示的是时间区间。Period类表示的就是这种数据类型。2、period_range可以创建规则的时期范围3、时期的频率转换,使用asfreq4、按季度计算的时间频率5、不同列中的数据可以传入PeriodIndex,可以合并并生成DataFrame的一个索引...

2019-07-19 06:24:06 114

原创 11.4 时区处理

1、时区时间是以UTC偏移量表示的,时区信息来自第三方库pytz,通过这个库可以调用Olson数据库(汇编了世界时区信息)2、从pytz中获取时区对象,使用pytz.timezone3、从单纯到本地化的转换通过tz_localize,本地化到某个特定时区后可以使用tz_convert将其转换到别的时区4、操作时区意识型Timestamp对象独立的Timestamp对象也能从单纯...

2019-07-19 06:05:12 224

原创 11.3 日期的范围、频率以及移动

1、生成日期范围使用pandas.date_range根据指定的频率生成时间序列;默认固定频率是填只有开始日期或只有结尾日期的,需指定长度也可以指定每月最后一个工作日、每周的第几个星期等2、频率和日期偏移量在基础频率前加上一个整数即代表倍数...

2019-07-17 06:52:24 159

原创 11.2 时间序列基础

1、 最基本的时间序列类型是以时间戳为索引的Series2、不同索引的时间序列间可进行算术运算 ,t[::2]每隔两个取一个3、较长的序列可以进行切片,部分切片、按年切片或按月 切片等都可以运算4、带有重复索引的时间序列5、通过is_unique检查是否唯一,对重复的时间序列进行索引,重复的产生切片,不重复的产生标量值6、对有重复的数据集进行聚合,需使用grou...

2019-07-17 06:33:17 279

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除