01 统计学与试验设计思想

一、简介

(一)从认知世界以及统计学与数学的关系和区别的角度来看统计学

1、对目前关于统计学一个普遍定义的分析

统计学是一门研究如何收集、整理和分析数据的科学。
目前对统计学研究内容的描述,有合理性,但缺乏对其宗旨和目标性的刻画,因而可能造成对这门科学有随意性的误解,使得对统计学研究缺乏明确的好坏标准。
我们所说的数据应该只有和具体对象结合才有意义,不能把抽象的数据作为研究对象,因为抽象的数据是没有实际意义的。

2、对什么是统计学的一个基本看法

统计学是人类认知世界的三门重要公共基础科学之一,即除了哲学、纯粹数学之外,就是统计学。
哲学是通过研究对世界总的看法和思维逻辑方式来认知世界。
数学是通过研究存在与现实或思维中的数量、符号、图形等抽象对象的形式逻辑关系建立推理基础来认知世界。
统计学是通过研究对世界的观察得到信息及对信息的分析来认知世界。包括建立如何观察、分析和推断的思维逻辑、理论和方法。

3、三大共用基础科学和实用科学的关系以及它们之间的关系

三大基础科学是各个门类实用科学的共用科学。
三门科学各自具有相对独立性。
三门科学是相互支撑和紧密联系的。
特别的,数学和统计学是有区别的但又联系紧密。

4、和数学一样,统计学也具有很强的通用性和基础性。

各门有具体实际对象的学科都会用到统计学,因为它们都要通过观察来认识各自的具体对象,而统计学恰好是提供如何通过观察来认知世界的通用理论和方法的。

5、统计学要用数学但不只是应用数学:

思维方法体系的不同:以接近真实存在为目标
认识世界的角度不同:直接依赖对世界的观察
大量统计思想并不源于数学:还源于观察世界得到的知识

6、统计学几乎被用到其它所有科学,包括纯粹数学在内

7、统计学与数学的区别:

认知的严密性和知识的获得
统计学是科学推断和学会学习的科学

8、著名统计学家C.R.Rao对统计学的看法

All knowledge is, in the final analysis, history.
All sciences are, in the abstract, mathematics.
I venture to add: All methods of acquiring knowledge are statistics.

9、统计学和数学的历史联系:是先有数学后有统计学吗?

10、对统计学定义的考虑

统计学是一门研究如何有效地沟通对世界的观察得到信息(各种形态的数据资料)来认识世界的通用科学,包括如何收集、整理和分析数据以及进行推断的思维逻辑、理论和方法。

11、对统计学发展的一点期望

(二)试验设计简介、基本原则和单因子试验

1、试验设计在统计学中的地位

永远的主流。
试验设计是有效观察世界获得信息和分析数据不可缺少的手段和工具。
试验设计应用十分广泛:几乎用于所有的科学实验,包括工业、农业、生物医学、工程技术、航空航天、物理、化学、气象、环保、社会调查、经济、金融等等。

2、历史回顾

R.A.Fisher 20年代开始在英国 Rothamsted 农业试验站的开创性的工作。
第二次世界大战后, G.E.P.Box 的建模和优化,1978年的代表作,中心复合设计,效应曲面设计。
上世纪50年代,J.Kiefer 开拓回归分析问题的最优设计研究,回归设计。
近代,G.Taguchi 用稳健参数设计建立产品质量改进工程:田口方法。

3、意义

引例: 用天平称量4个物品,如何使精度最高?
a. 1次1个,y1=w1+e1, y2, y3, y4,误差为σ^2
b. D-最优,误差为¼σ^2
c. 还有A-最优,G, E。

4、试验设计研究分类

在这里插入图片描述

5、计划和实施试验的系统方法

(1)目标阐述:试验的目标必须阐述清楚
(2)选择响应:响应即试验的观察或结果。响应目标特征主要考虑三大类型:望目、望大和望小。
望目:越接近某一目标越好
望大:越大越好
望小:越小越好
(3)选择因子和水平:因子即实验中所研究的变量,因子的水平(处理)即因子的水平组合
(4)选择试验计划:为获取真实信息,这一步是十分重要的。
(5)实施试验:使用计划矩阵
(6)分析数据
(7)做推断,提建议:基于数据分析,需要得出某些推断或结论

6、因子分析试验基本概念

试验单元:是试验载体的通用术语
定量因子和正交多项式

7、基本原则

重复
随机化
分区组

减少处理因子效应误差的一个原则:能分区组分区组,不能分区组随机化

8、试验数据分析

(1)一般线性模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(2)方差分析
在这里插入图片描述
ps:参数约束
零和约束 sum(Ti)= 0
基线约束 Ti = 0

(3)多重比较
在这里插入图片描述
方法:Bonferroni 方法,Tukey 方法
区别:临界值选取不同
(4)残差分析:模型假设的评估

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
设计思想: 1. 数据获取:通过爬虫或者购买数据等方式获取二手房房价数据; 2. 数据清洗:对获取的数据进行数据清洗,包括去重、缺失值处理、异常值处理等; 3. 特征工程:对数据进行特征提取和特征处理,包括特征选择、特征变换、特征构建等; 4. 模型选择:选择合适的统计学模型、机器学习模型或深度学习模型; 5. 模型训练:使用训练数据对模型进行训练; 6. 模型评估:使用测试数据对模型进行评估,评估指标包括均方误差、平均绝对误差、R2 等; 7. 模型优化:对模型进行优化,包括参数调整、特征调整、模型融合等。 实验原理: 1. 线性回归:线性回归是一种基本的统计学方法,在二手房房价预测中也被广泛应用。线性回归模型假设自变量和因变量之间具有线性关系。 2. 决策树:决策树是一种基于树结构进行决策的方法,它对于非线性关系的数据具有很好的拟合能力。在二手房房价预测中,决策树可以使用连续型变量和分类型变量进行拟合。 3. 随机森林:随机森林是一种集成学习方法,它通过随机选择特征和样本,在多个决策树上进行预测,最终将预测结果进行平均或投票。随机森林在二手房房价预测中表现出了较好的泛化能力。 4. 神经网络:神经网络是一种基于人工神经元网络的计算模型,它通过反向传播算法对网络中的权值进行学习。在二手房房价预测中,神经网络可以利用深度学习模型处理高维数据和非线性关系的数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值