![](https://img-blog.csdnimg.cn/c727511922554ed1ae51ac34a88db308.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据科学方案及方法探讨
文章平均质量分 74
拥有方法+论指导才能高屋建瓴,业务的透彻理解是数据科学的基石。数据驱动的数据挖掘核心就是要把业务梳理清楚,把宏观的实际的业务逻辑转化为数学问题或数据问题。清晰地知道问题的本质,问题的来源、问题的流向、问题的的核心点等,才能精准地把握问题,有的放矢。
Data+Science+Insight
毕业于中国科学院大学智能计算专业。研究方向为,数据挖掘、机器学习、深度学习等。深度参与了多项数据挖掘、计算机视觉以及自然语言处理相关项目,例如,社会计算、异常分析、聚类分析、预测分析、序列标记、语言生成、OCR、图像分类+检测+分割等。现任某茅数据科学家,负责数据科学团队的管理及项目实施。曾就职于中国信科集团,负责大数据与机器学习组的管理及项目实施。曾参与国家级医疗大数据平台机器学习项目的开发和建设、构建了完整的数据链路、特征池、模型仓库、迁移中心、数据应用、数据服务Pipeline,并与AWS team基于AWS云服务合作开发大型工业互联网项目,积累了工业互联网模型构建、部署、监控实战经验。
展开
-
异常检测系统方案
异常检测系统方案1,理赔系统简如今,随着新一代保险消费者的崛起,保险消费者对保险产品和服务质量、效率也提出了更高的要求。然而,传统保险公司在投保、理赔、运营各个核心环节仍存在着投保操作繁琐、理赔难等诸多痛点。而人工智能为这些痛点的解决带来了希望。理赔是在保险标的发生保险事故而使被保险人财产受到损失或人身生命受到损害时,或保单约定的其它保险事故出险而需要给付保险金时,保险公司根据合同规定,履行赔偿或给付责任的行为,是直接体现保险职能和履行保险责任的工作。保险理赔是保险人在保险标的发生风险事故后原创 2023-10-24 10:59:20 · 246 阅读 · 0 评论 -
睡眠评估系统方案
睡眠评估系统方案1.睡眠评估系统简介根据华为运动健康发布的中国睡眠报告数据显示69.4%的用户睡眠质量不佳,中国人普遍面临睡眠问题,而其中平均的睡眠时间6.5小时,远远低于相关机构建议的8小时合理睡眠;夜间清醒的次数为1.8次,也是一个很严重的问题。此外中年危机的原因也使得中年人在所有调查人群中成为了最多梦的群体,年轻人群体则入睡普遍较晚。再结合淘宝和京东等电商平台的数据,睡眠仪、褪黑素的热卖,也从另一个角度说明了当下睡眠问题给人们带来的困扰,同时人们也更加的关注自己的健康,自己的睡眠质量。原创 2023-10-24 10:58:09 · 308 阅读 · 0 评论 -
多维度客户分群系统方案
多维度客户分群系统方案多维度客户分群系统简介1.1聚类算法简介企业在进行客户分析时,往往希望通过了解不同的客户具有什么不同的特征来实现以下三种目的:精细营销活动,形成可控的目标客户; 找出每个细分市场的客户特征和需求,并制定针对性的营销计划; 发现新的业务发展方向。因此,客户分群在商业分析中往往具有巨大的商业应用价值,而其中聚类分析法是客户分群最常见的实现方式之一。这种方法的目的是使客户在组内高度相似而不同的客户群体有着明显的不同,从而实现客户分群的目标。客户管理者们通常会基于.原创 2023-10-24 10:57:50 · 288 阅读 · 0 评论 -
药物应用真实世界研究方案+思路方法
药物应用真实世界研究一、研究背景随着人口老龄化的加剧,冠状动脉粥样硬化性 心脏病( 冠心病) 的发病率和病死率有逐年升高的趋势。他汀类药物,又称3-羟基-3-甲基-戊二酰辅酶A还原酶抑制剂,是治疗血脂异常的主要药物,血脂异常是心血管疾病的主要危险因素。他汀类药物可降低低密度脂蛋白胆固醇( LDL-C) ,可以预防首次和复发性心血管事件发生,这类药物已经作为治疗高胆固醇血症和混合性高脂血症的首选药物,在我国血脂异常患者的慢病管理中,这类药物也是常用药物。尽管他汀类药物是安全的,并且大多数.原创 2023-10-24 10:57:25 · 303 阅读 · 0 评论 -
基于变分自动编码器(VAE)的协同过滤算法用作疾病预测方案
基于变分自动编码器(VAE)的协同过滤算法用作疾病预测方案背景技术近年来随着信息技术和人工智能的发展,对预测某种特定疾病的研究已经有了相当广泛的应用,尤其以神经网络为核心的深度学习技术突飞猛进. 由于其高效的特征提取能力和非线性的学习能力, 越来越多的研究将深度学习应用于在各类疾病的诊断预测上并表现出非常令人满意的结果。Miotto,R.等人研究并推导出了“深度病人”模型表示法,该方法在特定疾病预测任务中具有很高的准确性。人们已经开始利用适用于结构化和非结构化的数据来构造卷积神经网络(C原创 2023-10-24 10:56:13 · 319 阅读 · 0 评论 -
基于关联规则的协同过滤疾病预测方案
基于关联规则的协同过滤疾病预测方案背景技术传统上,医师或医生使用风险计算器来评估疾病发展的可能性。这些计算器使用人口统计学、医疗条件、生活常规等基本信息来计算发展某种疾病的可能性。这种计算是使用基于方程的数学方法和工具完成的。这里面临的挑战是使用类似的基于等式的方法的低准确率,而且该种方法需要非常大量全面的数据进行细致的统计分析。但随着近年来大数据、机器学习、数据挖掘以及人工智能等技术的发展,疾病预测的结果可能会更加准确,而且更加方便快捷。医疗机构、保险集团、医生等正在与统计学家和计算机科学原创 2023-10-24 10:55:13 · 239 阅读 · 0 评论 -
过程控制机器学习模型+配方法进行参数推荐方案
过程控制机器学习模型+配方法进行参数推荐方案背景:当前过程控制问题分为步骤:A、B、C、D、E几个过程,我们需要预测D过程中化合物合成的可靠性(0为可靠、1为不可靠、合成的过程中如果系统参数出现波动,可能造成合成失败);过程间具有依赖关系;过程内部的数据既有时序特征也有固定特征;问题:无论我们构建机器学习模型还是时间序列预测模型,如果单纯把固定特征添加到时间序列中都是无济于事的,因为对于D过程的所有时间序列数据该固定特征都是相同的,起不到任何区分性或者判别性;解决的问题:原创 2023-10-24 10:53:38 · 231 阅读 · 0 评论 -
构建跨季节机器学习模型:自定义xgboost模型损失函数方案
构建跨季节机器学习模型:自定义xgboost模型损失函数构建跨季节机器学习模型:许多机器学习模型具有季节性;基于问题的迭代分析,我们可能需要构建自定义的损失函数;在自定义损失函数中计算梯度和嗨森矩阵;注意:使用xgboost包的xgboost API而不是使用sklearn类似的API#自定义损失函数;#weight其实就是不同季节对应的不同的权重参数,例如,以温度预测模型为例,个别地域,温度在秋天和春天波动较大,那么我们可以加大对对应月份的训练样本的惩罚力度原创 2023-10-24 10:56:36 · 314 阅读 · 0 评论 -
差分特征、差分作差、过程积分特征对于过程控制机器学习模型的价值
差分特征、差分作差、过程积分特征对于过程控制机器学习模型的价值参考背景:当前过程控制问题分为步骤:A、B、C、D、E几个过程,我们需要预测D过程中化合物合成的可靠性(0为可靠、1为不可靠、合成的过程中如果系统参数出现波动,可能造成合成失败);过程间具有依赖关系;过程内部的数据既有时序特征也有固定特征;#差分特征Shift是在特征较少的情况下构建更多特征的通用手段且根据业务经验。而且有的业务系统就是依赖于上一个或者前几个相关的状态;例如:过去3天内的温度变化是缓慢稳定.原创 2023-10-24 10:54:17 · 263 阅读 · 0 评论 -
构建两阶段加权分类预测模型
构建两阶段加权分类预测模型背景:当前过程控制问题分为步骤:A、B、C、D、E几个过程,我们需要预测D过程中化合物合成的可靠性(0为可靠、1为不可靠、合成的过程中如果系统参数出现波动,可能造成合成失败);过程间具有依赖关系;过程内部的数据既有时序特征也有固定特征;问题:无论我们构建机器学习模型还是时间序列预测模型,如果单纯把固定特征添加到时间序列中都是无济于事的,因为对于D过程的所有时间序列数据该固定特征都是相同的,起不到任何区分性或者判别性;解决方案:构建两阶段加权分类预测模型(预测原创 2023-10-24 10:52:00 · 251 阅读 · 0 评论 -
信息标准化系统将非标准化的数据关联到标准化数据的系统提高数据可用性、准确性、安全性设计方案
信息标准化系统将非标准化的数据关联到标准化数据的系统提高数据可用性、准确性、安全性目录信息标准化系统将非标准化的数据关联到标准化数据的系统提高数据可用性、准确性、安全性#概述#运行环境#系统特色#核心技术#数据表设计# 数据导入# 初审#复核# 撤销#总结#概述目前中国国内的XX信息标准化程度低,由于各地方XX信息化差异、不同的HIS厂商以及标准执行上的差异,导致XX数据在数据结构,数据内容上,都体现地区的差异化,甚至在同地区的不同医院都有巨大原创 2023-10-24 10:47:45 · 225 阅读 · 0 评论 -
消化系统健康评分及健康反馈系统设计方案
消化系统健康评分及健康反馈系统设计方案目录消化系统健康评分及健康反馈系统设计方案#方案概要#本文提供的技术方案#方案概要当前的现有的健康风险评估系统关注点在人的整体健康风险评估,偏重于日常生理指标检测、慢性病检测及职业病、工伤登记等病理性疾病风险评估。并且客户端依赖于不便于随身携带的电脑设备,数据的更新频率就大大的降低了,用户健康的追踪效果也因此明显下降。本文专注于消化健康领域,通过手机端邀请用户回答问卷的形式,从体态、精神状况、生活习惯、病史四个方面综合分析用户原创 2023-10-24 10:47:00 · 240 阅读 · 0 评论