- 博客(15)
- 收藏
- 关注
原创 机器学习——LightGBM模型的SHAP和LIME可解释性分析对比详解完整示例 --python(2)
这期主要就是对机器学习的结果查看,主要是用shap进行模型特征重要性的查看。后面还有一个机器学习的 LIME,他的作用是跟shap差不多的,但是包含的含义还是有一点区别的。
2025-12-05 09:08:01
589
原创 ATAC-seq学习记录--------------R语言版本 实战(一)
在R中也可以跑ATAC了,主要是上游分析也可以跑,惊讶把,来来,咱来跑一下,看一下咋样。
2025-11-25 10:24:10
429
原创 深度学习(Deep Learning)详解
深度学习的核心是 “用深度神经网络自动学习数据的层次化特征”,通过 CNN、RNN、Transformer 等架构,解决了图像、文本、序列等复杂数据的处理难题,已成为 AI 技术落地的核心驱动力。从原理上,需掌握 “感知机 - 神经网络 - 前向 / 反向传播” 的基础逻辑;从应用上,需结合具体任务选择合适架构,并通过数据预处理、正则化等技巧提升模型效果。未来,随着小样本学习、可解释性等技术的突破,深度学习将在更多关键领域实现更广泛的应用。
2025-11-17 14:39:43
1596
原创 机器学习 LightGBM模型的SHAP和LIME --python实战(1)
在开始机器学习之前,要有一个性能基准(Baseline),任何更复杂的模型都应该要超越这个基准才有价值。这边是将将30%的数据划为测试集,70%为训练集。大家可以自己调整的,一般训练集是0.6-0.8,具体的可以查看数据以及相关的文章来确定。这边是将将30%的数据划为测试集,70%为训练集。大家可以自己调整的,一般训练集是0.6-0.8,具体的可以查看数据以及相关的文章来确定。一般机器学习的默认参数不一定最适合我们的特定数据集。导入 数据以及查看,然后下面主要就是看一下数据的分布。
2025-11-12 11:44:59
729
原创 空间基因表达(空间转录组)学习记录:数据分析工具汇总
10x Genomics 尚未测试列出的所有工具,也不保证其功能或性能。客户全权负责独立验证列出的所有第三方软件工具的适用性、性能和许可条款,并应将所有问题直接提交给相应的工具开发人员。这个是最重要的,一些空间方面的工具,以及文章和GitHub网址都给出来了,非常的全面,并且也有权威性,大家在选择工具时,可以自行选择。以下是上表中提到的工具的摘要。此列表的目的是提供快速链接以方便您。
2025-11-06 17:55:56
1013
原创 GBD 教程 新手必看:注册流程+数据获取完整教程
全球疾病负担(Global Burden of Disease, GBD)研究是全球规模最大、最权威的健康评估项目之一,由华盛顿大学IHME主导,联合204多个国家、逾12,000名研究人员共同参与。项目始于1991年,致力于量化不同国家和时期的疾病、伤残与风险因素对人群健康的影响。GBD每年更新数据,已发布至2023年(现阶段仅对协作组开放),并自2015年起开放分析代码与多种可视化工具,提升研究透明度。
2025-11-05 10:36:14
1355
原创 ATAC-seq学习记录----------------------------实战(二)
由于Tn5转座酶以二聚体形式结合并插入两个相隔9个碱基对的接头,因此所有比对到正链(+ strand)的读段向右偏移+4个碱基对,所有比对到负链(– strand)的读段向左偏移−5个碱基对只有在需要精确到单个碱基分辨率的插入位置时,例如转录因子结合位点(TF motif)足迹分析(footprinting),偏移才是至关重要的。教程并没有跑,因此我也没有跑,直接跳过好了。
2025-11-03 17:23:55
1959
原创 NHANES数据库练习 数据分析之————基线表的绘制(加权与未加权数据)
接下来是文章的开头:基线表,一般所有的临床文章和数据库文章都要有这个基线表,他的重要性不言而喻,因此下面是对加权和未加权的基线表绘制。tips:这个包对变量不进行正态性检验的,大家如果有需要,自己先检验一下正态性,符合的变量直接用这个就行。前文已经对NHANES数据库的数据进行了清洗,也是最困难的地方,后面的分析就会比较轻松简单了。
2025-10-30 16:55:52
186
原创 CHARLS数据库使用全攻略:从零开始解锁CHARLS数据库
它旨在研究中国45岁及以上中老年人的健康、养老、经济状况及社会支持等问题,为相关政策的制定提供科学依据。发布说明介绍了CHARLS 2015年开展的第三轮全国调查的总体流程,包括设计、实施和数据发布,旨在帮助数据用户更好地理解和使用这套数据;体检问卷包括血液、呼吸功能、握力、平衡能力、步行速度、重复从椅子站起的时间测试、身高测量、手臂长度测量、膝高测量、体重测量和腰围测量;家户问卷包括基本信息、家庭、健康状况和功能、医疗保健与保险、工作、退休和养老金,收入、支出与资产和住房情况;
2025-10-29 11:52:08
1614
原创 NHANES数据库实操 数据分析之----------数据清洗
按照自己需要研究的,自己去进行选择,并且把XPT数据下载到一个文件夹,或者像这样整理一个表格记录一些自己下载的数据内容,像这样。
2025-10-28 11:04:43
663
原创 ATAC-seq学习记录--综述:数据分析工具大全
ATAC-seq 全称为:the Assay for Transpose Accessible Chromatin using sequencing,翻译为。
2025-10-27 18:48:28
707
原创 ATAC-seq学习记录----------------------------实战(一)
网址:https://yiweiniu.github.io/blog/2019/03/ATAC-seq-data-analysis-from-FASTQ-to-peaks/
2025-10-27 18:47:01
2003
1
原创 NHANES数据库简介-----------(1)
NHANES(National Health and Nutrition Examination Survey)是美国一项具有代表性的全国性健康和营养调查项目,旨在通过综合性的健康和营养评估来监控美国民众的健康趋势和生活方式的变化。它涵盖了人口统计学信息、营养摄入、实验室测试、体格检查以及生活方式和社会经济调查等多个领域。官方网站:在研究设计吸取全球专家意见。收集400+主题,主要包含人口统计数据、膳食数据、检查数据、实验室数据和问卷数据。以2年为更新周期,且围绕当前关注重点。
2025-10-27 17:57:54
1236
原创 转录组生信分析的一些概念知识
本文总结了基因表达分析的关键技术要点,包括:1)芯片与RNA-seq的核心差异在于检测原理和范围;2)bulk RNA-seq与单细胞RNA-seq的根本区别在于检测单位;3)三大数据库GEO、TCGA和ArrayExpress的特点与用途;4)Illumina等主流平台的技术差异;5)表达矩阵的构建与FPKM/TPM/counts的区别;6)上下游分析的核心任务;7)limma与DESeq2的适用场景;8)差异分析的过滤标准;9)批次效应的处理方法;10)表达数据与临床信息的整合方法。
2025-10-27 16:04:53
881
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅