蛋白质与肥胖(BMI)的关联分析

论文标题及地址:Conventional and genetic associations of adiposity with 1463 proteins in relatively lean Chinese adults

Tips:

蛋白组学是研究生物体内蛋白质组成、结构和功能的科学领域。将蛋白组学应用于不同领域的研究时,可以根据研究的目的和应用领域进行分类。Cardiometabolic、Inflammation、Neurology和Oncology是四个常见的蛋白组学研究方向,分别涉及心脏代谢、炎症、神经学和肿瘤学。

1. **Cardiometabolic(心脏代谢学):**
   - 研究心血管系统和代谢相关的蛋白质变化,特别关注与心血管疾病和代谢疾病相关的蛋白质。
   - 可以帮助了解心血管疾病的发病机制、早期诊断和治疗靶点。

2. **Inflammation(炎症学):**
   - 研究与炎症过程相关的蛋白质,探讨炎症的分子机制以及与疾病如风湿性关节炎、炎症性肠病等的关系。
   - 可以帮助发现炎症标志物,为炎症性疾病的诊断和治疗提供信息。

3. **Neurology(神经学):**
   - 研究与神经系统功能和疾病相关的蛋白质,包括神经退行性疾病、神经系统损伤等。
   - 有助于理解神经系统疾病的分子机制,为治疗策略的开发提供基础。

4. **Oncology(肿瘤学):**
   - 研究与肿瘤发生、发展和治疗相关的蛋白质变化。
   - 可以发现肿瘤标志物,提供肿瘤诊断、分型和治疗的新途径。

通过这些专门领域的研究,蛋白组学有助于深入了解不同疾病的分子机制,为个性化医学和精准治疗提供更多的信息。不同的研究方向有助于专注于特定疾病领域,以更好地理解和应对相关疾病。

方法&结果

BMI-GS

统计分析

观察分析(observational analysis)

方法
  • 蛋白水平:标准化(÷标准差),连续型变量
  • 线性回归——BMI <->蛋白(年龄、年龄²、性别、研究区域、禁食时间、环境温度、plate ID和病例亚队列):“针对每个生物标志物,估计了与脂肪水平每提高1个SD(标准差)相关的调整差异和95%的置信区间。”

Tips:

### 计算置信区间:
1. **参数估计:** 使用多元线性回归模型,估计与脂肪水平每提高1个标准差相关的效应,得到参数估计值(通常是回归系数)。
2. **计算标准误差:** 计算效应的标准误差,它反映了估计值的不确定性。标准误差通常是模型输出的一部分,也可以通过相关的统计软件计算得到。
3. **计算置信区间:** 使用标准正态分布(或 t 分布,具体取决于样本量和分布情况),根据所选的置信水平(例如95%),计算置信区间。置信区间的计算通常采用以下公式:

CI=estimation \pm (SD \times critical \quad values)
### 统计检验:
1. **假设检验:** 设定假设,通常是零假设(H0:效应等于零)和备择假设(H1:效应不等于零)。
2. **计算 t 统计量:** 在多元线性回归中,t 统计量用于检验回归系数是否显著不等于零。计算公式为:
  t = \frac{estimation}{SD}
3. **查找临界值:** 在 t 分布表中查找与所选显著性水平(例如0.05)相对应的临界值。
4. **决策:** 如果 t 统计量的绝对值大于临界值,拒绝零假设,认为效应在统计学上显著。否则,接受零假设。

  • 形状:“为了了解BMI五分位数内个体蛋白质与BMI的关系形状,采用多元线性回归计算了每个BMI五分位数内个体蛋白质的调整均值,并将这些均值绘制在各五分位数内的均值BMI上。这有助于可视化不同BMI水平下个体蛋白质水平的变化趋势。”
结果
  • FDR<0.05:826+,270-

  • Bonferroni校正后:625+,173-
  • 线性相关(在每个面板中选择前5个蛋白,包括4个阳性蛋白和1个逆蛋白)

  • 正相关蛋白:leptin, FABP4, SSC4D and CDHR2, and FURIN
  • 负相关蛋白:IGFBP2, IGFBP1, PON3, WFIKKN2 and LEPR

遗传分析

方法
  • 两阶段最小二乘估计

  • 与观察分析:“通过使用遗传信息,计算了每提高3.6 kg/m2 BMI的相关性,以便与观察性分析进行比较”

  • 形状:1)GS-free BMI分位数分层:非线性孟德尔随机化分析;2)比率法:每个分层的因果估计;3)分段函数斜率:2)中比率,偏置:人群平均BMI;4)置信区间(CIs):bootstrapping——GS & 蛋白;5)χ2值:趋势和二次方测试

Tips:

### GS-free BMI:

在进行基因分析时,通过对BMI(身体质量指数)与GS(遗传分数)进行回归分析,得到的残差(residuals),然后用这些残差来计算GS-free BMI。这个GS-free BMI反映了个体BMI在考虑了遗传因素后的实际水平,相当于剔除了基因对BMI的影响。这有助于更精细地理解BMI与其他因素之间的因果关系。

### 比率法:

通过将中间变量(GS)与最终结果(蛋白质)之间的效应比较,相对于中间变量与总体结果之间的效应,来估计中间变量对最终结果的因果影响。这种方法的核心思想是通过遗传变异的随机分配来模拟因果推断,提高了因果关系的可靠性。其具体计算步骤如下:
1. **选择总体BMI-GS关联估计:** 总体BMI-GS关联估计被用作比率法的分母。这个估计值表示在整个样本中BMI与GS之间的关系。
2. **计算GS与每个蛋白质的关联估计:** 对于每个蛋白质,计算GS与该蛋白质的关联估计,作为比率法的分子。这个关联估计表示GS与蛋白质之间的关系。
3. **计算比率:** 将第2步中得到的GS与蛋白质的关联估计除以第1步中的总体BMI-GS关联估计。这个比率就是比率法的因果估计。

Causal \ Estimate = \frac{Effect \ of \ GS \ on \ Each \ Protein}{Overall \ Effect \ of \ BMI-GS \ Association}
这个比率表示,在考虑了总体BMI-GS关联的情况下,GS对每个蛋白质的影响相对于GS对整个BMI-GS关联的影响。如果比率显著不等于1,就可以认为GS对蛋白质有独立的因果效应。

### Bootstrapping:

自举法通过从原始样本中重复抽取子样本(有放回抽样),计算每个子样本中的估计值,然后通过这些估计值的分布来估计整体估计值的不确定性。

### 趋势和二次方测试:

计算趋势和二次方测试得到χ2值,通常用于评估因果估计在GS-free BMI每个分层中是否呈现出趋势或曲线关系的显著性。以下是相关步骤:
1. **计算趋势测试(Trend Test):** 对于每个蛋白质,可以通过对GS-free BMI分层的因果估计进行线性趋势测试,以评估因果估计是否随着GS-free BMI的变化呈现出线性趋势。通常,这涉及对GS-free BMI分层进行顺序编码,并进行线性回归,得到一个趋势估计和相应的标准误差。趋势估计除以标准误差得到z统计量,然后z统计量的平方得到趋势测试的χ2值。
2. **二次方测试(Quadratic Test):** 除了线性趋势,也可能存在二次方关系,即因果效应随着GS-free BMI的变化呈现出曲线形式。进行二次方测试时,对GS-free BMI进行平方编码,并进行二次方回归,得到二次方估计和相应的标准误差。将二次方估计除以标准误差得到z统计量,然后z统计量的平方得到二次方测试的χ2值。
3. **显著性判断:** 对于趋势和二次方测试,得到的χ2值可以与临界值或p值进行比较,以确定趋势或二次方关系是否显著。通常,χ2值大于临界值或对应的p值小于显著性水平(例如0.05)时,可以拒绝零假设,认为趋势或二次方关系是显著的。
总体而言,趋势和二次方测试有助于检测GS-free BMI分层中因果估计是否随着GS-free BMI的变化而呈现出趋势或曲线关系,从而更全面地理解变量之间的复杂关系。

结果
  • FDR<0.05:270+,37-
  • Bonferroni校正后:43+,12-

  • 与观察分析:其中279 (91%)一样,242+,34-(除了CKMT1A_CKMT1B, MMP12 and SLAMF7在观察分析中为-)

  • 趋势测试:线性(P_{trend} < 0.05

  • 二次方测试:无显著线性关联的1156个蛋白中,91 (7.9%)与BMI二次相关

  • 正相关蛋白:FABP4, leptin, GOLM2, LSP1 and ADAMTS15
  • 负相关蛋白:PON3, NCAN, LEPR, B4GAT1 and CHGB

敏感性分析

方法
  • 参与者亚群
  • 排除QC警告值
  • 协变量:教育、吸烟、饮酒、体育运动
  • 排除既往有疾病的个体
  • 性别分析
结果
观察分析
  • 亚群:984蛋白FDR<0.05
  • 与主分析:> 97% 重叠;总体或主要的小组特异性蛋白质相同

  • 排除、协变量影响:无实质性影响
  • 性别分析:男921,女970(皮尔逊相关系数 r = 0.87);786重叠(除了9个蛋白,其余方向均一致)

遗传分析
  • 亚群:83
  • 与主分析:80 (96%) 重叠(57+,23-);top相同

  • 性别分析:男59,女72;18重叠(13+,5-,男性影响程度略高于女性)

富集分析

方法
  • GO:Gene Ontology,注重生物学过程、分子功能和细胞组件的富集
  • KEGG:Kyoto Encyclopedia of Genes and Genomes,关注代谢途径和细胞信号通路的富集。

Tips:

### 富集分析:

富集分析是一种用于识别基因集中显著富集了哪些生物学过程或通路的方法。

富集分析不仅可以应用于基因数据,也可以用于蛋白质数据。在蛋白质组学研究中,研究者通常会对鉴定出的蛋白质集合进行富集分析,以了解这些蛋白质在生物学功能、通路和过程方面的显著富集情况。
在蛋白质数据的富集分析中,通常有两种主要的方法:
1. **基于基因注释的富集分析:** 将蛋白质数据映射到对应的基因,并使用基因注释数据库(如Gene Ontology (GO)和Kyoto Encyclopedia of Genes and Genomes (KEGG)等)进行富集分析。这种方法可以揭示蛋白质在生物学功能、通路和细胞组件等方面的富集信息。
2. **基于蛋白质注释的富集分析:** 使用专门的蛋白质注释数据库,例如UniProt,对蛋白质数据进行富集分析。这种方法可以提供更直接关联到蛋白质特性的注释信息,如蛋白质功能、亚细胞定位等。
### 蛋白质-->基因:

将蛋白质数据映射到对应的基因通常需要使用蛋白质标识符(Protein Identifier)与相应的基因标识符进行关联。这一过程可能涉及到使用特定的数据库或工具来执行这种映射。以下是一些常用的方法:
1. **UniProt ID:** UniProt是一个包含蛋白质信息的综合性数据库,提供了蛋白质标识符(UniProt ID)。许多研究使用UniProt ID来标识蛋白质,而UniProt数据库通常提供了与之相关联的基因标识符(Gene ID)。通过查询UniProt数据库,可以将蛋白质ID映射到基因ID。
2. **Entrez Gene ID:** Entrez Gene是由美国国家生物技术信息中心(NCBI)提供的一个数据库,包含了基因和蛋白质的信息。通过查询Entrez Gene数据库,可以通过蛋白质ID获取对应的基因ID。
3. **ID转换工具:** 一些在线工具和数据库提供了蛋白质与基因之间的ID转换服务,允许用户输入蛋白质ID,然后获取相应的基因ID。例如,DAVID(Database for Annotation, Visualization, and Integrated Discovery)工具就提供了ID转换功能。
4. **生物信息学软件:** 使用生物信息学软件,如Bioconductor中的R包或其他基因组学分析工具,可以进行蛋白质到基因的映射。这些工具通常提供了丰富的功能,支持不同标识符之间的转换。
需要注意的是,蛋白质与基因之间的映射可能不是一对一的关系,因为一个基因可能编码多个蛋白质异构体,而多个基因也可能编码相同或相似的蛋白质。在进行映射时,最好查看文献或相关数据库的文档,以确保使用合适的标识符进行分析。

结果
  • GO:与动脉粥样硬化(如巨噬细胞衍生的泡沫细胞分化、脂质代谢)、炎症(IL-6产生)、免疫功能(如T细胞活化、单核细胞增殖、免疫效应过程)和其他生物过程(如细胞-细胞粘附、外分泌系统发育、细胞运动介导的信号通路)
  • 敏感性分析:重要项一致,相对重要性不同
  • KEGG:8条通路,与肿瘤进展(如ecm受体相互作用、Rap1信号通路)、免疫功能(如病毒蛋白与细胞因子和细胞因子受体相互作用)以及细胞增殖、运动和粘附(如细胞粘附分子)

GWAS分析

方法
  • pQTLs(基因型-表型关联):COJO(Conditional and Joint multiple-SNP Analysis)法,P < 5 × 0^(–8)
  • 两样本双向孟德尔随机化:1)cis-pQTLs from GWAS of CKB, lookups in BBJ; 2)UKB, GIANT
  • 两阶段最小二乘估计+Wald比率法
  • 判断因果方向:MR Steiger过滤
  • 感兴趣蛋白:共同定位分析,是否与BMI拥有相同的因果变异
  • 蛋白间的相互作用:STRING数据库
  • 组织特异性:筛选GTEx数据库,选择参与能量代谢或内分泌控制食物摄入的组织
  • cis-pQTLs:阈值P值=5 × 10^(–8)

Tips:

### COJO(Conditional and Joint multiple-SNP Analysis):

是一种用于基因组关联研究(GWAS)的多个单核苷酸多态性(SNP)的条件和联合分析的方法。该方法主要用于探测基因座之间的相互作用和调整共线性的影响,以更准确地确定与特定表型相关的基因。
COJO方法的核心思想包括:
1. **条件分析:** COJO首先进行条件分析,即在已知基因座的情况下,对其他基因座的效应进行调整。这有助于减少由于多重比较引起的假阳性,使得每个基因座的效应更为独立。
2. **联合分析:** 在条件分析的基础上,COJO进行联合分析,考虑多个基因座的联合效应。这样可以发现那些在单个基因座上可能不显著的信号,但在联合分析中可能显现出重要性。
3. **控制多重比较:** COJO方法通过使用Bonferroni校正或其他控制多重比较的方法来管理多个基因座的分析,以确保最终的显著性结果是统计上显著的。
4. **精细调整:** COJO方法还可以用于调整共线性效应,降低多个基因座之间的相关性对结果的影响。这有助于更精确地识别对表型的贡献。
COJO方法的实现通常借助于特定的统计软件或工具包,例如GCTA(Genome-wide Complex Trait Analysis)中的COJO程序。这些工具提供了进行条件和联合分析的功能,使研究者能够更轻松地应用COJO方法。

### Wald比较方法

是一种用于比较模型参数的统计推断方法,通常用于回归模型中的系数比较。该方法的基本思想是通过估计的模型参数的标准误差来进行假设检验,以判断某个系数是否等于特定的值。
Wald比较方法的一般步骤如下:
1. **估计模型参数:** 使用最小二乘估计等方法估计回归模型的参数。
2. **计算标准误差:** 计算每个参数的标准误差,反映了该参数估计的不确定性。
3. **构建Wald统计量:** 对于要比较的模型参数,构建Wald统计量,其计算公式为:
W = \left(\frac{\hat{\beta} - \beta_0}{SD(\hat{\beta})}\right)^2
其中,\hat{\beta} 是参数的估计值,\beta_0 是要比较的值,SD(\hat{\beta}) 是 \hat{\beta} 的标准误差。
4. **假设检验:** 将Wald统计量与分布进行比较,通常使用标准正态分布。对于给定的显著性水平(如0.05),确定Wald统计量是否超过对应的临界值,从而决定是否拒绝假设。
5. **判断统计显著性:** 如果Wald统计量超过了相应的临界值,那么我们可以拒绝原假设,认为参数与被比较的值存在显著差异。
Wald比较方法在许多统计模型中都可以应用,例如线性回归、广义线性模型等。需要注意的是,Wald比较方法对于较大样本容量通常是有效的,但在小样本情况下可能不够稳健。在这种情况下,可能需要考虑使用其他比较方法,如Score检验或Likelihood Ratio检验。

### MR Steiger过滤

是一种用于判断 Mendelian Randomization(MR)分析结果中的因果方向的方法。MR Steiger过滤主要用于检查基因座对蛋白质水平和体质量指数(BMI)之间因果关系的方向性。
以下是MR Steiger过滤的基本步骤:
1. **进行MR分析:** 首先,进行基因型对蛋白质水平和基因型对BMI的MR分析。这通常涉及到使用基因型作为工具变量,来推断特定蛋白质或BMI与其他表型之间的因果关系。
2. **计算Steiger比例:** 对于每个基因座,计算Steiger比例。Steiger比例衡量了工具变量的方向与被解释变量(蛋白质或BMI)的方向之间的关系。Steiger比例可以通过计算基因座的遗传相关性、工具变量的影响估计和被解释变量的影响估计来获得。
3. **过滤结果:** 对于那些Steiger比例与期望方向相符的基因座,保留这些基因座并继续进行进一步的分析。对于那些Steiger比例与期望方向不符的基因座,可能需要进行排除或重新考虑。
MR Steiger过滤的目的是排除可能导致估计的方向性出现问题的基因座,以确保MR分析结果更可靠。通过考虑遗传相关性和效应方向,MR Steiger过滤有助于提高对因果关系方向的自信度。
需要注意的是,MR Steiger过滤需要谨慎使用,特别是在存在复杂的生物学机制或数据结构的情况下。该方法在保守地过滤基因座的同时,也可能过滤掉一些真正具有因果关系的信号。因此,在应用该方法时,应该了解其局限性并谨慎解释结果。

结果

CKB
  • GWAS:742 cis-pQTL
  • 两样本孟德尔随机化(CKB&BBJ):8个蛋白(ITIH3, LRP11, SCAMP3, NUDT5, OGN, EFEMP1, TXNDC15, and PRDX6),NUDT5双向

  • 敏感性分析——MR Steiger过滤:8个蛋白无反向因果关系,无交互关系
  • 共同定位分析:无与BMI拥有相同的因果变异(Posterior Probability H4 < 0.8)
  • PheWAS(全表型组关联)分析:6个蛋白(ITIH3、LRP11、SCAMP3、NUDT5、OGN和EFEMP1)的顺式pqtl与BMI、WC和体成分等多个肥胖性状相关。TXNDC15顺式pqtl与身高相关,而之前没有报道PRDX6顺式pqtl与任何性状和疾病结局相关。
  • 这8种蛋白与与食欲或饱腹感调节相关的蛋白(包括AGRP、GHRL、NPY和PYY)没有很强的相关性(r < 0.24)

  • 组织特异性:3个蛋白(OGN、EFEMP1、PRDX6)在脂肪组织中高表达,1个蛋白(ITIH3)在肝脏中主要表达,其余4个蛋白(LRP11、SCAMP3、NUDT5、TXNDC15)在多组织中中表达

UKB
  • GWAS:384 cis-pQTL
  • 两样本孟德尔随机化(CKB&BBJ):3个蛋白(ITIH3, OGN and TXNDC15)
  • PheWAS:相似结果

校正

  • Benjamini-Hochberg校正
  • Bonferroni校正

Tips:

### Benjamini-Hochberg校正:

一种用于控制多重比较问题的统计学方法,通常用于调整p值的阈值。它是一种基于False Discovery Rate(FDR,假发现率)的校正方法,用于降低在进行多次假设检验时产生的假阳性的风险。Benjamini-Hochberg校正的目标是控制FDR在某个事先确定的水平内。
该方法的步骤如下:
1. 对所有的假设检验按照p值从小到大进行排序。
2. 计算每个检验的Benjamini-Hochberg校正后的p值阈值,计算公式如下:
Adjusted\ p-value\ for\ the\ ith\ test = \frac{i}{m} \times FDR\ threshold
其中,i 是当前检验的排序,m 是总的检验数。
3. 将每个检验的p值与对应的校正阈值进行比较,如果p值小于等于校正阈值,则拒绝零假设。
Benjamini-Hochberg校正相比于Bonferroni校正具有更高的效率,因为它更灵活地控制FDR,允许更多的假阳性在一系列比较中。这对于大规模的数据集,如基因组学研究或高通量实验,特别有用。

### FDR:

FDR是在被拒绝的零假设中实际为假的比例,即在所有被拒绝的零假设中错误的比例。

### Bonferroni校正:

Bonferroni校正是一种用于多重比较问题的统计学校正方法,旨在降低因进行多次比较而产生的假阳性(Type I错误)的风险。在进行多个假设检验时,原始的显著性水平可能会导致累积的错误,因此需要采取措施来纠正这一问题。
Bonferroni校正的基本思想是将所选的显著性水平(通常是α,例如0.05)除以进行比较的总数量。这样可以确保在整体进行多次比较时,每个独立比较的显著性水平被调整为更为保守的水平,以保证整体的显著性水平不被过度高估。
具体而言,对于进行了m次独立的假设检验,Bonferroni校正的调整后显著性水平(\alpha_{Bonferroni})计算公式如下:
\alpha_{Bonferroni}= \frac{\alpha}{m}
其中:
\alpha 是原始的显著性水平。
- m 是进行比较的总数量。
通过使用Bonferroni校正,可以有效地降低产生假阳性的可能性,但它的保守性可能会导致过于谨慎的结论。在实际应用中,研究者需要权衡保守性和发现真实效应的能力,选择适当的校正方法。其他的校正方法还包括Holm校正、Benjamini-Hochberg校正等。

### Bonferroni校正举例:

假设研究者对一组新药进行了治疗效果的研究,测量了药物对不同疾病的疗效。研究者同时对10种不同的疾病进行了独立的假设检验,以确定药物是否在每种疾病上都具有显著的治疗效果。对于每个疾病,研究者设置了显著性水平为0.05,即 α=0.05。在没有进行多重比较校正的情况下,每个疾病上的独立检验都可能产生5%的错误率,即5%的概率出现错误的拒绝零假设,即假阳性。

然而,在这个例子中,进行了10次独立的假设检验,因此涉及了10个比较。在进行多重比较时,考虑到这10个独立检验,可能会应用多重比较校正方法,比如Bonferroni校正。对于10个独立的检验,使用Bonferroni校正,每个独立检验的显著性水平应该调整为:

\alpha_{Bonferroni}= \frac{\alpha}{m}=\frac{0.05}{10} = 0.005

这样做是为了降低整个研究中产生假阳性的风险,因为进行多次比较可能导致错误的拒绝零假设。

UKBB上的复制分析

  • 16
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值