A Framework for the Automated Analysis of Subcellular Patterns in Human Protein Atlas Images

weixin_49171484

已于 2022-08-11 10:34:11 修改

阅读量966

点赞数 1

分类专栏：生物信息学文章标签：人工智能机器学习

于 2022-08-10 11:26:04 首次发布

本文链接：https://blog.csdn.net/weixin_49171484/article/details/126261788

版权

生物信息学专栏收录该内容

3 篇文章 1 订阅

订阅专栏

A Framework for the Automated Analysis of Subcellular Patterns in Human Protein Atlas Images

论文材料
摘要及背景
研究方法
实验结果
讨论

论文材料

论文下载路径： A Framework for the Automated Analysis of Subcellular Patterns in Human Protein Atlas ImagesHuman Protein Atlas Images
论文相关数据和代码：http://murphylab.web.cmu.edu/software/
作者：Justin Newberg(CMU), Robert F. Murphy(CMU)
发表年份：2008年
期刊： Journal of Proteome Research (The IF is : 5.37 in 2022, SCIⅡ)

摘要及背景

蛋白质亚细胞位置预测指的是预测蛋白质在亚细胞结构中的位置，具备功能的蛋白质最终是在亚细胞结构中参与生命体征的生理过程，因此是以蛋白质为研究对象，来预测蛋白质的位置。具体来说，这里的蛋白质是以图像的形式展现的，位置主要包括线粒体，内质网，高尔基体等等。对于蛋白质亚细胞位置的研究可以有利于理解蛋白质的功能及其机理，然而随着蛋白质数量的逐渐增加，因而发展一个自动化的方法尤为重要。本篇的论文首次提出了采用免疫组化图像 (IHC)作为数据集，收集了16个位于8个位置的蛋白质，并且每个位置都包含了2个蛋白质，每个蛋白质都可以获取到一定数量的IHC图片；首先作者采用了线性光谱分离(LIN)，非负矩阵分解(NMF) 对IHC图像解离出蛋白质通道和DNA通道；接下来，作者对蛋白质通道进行多尺度二维离散小波变换并提取图片的Haralick特征(836-d)，并且还获取了蛋白质通道和DNA通道下的DNA分布信息(4-d)；最后，一张图片由Haralick特征和DNA分布特征表示，为了避免因特征维度过高造成的时间复杂度过高和过拟合问题还采用了逐步判别分析(SDA)对特征进行降维，将并将降维后的数据特征及标签喂入支持向量机(SVM)以获得图片所属亚细胞位置的概率(或者叫做置信度)；整个流程如图1所示。
Alt

图1. 论文的阐述方法的逻辑框图

研究方法

一般来说，对于将蛋白质亚细胞的图片进行定位(或者称为分类)的任务，可以分为图像预处理，图像特征提取，及分类器拟合等三大步骤。

图片收集及预处理

从人类蛋白质图谱(HPA)获取的IHC图片并不是每一种都会被作者选取到，根据IHC图片的染色水平, 标签可靠性程度两者进行评判。其中染色水平包括:high, medium, low, not detect；标签可靠性程度包括:Enhanced, Supported, Approved, Uncertain，两者评判由强到弱顺次降低。作者在文中未明确选取数据，主要由于数据库在当时还未系统性的完善，但文章说到了图片的分辨率是moderate的等级(可能是当时数据库一种数据评判)，每张图片的分辨率大约为3000*3000。更重要的是，IHC图像整体的目标区域表现出棕色和紫色，棕色是蛋白质与hematoxylin(苏木精)反应生成的沉淀色，紫色是DNA与diaminobenzidine (DAB)反应生成的沉淀色，而对于研究工作而言一张图片感兴趣的自然是棕色的蛋白质区域和紫色的DNA区域。
对于获取到的数据集，由于在生物湿实验过程中容易引入第三种颜色，因此采用了线性分解的方法获取了第三种颜色密度的平均值，即为13，采用线性分解的方法可以获得棕色, 紫色, 第三种颜色的量化数值，因此数据集中第三种颜色的表达值大于等于13的IHC图像都将被删除不作为研究对象。

线性光谱分离(Linear Spectral Unmixing, LIN)

$V=unique(\bar{V})$
$V = W * H$
其中 $\bar{V}$ 是原图的变形矩阵，大小为 $(3000 * 3000, 3)$ ; $V$ 是经过 $u ni q u e$ 后的矩阵， $V$ 中都是唯一的像素值,尺度小于 $(3000 * 3000, 3)$ , $W$ 是色基矩阵, $H$ 是 $V$ 的分解结果。
LIN的原理在于由于IHC主要由两种颜色混合合成，因此在某个像素值中可以拆解为两种颜色下的线性组成，因此可以找到一个色基矩阵 $W$ 将 $V$ 分解为两个通道的图像。

图2. 左图为RGB空间，右图为HSV空间，且棕色存在于0-120°，紫色在120-360°之间为了使RGB像素值表示符合人体视觉效果(或者说使用一种颜色来表示RGB的彩色)，将RGB空间的矩阵转换为HSV空间,H(hue)即为色度值，S(saturate)为饱和度，V(value)为亮度，如图2所示[1]。由上图2可知根据120°(归一化即为0.3)划分，V(unique后的矩阵)中的棕色出现在0-0.3之间，紫色在0.3-1.0之间，因此可以采用直方图统计的方法获取到0.3上下像素值的分布, 如下图3所示。由于棕色和紫色是两通道中最多的像素值，由此可以根据直方图的峰值获得两个通道下棕色和紫色的hue值，根据两种颜色的hue值的索引映射回 V 空间按列求均值即获得色基矩阵W(大小为2*3)；对于整体的色基矩阵可以对每张图片的色基矩阵累加即可获得, 如下W所示。

$W=\begin{bmatrix} k_1^{hem}&k_1^{DAB}\\ k_2^{hem}&k_2^{DAB}&\\k_3^{hem}&k_3^{DAB}\end{bmatrix}=\begin{bmatrix} 57.1&43.7\\ 56.5&55.6&\\42.5&64.2\end{bmatrix}$

此外，对于为什么要使用唯一值矩阵即V，原因有: (1)唯一值矩阵可以缩短矩阵计算的时间复杂度；(2)若棕色或者紫色过多，很难使得棕色和紫色分开，并容易造成背景色作为分解的结果。

图3. 左图的两幅图为0.3阈值的直方图统计，右图为整体直方图统计

最后根据分解公式 $H = V * p in v (W^{'})$
可以获得蛋白质通道和DNA通道, 如下图4所示。 Alt

图4. LIN的分解结果，左中右分别为原图，蛋白质通道，DNA通道

非负矩阵分解(Non-Negative Matrix Factorization, NMF)

$V = W * H$
NMF的也是从IHC图像由蛋白质和DNA混合的角度出发，但将 $W$ , $H$ 都视为未知变量。在算法中采用,随机初始化的方法产生 $W_0$ , $H_0$ , 得到 $V_0=W_0*H_0$ , 计算与 $V$ 像素值间的之间的损失(可以是均方差也可以是交叉熵)，对定义的损失函数对 $W$ 和 $H$ 求导产生迭代项并进行迭代，最后使得损失符合条件，保存此时的结果即为分解出的矩阵[2]，NMF的分解结果如下图5所示。
Alt

图5. NMF分解结果，左中右分别为原图，蛋白质通道，DNA通道

图片特征提取

在特征计算的过程中，线性分解的结果得到蛋白质和DNA的两个通道，经过坐标映射到原始图像得到(3000,3000,1)的图像，再经过去除背景及大津边缘算法得到二值图像，在蛋白质和DNA两个通道的二值图像上计算DNA分布特征；在映射到原图后单独将蛋白质通道的尺度缩放到0-31范围内，采用多尺度二维离散小波变换重建后的图像计算Haralick特征[3-4]，上述过程如图6所示。
Aly

图6. 特征提取图像变化过程

DNA特征

DNA特征统计了四种，如上图所示

Haralick特征

全部Haralick特征在获取过程中，首先提取了尺度在0-31范围内的Haralick特征，并对0°和90°求均值(13-d),45°和135°求均值(13-d)，两组拼接获得26-d的haralick特征；然后进行图像小波分解及重构获得水平重构图像，垂直重构图像，对角重构图像三个位置的，分别获得3组26-d的Haralick特征及3组1-d的能量特征，这样有10重尺度；综上，可以获得 $3 * (26 + 1) * 10 + 26 = 836$ 维特征，具体的13种特征如下图7所示(前13个被文章中使用)。
Alt

图7. Haralick中14种特征的定义

降维及分类器拟合

在对每一张图片获取到840维特征后为避免因维度过高带来的过拟合问题，采用了逐步判别分析(SDA)的方法对特征进行降维，在分类器的选择中采用经典的支持向量机来进行分类。SDA是一种依靠概率模型来判断特征能力强弱的有监督的特征选择方式[5]，SVM是一种采用核升维的方式从低维不可分空间转为高维可分空间的分类器[6]。

实验结果

Alt

图8. 左图维db8的特征的分类性能，右图是多个分类器输出的置信度结合的结果由上图8可知在16个蛋白质的数据上，提取Haralick特征和DNA分布特征，采用SVM分类器可以达到75%以上的预测性能；当结合多个db特征构建的分类器的输出结果时，分类性能普遍显著性的提高。

Alt

图9. 对SDA选择出的特征进行分析由上图9可知在经过特征选择之后4-d的DNA分布特征被选出了3维(feature number中等于2, 4, 3)，836维的Haralick特征选出了54维，说明两种特征共同作用下可以提高图像所属类别的判别性能力。

讨论

对于论文阐述到了为什么理论上采用NMF分解IHC更合理，却产生了LIN比NMF性能更好的结果？
作者在LIN种构建全局色基矩阵的时候采用了每张图像色基矩阵加和获得，这样有可能模糊了单张图像的个性特征，使得图像在全部数据量中有意识地向所属类别解离；而NMF更加凸显图像个性的特点，因而使得图像类别效应不突出。
对于多个分类器输出的置信度采用加和求均值有何利弊？
多个分类器输出置信度加和可以有效的获得样本在多个分类器的普遍概率，有利于整体判决，但也会出现个别数据因加和而造成原本正确的结果输出错误；而对于多分类器输出的置信度决策可以采用Bagging，Boosting或者ANN等方法缓解这种情况。

[1] https://www.cnblogs.com/geoffreyone/p/9882325.html
[2] https://its401.com/article/ctyqy2015301200079/86725427
[3] https://blog.csdn.net/lskyne/article/details/8659225?
[4] https://zhuanlan.zhihu.com/p/110228230
[5] https://murphylab.web.cmu.edu/publications/boland/boland_node27.html
[6] https://zhuanlan.zhihu.com/p/480302399