wj176623-CSDN博客

转载 WGCNA算法研究笔记

WGCNA方法的实例分析文章的作者将该算法用R实现，正好数模过后我也在进行matlab向R的转换，这套算法就成为了我自学R的良好素材(TIOBE今年三月公布的编程语言排行榜中，R列居第24位，超过了SAS和Matlab，看来自己的选择似乎不错)。关于该实例的数据和分析说明可以在以下网页中找到http://www.genetics.ucla.edu/labs/horvath/

2016-11-02 13:03:46 8014

原创 GATHER:基因注释工具

GATHER:从高通量的后基因组中发现基因分子的特性。通过分析Rb/E2F：（1）GATHER发现了通道的重要特性（2）GATHER识别出了一系列与其他无关基因表达签名中的普通生物学中发现了乳腺癌。（3）GATHER成功预测了庞大的基因组中90%的功能（预测）（4）GATHER可以作为一个从基因组链中产生的分子签名（分子特性）中提取的全值的一

2016-09-21 22:26:06 2129

原创同源基因查询，EST表达序列标签

同源基因查询:通过已存入数据库中的基因序列与待查的基因组序列进行比较，从中查找可与之匹配的碱基序列及其比例，用于界定基因的方法称为同源查询。EST（Expressed Sequence Tag）表达序列标签:是从一个随机选择的cDNA克隆，进行5‘端和3’端单一次测序挑选出来获得的短的cDNA部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20到7000bp不等。平均长度为

2016-09-21 21:47:44 2858

转载基因表达谱

基因表达：指细胞在生命过程中，把储存在DNA顺序中遗传信息经过转录和翻译，转变成具有生物活性的蛋白质分子。生物体内的各种功能蛋白质和酶都是同相应的结构基因编码的。差别基因表达：指细胞分化过程中，奢侈基因按一定顺序表达，表达的基因数约占基因总数的5%~10%。也就是说，某些特定奢侈基因表达的结果生成一种类型的分化细胞，另一组奢侈基因表达的结果导致出现另一类型的分化细胞，这就是基因的差别表达。其本

2016-09-21 18:59:36 4962

转载 GEO : Affymetrix CEL文件 CDF文件 R语言处理方法

背景介绍：1）Affymetrix： Affymetrix的探针（proble）一般是长为25碱基的寡聚核苷酸；探针总是以perfect match 和mismatch成对出现，其信号值称为PM和MM，成对的perfect match 和mismatch有一个共同的affyID。 CEL文件：信号值和定位信息。 CDF文件：探针对在芯片上的定位信息

2016-09-20 11:30:11 10758 1

原创 PageRank

PageRank:基于链接的排序方式。

2016-09-14 14:49:54 359

原创神经网络聚类方法：SOM算法原理

一个神经网络接收外界输入模式时，将会分为不同的对应区域，各区域对输入模式有不同的响应特征，而这个过程是自动完成的。其特点与人脑的自组织特性类似。SOM的目标是用低维（通常是二维或三维）目标空间的点来表示高维空间中的所有点，尽可能地保持点间的距离和邻近关系（拓扑关系）。自组织神经网络：是无导师学习网络。它通过自动寻找样本中的内在规律和本质属性，自组织，自适应地改变网络参数与结构。

2016-09-13 15:51:24 79482 2

原创 K-中心聚类算法

基本思想：选用簇中位置最中心的对象，试图对n个对象给出k个划分，代表对象也被称为中心点，其他对象则被称为非代表对象。最初随机选择k个对象作为中心点，该算法反复地利用非代表对象来代替代表对象，试图找出更好的中心点，以改进聚类的质量。

2016-09-13 09:42:09 7361

原创 K-means聚类算法

一种基于划分的算法，它属于基于距离的聚类算法。（采用距离作为相似性量度的评价指标）算法思想：（1）首先指定需要划分的簇的个数K值；（2）然后随机地选择K个初始数据对象点作为初始的聚类中心；（3）再次计算其余的各个对象划归到距离它最近的那个中心所处的簇类中；（4）最后调整新类并且重新计算出新类的中心，如果两次计算出来的聚类中心未曾发生任何变化，就可以说明数据对象的调整已经结束。（

2016-09-13 09:36:26 1189

原创支持向量机

支持向量机（SVM）：一种专门研究有限样本预测的学习方法。是在统计学习理论基础之上发展而来的。没有以传统的经验风险最小化原则作为基础，而是建立在结构风险最小化原理的基础之上，发展成为一种新型的结构化学习方法。结构风险最小归纳原理：解决了有限样本或小样本的情况下获得具有优异泛化能力的学习机器。包含了学习的一致性、边界理论和结构风险最小化原理等部分。克服了经验风险最小化的缺点。一：学习

2016-09-12 17:32:30 5075

原创人工神经网络算法-BP算法原理

人工神经网络是由大量的神经元按照大规模并行的方式通过一定的拓扑结构连接而成的。按照一定的规则将神经元连接成神经网络，并使网络中各神经元的连接权按一定的规则变化，这样一来也就产生了各式各样的神经网络模型。从几个方面进行分类：（1）按神经网络的拓扑结构可以分为反馈神经网络模型和前向神经网络模型；（2）按照神经网络模型的性能可分为连续型与离散型神经网络模型，确定型与随机型神经网络模型（3

2016-09-11 15:34:57 12278

原创贝叶斯分类算法

贝叶斯方法是一种研究不确定性的推理方法。不确定性常用贝叶斯概率表示，它是一种主观概率。贝叶斯公式：贝叶斯信念网络：简称贝叶斯网络，用图形表示一组随机变量之间的概率关系。有以下两个主要成分：（1）一个有向无环图，表示变量之间的依赖关系；（2）一个概率表，把各节点和它的直接父节点关联起来贝叶斯网络的重要性质：贝叶斯网络中的一个节点，如果它的父母节点已知，则它条件

2016-09-11 09:23:50 864

原创决策分类算法-C4.5算法原理

与ID3的不同之处：（1）分支指标采用增益比例，而不是ID3所使用的信息增益；（2）按照数值属性值的大小对样本排序，从中选择一个分割点，划分数值属性的取值区间，从而将ID3的处理能力扩充到数值属性上来。（3）将训练样本集中的位置属性值用最常用的值代替，或者用该属性所有取值的平均值代替，从而处理缺少属性值的训练样本。（4）使用k次迭代交叉验证，评估模型的优劣程度（5）根据生成的决

2016-09-10 21:22:36 4598

原创决策树分类算法-ID3算法原理

ID3基本策略：（1）树根代表训练样本的单个节点的开始；（2）如果样本都在同一个类中，则这个节点称为树叶节点并标记为该类别。（3）否则算法使用信息熵（信息增益）作为启发知识来帮助选择合适的将样本分类的属性，以便将样本集划分为若干子集，该属性就是相应节点的“测试”或“判定”属性，同时所有属性应当是离散值。（4）对测试属性的每个已知的离散值创建一个分支，并据此划分样本。（5）算法使

2016-09-10 20:28:51 4309

原创决策树分类算法

决策树：从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，根据不同的属性值判断从该节点向下的分支，在决策树的叶节点得到结论。所以，从决策树的根节点到叶节点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式规则。决策树的方法：ID3、CN2、SLIQ、SPRINT等。一般使用ID3和C4.5决策树方法。决策树

2016-09-10 18:09:01 1545

原创关联规则及Apriori

关联规则：挖掘发现大量数据中项集之间的有趣关联联系。关联规则挖掘分为以下两个子问题：（1）找出事务数据库中所有大于等于用户指定的最小支持度的数据项集；（2）利用频繁项集生成所需要的关联规则，根据用户设定的最小置信度进行取舍，最后得到强关联规则。··备注：识别或发现所有频繁项目集是关联规则发现算法的核心。

2016-09-10 17:27:55 2026

原创特征选择与提取

特征选择与提取：从一组数量为N的特征中选择出一组数量为M的最优特征。（N>M）要解决的问题：（1）选择一种可分性判据作为最优特征选择的标准；（2）找到一个好的算法，来选择出这组最优特征；特征选择技术方法：（1）顺序前进法：（2）顺序后退法；（3）增l减r法（l-r法）特征提取步骤：（1）利用训练样本集合估计相关矩阵=E;（2）计算的特征值，并由大到小排序,,

2016-09-10 10:06:42 892

原创数据预处理方法

一.数据清理1.填出缺失值：无记录值数据（1）忽略元祖：缺少类标号时使用，适用于多个属性值缺失；（2）人工填写缺失值；（3）用属性的均值填充缺失值；（4）用全局常量填充（unknow）；（5）用同样本的属性均值填充缺失值；（6）使用最可能的值填充缺失值（可由回归、贝叶斯形式化的基于推理的工具或决策树归纳确定）。2.光滑噪声数据：被测量变量的随机误差或方差。（1）

2016-09-09 20:15:28 1258

原创数据预处理概念

数据预处理：对原始数据进行必要的清理、集成、转换、离散和规约等一系列的处理工作。原始数据的特征：（1）不完整性：数据属性的丢失、不确定的情况、缺失必需的数据。（2）含噪声：数据具有不正确属性值：包含错误或存在偏离期望的离群值。产生原因：如收集数据的设备故障，人或计算机的错误可能在数据的输入时出现，数据传输中可能出现错误。（3）杂乱性：原始数据是从各个实际应用系统中获取的。由于各

2016-09-09 20:13:10 2085

Notification是智能手机应用编程中非常常用的一种传递信息的机制，而且可以非常好的节省资源，不用消耗资源来不停地检查信息状态（Pooling），在iOS下应用分为两种不同的Notification种类，本地和远程。本地的Notification由iOS下NotificationManager统一管理，只需要将封装好的本地Notification对象加入到系统Notification管理机制

2013-10-17 21:32:28 1190

原创随笔

生日提醒(void)application:(UIApplication *)application didReceiveLocalNotification:(UILocalNotification *)notification{ NSDictionary *dic=[notification sbInfo]; NSString *na

2013-10-17 21:25:21 562

转载 iphone 数据存储--Core-Data的使用

一、概念1.Core Data 是数据持久化存储的最佳方式2.数据最终的存储类型可以是：SQLite数据库，XML，二进制，内存里，或自定义数据类型在Mac OS X 10.5Leopard及以后的版本中，开发者也可以通过继承NSPersistentStore类以创建自定义的存储格式3.好处：能够合理管理内存，避免使用sql的麻烦，高效4.构成：(1)NSManaged

2013-10-17 20:14:29 999

转载 iPhone Launch之启动类型的判断

应用程序启动完成的回调函数，从3.0开始，已经有原来的- (void)applicationDidFinishLaunching:(UIApplication *)application;改成了- (BOOL)application:(UIApplication *)application didFinishLaunchingWithOptions:(NSDictionary*)launc

2013-10-17 20:10:05 700

wj176623的专栏