自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 盘点安装fastStructure走过的坑

先放上fastStructure 网址熟悉生信分析应该都知道admixture,就是做群体层次分析的一个软件,fastStructure基本上对标的是Ad的两大功能:未知的个体群体分层分析,有监督的群体分层分析.由于Ad是已经打包好的所以直接调用就很方便,但是由于fastStructure是在Cython和gsl之上的就很容易安装报错,一般就是两大方向的错误,文件路径没调整对,还有就是安装版本的问题,如果用root账户安装的一般来说路径问题比较少,基本就按照软件给出的README.md安装就可以,这里主

2022-03-09 22:28:05 1711 3

原创 回归,逻辑回归,线性判别的python实现-DataWhale吃瓜教程-task02

学习了第三章主要是线性回归的知识点,推导公式,最小二乘法和极大似然估计 :思路不同推出同一个公式最小二次法是均方误差最小化进行模型求解,极大似然估计则是利用了联合分布及似然函数 得到公式$ E_{(w,b)}= $ ![image.png](attachment:image.png)利用最优化的思路当$ E_{(w,b)}= $最小时w,b的值### 求解方法包括梯度下降法,根据推到公式直接解,逻辑回归代码实现遇到难度~再接再厉

2021-11-24 22:48:47 625

原创 西瓜书第一章和第二章总结-DataWhale吃瓜教程-task01

学习了西瓜书第一章和第二章,第一章主要是引入,讲了一些基本术语和机器学习关注的话题,泛化能力,第二章主要是模型选择和评估,介绍了一些评估方法,回归和分类不同的参数度量方法,具体的总结放在博客的思维导图中~

2021-09-15 00:15:09 161

原创 机器学习总结-基于sklearn包

数据预处理(特征工程)1.处理负值(or outlier)标记有问题的特征,但是不删去def getres1(row): return len([x for x in row.values if type(x)==int and x<0])data['neg1'] = data[data.columns].apply(lambda row:getres1(row),axis=1)data.loc[data['neg1']>20,'neg1'] = 20 #平滑处理2.

2021-09-06 17:48:43 185

原创 DataWhale集成学习笔记-task07

主要就是学习了blending集成学习算法和stacking算法,理解了这种算法的原理,主要用鸢尾花的数据集对集成学习进行联系。

2021-09-01 18:14:38 106

原创 DataWhale集成学习笔记-task06

主要学习的boosting算法的原理,Adaboost

2021-08-28 22:01:47 168

原创 基于鸢尾花数据和手写数字,决策树,随机森林,voting,bagging法的比较

四种方法的具体的原理可以见博文和西瓜书先上代码根据结果分析鸢尾花数据# evaluate bagging algorithm for classificationfrom numpy import meanfrom numpy import stdfrom sklearn.datasets import make_classificationfrom sklearn.model_selection import cross_val_scorefrom sklearn.model_selec

2021-08-26 17:49:21 446

原创 DataWhale集成学习笔记-task05

主要是学习了集成学习的大致轮廓,和其中的投票法和bagging方法,理解了随机森林和bagging的区别。

2021-08-26 12:39:21 136

原创 DataWhale集成学习笔记-task04

对于分类任务考虑的问题学习了分类模型的几个理论,逻辑回归线性判别,分类标准,包括混淆矩阵和ROC曲线,理解ROC曲线的画法需要复习,用numpy实现逻辑回归。

2021-08-24 23:55:05 155

原创 DataWhale集成学习笔记-task03

视频:bilibili主要区分了训练均方误差与测试均方误差,理解偏差-方差的公式,最重要的是模型的估计的测试误差,还有三种对特征的优化手段,及超参数

2021-08-23 23:49:10 174

原创 DataWhale集成学习笔记-task02

视频:b站基础查漏补缺线性模型推广这部分比较陌生,回归树模型和支持向量回归需要再复习以前的知识,约束优化没有接触需要多复习

2021-08-19 20:57:33 162

原创 DataWhale集成学习笔记-task01

DataWhale笔记-task01高等数学复习遗留问题:随机过程和MCMC没有学完,牛顿迭代法在要求的范围内找到极值?

2021-08-17 23:05:24 157

原创 【记录】PSMC软件分析群体历史有效群体大小步骤

@PSMC软件分析群体历史有效群体大小流程首先是软件下载,需要用到PSMC和samtoolPSMC下载地址1、文件转换基因组文件格式为.bam需要转换为.fq.gz格式,在软件readme中有代码:amtools mpileup -C50 -uf ref.fa aln.bam | bcftools view -c \ | vcfutils.pl vcf2fq -d 10 -D 100 | gzip > diploid.fq.gz这段代码重点需要注意两个问题,第一个是参考基因

2020-09-24 00:12:49 11731 17

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除