计算之道-CSDN博客

原创 Deep Learning

卷积网络：使用卷积核对最初的矩阵（也可以叫做最原始的特征图）进行卷积，获得特征图，然后使用卷积核在特征图上卷积，获得新的特征图。依次循环得到最终的特征图。最后使用全连接网络进行结果预测（比如最终的特征图是2*2矩阵，可以将其向量化，转化为4*1矩阵，转入全连接层），此时的全连接层一般不再加隐藏层，因为前面的卷积已经更更新了很多特征。1D卷积：就是矩阵有多少行，卷积核就用多少行（卷积的时候只向右横向移动）。全连接网络：根据预测结果，计算隐藏层的参数变化梯度（方向），根据提前设定的大小更新参数。

2025-01-02 02:30:02 208

原创 convert生成视频的报错处理

一、convert生成gif报错问题：执行 convert -delay 12 -loop 1 *jpg ./DI4_z1.gif。

2024-12-12 12:12:31 962

原创 AMBER和GROMACS文件的互相转换

手动修改topol.top中的[ atomtypes ]下的Cl-修改为大写的CL-，以及最底下描述离子信息的[ atom ]下的IM改为CL-，这才和底下的离子信息对得上，否则gromacs运行会报错”atom type XX not found“comp.prmtop以及comp.inpcrd 是利用Amber构建好的文件，输入上述命令，生成solvated_GMX.gro solvated_GMX.top 文件。1、可利用amber的cpptraj 转换成gromacs trr文件。

2024-12-03 10:09:12 504

原创解决安装dkms出现依赖问题

然后重新sudo apt install dkms，成功。尝试了很多办法都没有成功，最后狠心尝试手动指定。

2024-11-12 11:44:43 785

原创 ColabFold本地安装

去年在本地部署了AF2（见），最近在用它做蛋白质复合物的预测，但是由于需要预测的序列数量比较大，AF2的计算效率显得比较吃力。于是想是否有其它的工具可以使用，在速度和准确性之间求一个折衷。调研可用工具，发现目前流行的有EMSFold、OmegaFold、我现在用的AlphaFold2及其简化版ColabFold。

2024-10-24 16:59:26 1105

原创 Adobe illustrator

一、新建和保存。

2024-09-25 09:39:05 324

原创计算生物学/化学期刊投稿梯度（参考）

综合偏材料偏化学，计算传统期刊1梯度：ChemNAR2梯度：，JCTC，JPCL3梯度：Nanoscale4梯度：

2024-07-04 10:13:22 337

原创白箱模型、黑箱模型和灰箱模型

主要区别在于模型的透明度、可解释性和预测性能之间的权衡。白箱模型最易解释，但可能在复杂任务上的预测能力受限；黑箱模型预测能力强，但缺乏透明度；灰箱模型则尝试在这两者之间取得平衡。实际应用中，选择哪种类型的模型取决于具体任务的需求、监管要求以及对模型可解释性的重视程度。

2024-06-13 14:54:41 1865

原创生成符合要求的随机DNA序列

注意：上述K，M，R，S，W和Y为简并碱基（代表两种碱基），如下图所示：K代表了G/T，M代表了A/C，R代表了A/G，S代表了G/C，W代表了A/T，Y代表了C/T。"""检查序列是否有效，即不包含连续的AAAA, CCCC, GGGG, TTTT或完全由某一个简并碱基表示的6碱基序列段"""（1）N为需要替换的碱基，第一个“N段”的元素和最后一个“N段”的要碱基互补配对，第二个“N段”的元素和第三个“N段”要碱基互补配对。"""创建配对的DNA序列片段，并在序列前添加序号""""""生成互补序列"""

2024-06-12 14:42:43 828

原创数据标准化问题

和有什么区别，哪个是正确的？?回答：两个代码段的主要区别在于是否正确地使用了fit和transform。

2024-05-30 14:18:22 561

原创 Feature engineering-MANOVA分析+Boxplots

target_column = 'target_value' # 替换为你的实际列名。target_column = df.columns[-1] # 替换为你的实际列名。# 假设最后一列是因变量的数值列，这里用'target_value'作为示例列名。# 如果不知道列名，可以使用 df.columns[-1] 来获取最后一列的列名。# 提取特征数据（除了因变量的数值列和转换后的类别列）# 将最后一列的数值转换为类别（0或1）# 设置箱型的填充颜色。# 设置中位数线的颜色。# 设置均值线的颜色。

2024-05-15 15:36:13 426

原创计算蛋白口袋开放程度随模拟时间的变化

拟基于选定氨基酸的CA原子定义一个结合口袋中的三角形，然后使用三角形的面积大小表征口袋开放程度的变化。# 假设边长是浮点数，并且每行的第2、3、4个元素是三角形的边长。# 使用你的输入和输出文件名替换'input.txt'和'output.txt'# 将面积结果写入输出文件，每个结果占一行。# 读取文本文件并计算每行三角形的面积，将结果写入新文件。# 遍历文件的每一行。# 计算并返回平均值和标准偏差。# 海伦公式计算三角形面积的函数。# 计算偏差的平方的总和。# 计算平均值和标准偏差的函数。

2024-04-25 17:30:07 564

原创 Python-Excel处理：统计打卡时长

hours, minutes = map(int, time_str.split('小时')[0:2])minutes = int(time_str.split('小时')[1].split('分钟')[0])#minutes = int(time_str.split('分钟')[0])#hours = int(time_str.split('小时')[0])hours = int(time_str.split('小时')[0])df.iloc[row, column+11] = f"无法计算"

2024-04-16 17:17:35 750 1

原创 ML learning

完结撒花-感谢安德鲁

2024-04-12 09:38:11 215

转载【转载】径向分布函数（RDF）计算：从原理到实践

在完成分子动力学模拟之后，需要对模拟轨迹进行分析，计算径向分布函数（Radial Distribution Function, RDF）即是一种常见的分析。大多分子动力学模拟软件提供了计算RDF的功能，但往往不够灵活，也不能适应不同的轨迹格式。是一个用于处理分子动力学轨迹的Python包，它能够接受多种轨迹格式，将不同格式的轨迹作为统一的轨迹对象处理；同时，它也提供了许多性质计算的功能，其中就包括RDF；最后，通过使用Python代码，使得性质计算灵活了许多。

2024-04-08 11:51:06 9197

原创计算二级结构含量

cpptraj输出的第一行是标题行。从第二行开始，每一行包含每个氨基酸对应的二级结构，包含上述8种二级结构，其中，0指的是Coil。#echo $tCount $len_I #len_I为蛋白质氨基酸总数，需要提前获取。#vmd识别TEBHGIC7种，这里将loop区域定为Turn(T)和Coil(C)轨迹的话可以用cpptraj来计算（内置dssp），单纯PDB的话可以直接用VMD来计算，

2024-04-01 15:43:15 438

原创查看Scikit-Learn 中都有哪些监督学习模型

上述代码通过 all_estimators 函数获取所有的分类器和回归器，并打印它们的名称。type_filter 参数用于指定筛选类型，可以选择 'classifier' 或 'regressor'。注意，Scikit-Learn 版本更新可能会导致一些模型的名称变化或新增模型，因此建议在使用时查看官方文档以获取最新信息。# 获取所有 Scikit-Learn 模型的列表。# 打印所有模型的名称。

2024-02-29 16:15:26 421

原创解决Linux卸载磁盘时出现umount: /home/mrc/wanglab: target is busy.

home/mrc/wanglab是数据的挂载点，出现问题时我正在将数据从挂载点cp到本地，导致数据挂载点的数据无法访问（ls /home/mrc/wanglab会卡死）。PS：强制卸载文件系统可能导致数据丢失或文件系统损坏，因此请在操作之前务必备份重要数据。（1）使用lsof命令找到与该文件夹相关的进程的PID，并将其杀死（结果仍无法卸载）结果sudo umount ./wanglab仍无法卸载。要卸载的目标设备还仍在使用中，需要将有关的程序杀死。

2024-02-21 09:22:11 695

原创 USB移动硬盘拔出显示“该设备正在使用中“的万能解决办法

问题：拔U盘或者固态硬盘的时候，有时会遇到以下这种情况“该设备正在使用中。请关闭可能使用该设备的所有程序或窗口，然后重试。”这有可能是此设备中某些文件被某程序占用了。1、打开任务管理器——性能——资源监视器。3、结束进程即可。

2024-01-29 11:43:44 7615

原创蛋白添加ACE，NME

2024.1.28更新：主要对红色部分进行了更新。以避免当xyz坐标的数值连在一起时，使用split函数会导致index的数量不确定，进而造成后续提取元素超出index。#ruichaomao,2022.1.4，处理经过tleap加氢的蛋白体系，为第二次tleap增加ACE+NME做准备。

2024-01-28 00:57:47 963

原创【AMBER】隐式溶剂模拟运行时间比显式长？

在对M86-S1体系进行显式溶剂模拟时的原子数为67644，而隐式溶剂模拟时的原子数为6296。原本以为隐式溶剂MD模拟要比显式的快得多，但是查看速度发现前者的速度为261 ns/day，而后者的速度为135 ns/day。总之就是，对于小体系的话，隐式比显式快，而对于大体系的话，显式模型可能更胜一筹。原因是，速度快慢取决于非键相互作用的计算，显式溶剂模拟有非键截断距离，而隐式溶剂模拟需要计算所有原子的非键相互作用。附：prod.in文件。

2024-01-23 11:08:16 539

原创国际版手游

2、下载Ourplay加速器，打开加速器并打开游戏。，打开后下载对应手游。

2024-01-22 12:00:31 429

原创批量生成mCherry+split intein序列交给AF2预测

（4）./seq_for_predict/ 为输出文件存放的文件夹。#获取C-linker序列。#生成AF2预测的输入序列。#获取N-linker序列。##Extein 序列。

2024-01-09 10:31:44 877 1

原创 #特征工程

相比之下，Boruta算法是一种用于特征选择的方法，它基于随机森林的特征重要性来判断哪些特征是显著的，哪些是次要的。通过结合方差阈值、特征相关性分析、单因素统计测试、递归特征消除和特征重要性等特征选择方案，在减少特征数量的同时，最大限度地保留对目标变量的关键信息，从而提升模型的效率、可解释性，并防止过度拟合的发生。Boruta算法的主要优势在于它能够在考虑随机森林特征重要性的同时，引入阴影特征进行比较，从而更全面地评估特征的显著性。随机森林的特征重要性评估通常使用的是随机森林本身提供的特征重要性方法。

2024-01-08 14:08:15 1605

原创数据预处理——特征缩放

算法，如果我们有两个特征，特征 A 的取值范围在 [1，10]，特征 B 的取值范围在 [1, 100000]。注意，在预测新数据时，一定要使用相同的缩放器对象来进行缩放，以确保应用相同的缩放规则。在这里，你需要使用之前拟合好的缩放器来对新数据进行缩放，以保持相同的缩放规则。根据数据的分布和机器学习模型的需求，选择合适的缩放方法，例如标准化（Standardization）或归一化（Normalization）。使用拟合好的缩放器对训练数据进行缩放，将数据转换为经过标准化或归一化的形式。

2024-01-03 11:08:42 2041

原创 alphafold2在本地计算平台的部署【禁止转载】

Alphafold2有docker和conda两种安装方式，提供的是docker版本的安装教程，conda版是民间修改版。怀着不信民间”歪门邪道“的想法，我原本更倾向于按照官方提供的流程进行部署，然而最后没有成功。安装失败的很重要的一个原因是alphafold2本地部署的相关教程和讨论太少了，当然这也和它本身对硬件的要求有关系：一般的个人电脑完全带不起来。

2023-12-19 13:45:36 4547 17

转载机器学习-深度学习概念总结

机器学习这个词是让人疑惑的，首先它是英文名称Machine Learning(简称ML)的直译，在计算界Machine一般指计算机。这个名字使用了拟人的手法，说明了这门技术是让机器“学习”的技术。但是计算机是死的，怎么可能像人类一样“学习”呢？传统上如果我们想让计算机工作，我们给它一串指令，然后它遵照这个指令一步步执行下去。有因有果，非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受你输入的指令，相反，它接受你输入的数据!

2023-12-14 11:16:49 90

原创 Windows下的du -sh *

当C盘很快就会用满的时候，我们需要知道哪个文件夹最大。在windows上，我们只能看到文件的大小，不能看到文件夹的大小。

2023-12-11 22:02:31 886

转载机器学习-小样本情况下如何机器学习

交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。首先，我们随机的将样本数据分为两部分（比如：70%的训练集，30%的测试集），然后用训练集来训练模型，在测试集上验证模型及参数。第三种是留一交叉验证（Leave-one-out Cross Validation），它是第二种情况的特例，此时S等于样本数N，这样对于N个样本，每次选择N-1个样本来训练数据，留一个样本来验证模型预测的好坏。否则就用S折交叉验证。

2023-11-16 10:37:16 579

原创 Pymol随记

命令：

2023-11-08 09:45:57 2479

原创 NVT模拟时出现水分子空洞，以及NPT时盒子收缩的原理

越大的体系，一开始水盒子得加的越厚，因为有空隙会收缩，需要保证收缩后仍大于cutoff值+2A，否则一个周期内的蛋白会和另一个周期内的自己作用，而发生形变。所以水盒子要厚，一般我默认盒子12A起，density也要多步，至少4次5000步，最后看密度波动，波动值小于1%了就可以走下一步了。NPT时，密度平衡会使得盒子的周期性边界收缩。NVT时水的聚集导致形成“真空气泡”。

2023-11-08 09:41:47 666

原创使用gaussian和antechamber拟合RESP电荷过程

参考：http://jerkwin.github.io/2015/12/08/%E4%BD%BF%E7%94%A8AmberTools+ACPYPE+Gaussian%E5%88%9B%E5%BB%BA%E5%B0%8F%E5%88%86%E5%AD%90GAFF%E5%8A%9B%E5%9C%BA%E7%9A%84%E6%8B%93%E6%89%91%E6%96%87%E4%BB%B6/Gaussian 09C.01及后续版本恢复了误删的代码并且加上了gesp的代码，所以以上关键字全部可以使用。

2023-11-08 09:38:12 768

原创 RMSD VS RMSF

（Xi(tj)-xi）就是t时刻某个原子的位置减去初始时刻它的位置（也是位置偏移量），然后取所有时刻（可以理解为50w个2fs）的偏移量的平方和，然后对时间T取平均，然后开方，就是这个原子在时间T内，相对于初始时刻的RMSF。δi就是某一帧的第i个原子的位置减去参考构象中它的位置（位置偏移量），然后取所有原子的偏移量的平方和，然后对原子数N取平均，然后开方，就是这一帧结构相对于参考构象的RMSD。在轨迹分析中，最经常用，最简单，也最有用的就是这两巨头，二者都是对位移的平方和再求平方根，最后求得均值。

2023-11-08 09:37:38 1280

原创 amber中tleap的用法

整体名就是complex，是自己定义的复合物的名字；残基编号在此复合物中必须是独一无二的（且从第一个残基开始依次编号，如第一个残基的编号为2，则即使第2个残基的编号为888，导入tleap之后默认残基编号也是3）；原子名就是要bond的原子的名字，如CA。bbb = sequence{WAT} # usage: sequence ，LIST中可以用逗号或者用空格。bond 整体名.残基编号.原子名整体名.残基编号.原子名。1，使用tleap创建一个短肽。

2023-11-08 09:35:19 606

原创 openmpi环境问题导致无法使用sander.MPI

解决：猜想会不会是openmpi环境的问题（搞MSDFT的时候将1.6.3版本的openmpi换成了1.4.4），于是将openmpi的版本由1.4.4换成了1.6.3，成功运行。很久没用过amber跑动力学了，在做6ef8动力学的时候想尝试一次，但是没有办法用sander.mpi，有报错。

2023-11-08 09:31:14 140

原创 Charmm-使用笔记

（2）默认使用最新版本，目前的版本是2.2.0（使用的CgenFF版本是4.0）,可以选择使用1.0版本（使用的CgenFF版本是3.0.1），输出结果与charmm-gui结果是一样的。（1）使用方法是先用gv保存分子的mol2文件，然后将mol2文件中的所有Ar替换为ar，在Molecule Name一行改为小分子的名字，然后导入分子，就可以直接生成。2、下载与生成小分子相匹配的CGenFF力场，如：使用的CgenFF版本是2.2.0，则需要使用CgenFF的4.0版本。1、下载最新版本的蛋白质力场。

2023-11-08 09:30:01 1301

原创 NAMD-configure-笔记

用了rigidbonds，就把与氢原子相连的化学键的键长固定在平衡值附近了，因为timestep的选取是和体系的振动频率有关，而氢的振动频率最快，因此，加上rigidbond就降低了振动频率，所以才能用2fs，如果不用rigidbond，则2fs的步长太大，用0.5fs比较合适。——>>>修改：实战中发现体系平行一段时间之后，会有部分小分子远离原来的位置，所>以在体系升温之后，就应该做bond。####上面的是设置系统压力的类型，下面的是设置控压方法，压力应该有，控压方法不一定有（只有平衡时才用控压）。

2023-11-07 10:22:11 181

空空如也

空空如也