Python数据处理
文章平均质量分 50
feiGeorge
首都医科大学本科生
展开
-
python 导入txt文件并删除换行符并提取部分内容———MIMIC-IV/MIMIC-CXR文本报告预处理
首先看我们的txt数据:我想要将这篇报告中的findings提取成为一行字符串。像这样如果我们使用panda.read_table读取,将会变成这样的dataframe类型:下面放上我的代码,非常简单f = open(r"E:\MIMIC-IV\MIMIC-CXR\MIMIC-cxr-report\%s"%study_path,"r")study_p=f.read().split('FINDINGS:')[1].split('IMPRESSION:')[0].strip().replace("\原创 2021-11-27 23:33:54 · 1894 阅读 · 1 评论 -
pandas两表正则,判断每个样本多行数据是否属于另一个列表,MIMIC数据集的患者疾病分类
目录使用场景Python实现使用场景使用场景是这样的,MIMIC医疗数据集中,患者诊断以ICD编码的形式给出。往往一个大类疾病对应多个ICD编码。如肺癌患者的ICD编码在CCW中定义为以下ICD10编码,而患者的诊断编码形式如右侧所示,每个患者对应的多个ICD_code中存在一个包含于左侧列表,则该患者为肺癌患者。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/a52afb3e155f45aaa3a5b20dffe118f7.pngPython实原创 2021-11-18 00:16:40 · 905 阅读 · 0 评论 -
使用distance.squareform时进行向量矩阵转换以及出现“The matrix argument must be square“报错的解决方案
在计算相似性问题时,没两个样本之间计算距离,可以产生一个nn的相似性矩阵,其中共有n(n-1)/2个不重复的相似性。因此为了便于储存,我们通常将其储存成为向量形式,节省储存空间和读取速度。我这里使用了4103个样本,于是计算得到了8415253维的向量,在读取后,我需要重新获取完整的相似性矩阵,从而进行谱聚类。于是我使用pd.read_csv读取相似性向量,获得一个8415253*1的Dataframe格式的变量。使用distance.squareform()函数进行矩阵变换时,却出现了报错Haar_原创 2021-06-27 22:37:48 · 1027 阅读 · 0 评论