自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 利用python将两个文本文件对应位置的元素合并并将合并后的结果写入到新文件中

在我们使用python语言进行文本处理时,也许会遇到这样的情况:所需要的数据一部分存放在a文件中,一部分存放在b文件中,但是要进行完整的数据分析工作,我们需要使用所有的数据,这时,我们就需要将两个文件中的数据合并。思路:分别以列表形式读取两个文件中的数据,然后将两个列表对应位置的元素合并,最后将结果写入新的文件中。将以具体例子说明如何实现上述功能:1)例子相关的所有文件打包上传至百度云:链接:ht...

2018-06-17 15:49:08 5084

原创 利用python对包含离散型特征和连续型特征的数据进行预处理

对数据预处理是进行数据分析的基础环节,数据预处理质量的高低往往能够对实验结果产生很大的影响,现在UCI上的人口调查收入数据集为例,演示如何使用python对该数据集进行预处理。该数据集中每个样本同时包含离散型特征和连续型特征。在进行预处理之前,将原数据集中的训练集部分和测试集部分合并,剔除了包含空值的样本后剩余45222个样本,将标签“>50K”记为1,“<=50K”记为0,并剔除了与...

2018-06-14 22:24:46 13851 3

原创 Excel中整型、日期类型和布尔类型单元格数据的读取

我们在使用Python中的xlrd模块读取excel文件中的内容时经常会遇到以下问题:将单元格中的整型数据读出为浮点型数据,如将4读成4.0;将单元格中的日期类型数据读出为浮点型数据,如将2018/6/13读成46713.0;将单元格中的布尔类型数据读出成浮点型数据,如将1读成1.0。正确地读取数据是进行数据分析的基础,所以提供了一种解决此类问题的思路。在介绍解决方案之前,先介绍一下使用pytho...

2018-06-13 19:20:49 2203

原创 TextRank算法的基本原理及textrank4zh使用实例

    TextRank算法是一种文本排序算法,由谷歌的网页重要性排序算法PageRank算法改进而来,它能够从一个给定的文本中提取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句。其提出论文是: Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computation...

2018-05-18 17:28:51 41511 12

原创 Python xlrd库的使用示例

环境:PyCharm2018.1 + python3.6 + xlrd1.1.0xlrd是python语言中用于读取excel表格内容的库,还有一个xlwt库用于将内容写入excel。本次主要介绍xlrd库的一些简单使用示例,将在下一篇博客中介绍xlwt库的使用。1 xlrd库的安装xlrd的安装有3种方法:1)直接通过控制台安装:pip install xlrd2)通过IDE安装:以PyChar...

2018-05-12 21:47:38 45866 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除