明月何时园-CSDN博客

原创 pandas 数据分析1

上一篇给大家介绍了使用pandas 读取Excel，CSV格式的数据。今天就给大家接一下数据清洗，在数据挖掘项目中数据清洗大要占到整个项目周期的60%的时间。并且数据清洗的效果很大程度上影响着模型的效果，因此数据清洗数分析和数据挖掘中占有的地位不言而喻。话不多，开始讲数据清洗。首先什么是数据清洗，数据清洗就是根据实际的项目需要，对要用到的数据进行清理。数据清洗主要进行的处理一：对数据中的缺失值进行处理。一般有两种方法，（1）直接删除（2）对缺失值进行补充。二：对异常值得处理。异常值的处理和确

2020-09-13 21:47:26 359

原创 pandas 数据处理1

本片给大介绍数据的读写部分（一）数据读取1：pandas 读取csv数据score_df=pd.read_csv("./学生成绩单.csv",index_col="序号",chunksize=10000,sep=",",skiprows=[1],encoding="utf-8",error_bad_lines=False)下面介绍下常用的参数和含义sep = ",", #csv文件的分割符号版默认为，# Column and Index Locations and Names

2020-08-23 10:58:17 298

原创 pandas 处理数据的一些常见操作,统一处理数据文件中的各种空值

我为一个使用pandas 的先手，在使用pandas 时总是出现各种问题，向大家分析一下。1：首先是数据的读入import pandas as pdscore_df=pd.read_csv("./学生成绩单.csv")当读入大量数据是需要分批读入，防止内存不够使用chunksize 来控制每次读入数据的行数score_df=pd.read_csv("./学生成绩单.csv",chunksize=10000)2：数据文件中空值的处理由于dataframe中的空值与python

2020-08-16 12:52:46 664

原创 Ubuntu pip 安装 ImportError: module 'setuptools.dist' has no attribute 'check_specifier'

在ubuntu 16.04 环境下使用pip3 下载pyhdfs 报错此前安装其他模块一直没有问题pip3 install pyhdfsImportError: module 'setuptools.dist' has no attribute 'check_specifier'使用pip install --upgrade setuptools==30.1.0 成功解决...

2020-03-02 10:51:53 1176

原创 spark 常见问题pyspark Cannot run multiple SparkContexts at once; existing SparkContext

在是使用 pyspark 连接spark 时出现一下错误，当时试了很多方都没有解决，最后终于解决。如下所示ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by <module> at /...

2020-03-02 10:06:15 1550

原创 seq2seq 网络搭建

作为一个自然言语处理的新手，以前都是在做项目是直接下载别人的模型，进行修改之后直接拿来用。前段时间试着自己搭建seq2seq网络踩了很多的坑，终究是勉强的搭建了起来。在此记录一下分享一下，希望能和正在自然语言处理学习和进阶的伙伴共同努力。写的不好也请各位大神恕罪。废话不多说了进入正题。在搭建的过程参考大神的项目https://github.com/wb14123/seq2seq-couplet...

2019-12-30 16:38:10 462

原创 vertbi 维特比分词算法实现

使用维特比算法实分词，所用的词典为搜狗词典 https://download.csdn.net/download/yangheng1/11709090为词典所在分词及过还算可以："今天天气真好啊!我跟李明明说，我们去野外玩吧！小明说我要做作业。北京我爱你"刚入门自然语言处理还望大家不要取笑['今天', '天气', '真', '好啊', '我跟', '李', '明',...

2019-09-10 11:08:16 499

转载资源 | 这套1600赞的NLP课程已开放，面向实战，视频代码都有

课程链接https://www.fast.ai/2019/07/08/fastai-nlp/代码地址 https://github.com/fastai/course-nlp

2019-07-17 11:52:52 4686

原创 word2vec TypeError: 'module' object is not callable

model1=gensim.models.word2vec(sentences,min_count=3,size=200,workers=4)TypeError: 'module' object is not callable使用word2vec训练此项时报错，应该改成model1=gensim.models.Word2Vec(sentences,min_count=3,size=2...

2019-06-28 10:53:32 4196 3

原创 python 读取文本

def get_contract_model(model_path): ''' 获取合同模板的内容 :param model_path: :return: 合同模板每个段落的内容 ''' file=docx.Document(model_path) contract_model=file.paragraphs return cont...

2019-04-16 17:39:59 182

原创 openyxl 公式

刚开使用写公式出现错误，后面突然发现是自己写错了总结下：sheet.cell[cl_end]="=SUM({0}:{1})".format(cl_start,cl_end) #公式表达式TypeError: 'method' object does not support item assignment应该写成sheet[cl_end]="=SUM({0}:{1})".forma...

2019-03-13 09:34:01 403