自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (4)
  • 收藏
  • 关注

原创 pandas 数据分析1

上一篇给大家介绍了使用pandas 读取Excel,CSV格式的数据。今天就给大家接一下数据清洗,在数据挖掘项目中数据清洗大要占到整个项目周期的60%的时间。并且数据清洗的效果很大程度上影响着模型的效果,因此数据清洗数分析和数据挖掘中占有的地位不言而喻。话不多,开始讲数据清洗。首先什么是数据清洗,数据清洗就是根据实际的项目需要,对要用到的数据进行清理。数据清洗主要进行的处理一:对数据中的缺失值进行处理。一般有两种方法,(1)直接删除(2)对缺失值进行补充。二:对异常值得处理。异常值的处理和确

2020-09-13 21:47:26 350

原创 pandas 数据处理1

本片给大介绍数据的读写部分(一)数据读取1:pandas 读取csv数据score_df=pd.read_csv("./学生成绩单.csv",index_col="序号",chunksize=10000,sep=",",skiprows=[1],encoding="utf-8",error_bad_lines=False)下面介绍下常用的参数和含义sep = ",", #csv文件的分割符号版默认为,# Column and Index Locations and Names

2020-08-23 10:58:17 292

原创 pandas 处理数据的一些常见操作,统一处理数据文件中的各种空值

我为一个使用pandas 的先手,在使用pandas 时总是出现各种问题,向大家分析一下。1:首先是数据的读入import pandas as pdscore_df=pd.read_csv("./学生成绩单.csv")当读入大量数据是需要分批读入,防止内存不够使用chunksize 来控制每次读入数据的行数score_df=pd.read_csv("./学生成绩单.csv",chunksize=10000)2:数据文件中空值的处理由于dataframe中的空值与python

2020-08-16 12:52:46 656

原创 Ubuntu pip 安装 ImportError: module 'setuptools.dist' has no attribute 'check_specifier'

在ubuntu 16.04 环境下使用pip3 下载pyhdfs 报错此前安装其他模块一直没有问题pip3 install pyhdfsImportError: module 'setuptools.dist' has no attribute 'check_specifier'使用pip install --upgrade setuptools==30.1.0 成功解决...

2020-03-02 10:51:53 1138

原创 spark 常见问题pyspark Cannot run multiple SparkContexts at once; existing SparkContext

在是使用 pyspark 连接spark 时出现一下错误,当时试了很多方都没有解决,最后终于解决。如下所示ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by <module> at /...

2020-03-02 10:06:15 1530

原创 seq2seq 网络搭建

作为一个自然言语处理的新手,以前都是在做项目是直接下载别人的模型,进行修改之后直接拿来用。前段时间试着自己搭建seq2seq网络踩了很多的坑,终究是勉强的搭建了起来。在此记录一下分享一下,希望能和正在自然语言处理学习和进阶的伙伴共同努力。写的不好也请各位大神恕罪。废话不多说了进入正题。在搭建的过程参考大神的项目https://github.com/wb14123/seq2seq-couplet...

2019-12-30 16:38:10 450

原创 vertbi 维特比分词算法实现

使用维特比算法实分词,所用的词典为搜狗词典 https://download.csdn.net/download/yangheng1/11709090为词典所在分词及过还算可以:"今天天气真好啊!我跟李明明说,我们去野外玩吧!小明说我要做作业。北京我爱你"刚入门自然语言处理还望大家不要取笑['今天', '天气', '真', '好啊', '我跟', '李', '明',...

2019-09-10 11:08:16 487

转载 资源 | 这套1600赞的NLP课程已开放,面向实战,视频代码都有

课程链接https://www.fast.ai/2019/07/08/fastai-nlp/代码地址 https://github.com/fastai/course-nlp

2019-07-17 11:52:52 4198

原创 word2vec TypeError: 'module' object is not callable

model1=gensim.models.word2vec(sentences,min_count=3,size=200,workers=4)TypeError: 'module' object is not callable使用word2vec训练此项时报错,应该改成model1=gensim.models.Word2Vec(sentences,min_count=3,size=2...

2019-06-28 10:53:32 4164 3

原创 python 读取文本

def get_contract_model(model_path): ''' 获取合同模板的内容 :param model_path: :return: 合同模板每个段落的内容 ''' file=docx.Document(model_path) contract_model=file.paragraphs return cont...

2019-04-16 17:39:59 178

原创 openyxl 公式

刚开使用写公式出现错误,后面突然发现是自己写错了总结下:sheet.cell[cl_end]="=SUM({0}:{1})".format(cl_start,cl_end) #公式表达式TypeError: 'method' object does not support item assignment应该写成sheet[cl_end]="=SUM({0}:{1})".forma...

2019-03-13 09:34:01 388

原创 python 中文注释报错

python 中文注释报错中文注释报错解决# -*- coding: utf-8 -*-#coding=utf-8在代码开始的地方添加,必须在前两行,加载其他地方无效

2018-02-24 14:09:06 2764 1

spark 安装所需包1.zip

本资源包含了spark3.0和Hadoop2.7.1 的安装包。有本人之前在安装的时候下载包找了很久,在此处打包分享。

2020-03-02

couplet.tar.gz

对联上下联语料语料包含训练集和测试集每个集合都包含in.txt和out.txt文档。可用训练seq2seq 模型

2019-12-30

搜狗中文字典(含词频)搜狗及常用停词表

搜狗中文词典15万词,包含词频,和常用的停词表1980词,当初使用的时候找了很久分享出来

2019-09-10

MATLB 基本数据类型应用

使用matlb 初学者使用,了解数据类型是学习语言的基础,希望对大家有所帮助。

2018-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除