自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 如何解决读取csv文件报错: ‘utf-8‘ codec can‘t decode byte 0xb8 in position 210223: invalid start byte

读取csv文件报错: ‘utf-8’ codec can’t decode byte 0xb8 in position 210223: invalid start byte import pandas as pd dataset = pd.read_csv(r'D:/data1/渣土数据正版.csv') 报错如下: 然后如果添加encoding=“utf8”: import pandas as pd dataset = pd.read_csv(r'D:/data1/渣土数据正版.csv',encoding

2020-08-05 15:51:49 7066

原创 python入门零基础(二)

条件与循环语句条件语句二级目录三级目录 条件语句 前言:Python条件语句是通过一条或多条语句的执行结果(True或者False)来决定执行的代码块。 if 语句 二级目录 三级目录

2020-07-23 23:00:10 108

原创 基础入门NLP - 新闻文本分类(二)

数据读取与数据分析1 数据读取2 数据分析2.1 句子长度分析2.2 新闻类别分布2.3 字符分布统计3 数据结论 1 数据读取 前言:本次提供的是新闻文本数据,数据中得每个新闻是不定长的,格式采用csv进行存储,因此可以直接用Pandas完成数据读取的操作。数据获取链接 数据描述:含有训练集20w条样本,具体描述见上一节讲解链接 import pandas as pd #导入 train_df = pd.read_csv(r'D:/data1/train_set.csv', sep='\t',nrows=

2020-07-22 20:43:05 724

原创 python入门零基础(一)

一、python 变量、运算符、数据类型及位运算 1 注释 在python中,注释分为单行注释和多行注释,其中单行注释采用“#内容”表示,而’’’ ‘’’ 或者 “”" “”" 表示区间注释(即多行注释),在三引号之间的所有内容被注释。 #单行注释 print(hello) #hello ''' 多行注释 多行注释 多行注释 ''' print(hello) print(china) print(word) ''' hello china word ''' 2 运算符 运算符分为:算数运算符、比较运算

2020-07-22 12:05:56 123

原创 基础入门NLP - 新闻文本分类

一、Datawhale零基础入门NLP赛事 - Task1 赛题理解 1 赛题理解 赛题名称:零基础入门NLP之新闻文本分类。 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 2 学习目标 理解赛题背景与赛题数据; 完成赛题报名和数据下载,理解赛题的解题思路。 3 赛题数据 赛题以匿名处理后的新闻数据为赛题数据,数据集链接(天池大赛)。赛题

2020-07-21 22:49:33 240

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除