- 博客(37)
- 收藏
- 关注
原创 2021-1-数据分析-Task2-论文作者统计
统计论文作者出现频率步骤导入数据清洗作者姓名数据统计作者姓名频率画频率图导入数据知识点json格式数据读入方法——需使用json包for函数+enumerate函数,遍历枚举需要的字段值append函数:扩充原来的序列# 载入其他过程中会使用到的包import json #用于载入数据 (数据为json格式的)import seaborn as snsfrom bs4 import BeautifulSoup import reimport requestsimpo
2021-01-16 14:07:01 250
原创 2021-1-数据分析-Task1-论文数据统计
统计2019年后计算机各个方向论文数量步骤拆解数据导入数据预处理——类别信息拆分、保留19年之后数据获取论文类别信息(爬虫)统计计算机方向论文可视化1.数据导入1.1.导入包# 导入所需的包import seaborn as sns # 导入画图的包from bs4 import BeautifulSoup # 导入网页抓取包import re # 用于正则表达式,匹配字符串import requests #用于网络连接,发送网络请求,使用域名获取对应信息import jso
2021-01-13 23:11:01 216
原创 Python基础-异常处理
异常是写代码的过程中经常出现的问题,也是软件构建、跟用户交互必不可少的重要内容。在实际生活中,如果用户没有按照软件代码预想的方式进行操作,导致代码出现异常报错,就需要进行很好的异常处理,引导用户以正确方式使用软件。异常处理主要分为以下内容:一、异常也是一种对象异常是一种Python用来管理程序执行期间发生错误的一种特殊对象;异常有很多常见类型,在上图中有所穷举,适当记住一些可协助自己在写代码的过程中快速理解报错原因,高效的修改代码;异常之间有些存在一定的包含关系;二、异常的处理1. t
2020-07-25 23:49:35 426 2
原创 Python基础-变量、运算符与数据类型
一、变量(一)定义:每个变量都存储了一个值,且程序中可随时修改变量的值,Python只存储最新值;(二)命名注意点:字母、数字和下划线的组合不能以数字开头不能包含空格,欲分隔单词应使用下划线大小写敏感——尽量不要用大写,给自己养成变量命名一致性的好习惯不要与保留变量重名 e.g.int等需要简短而有描述性慎用l和O二、方法方法是Python可对数据执行的操作三、字符串方法大小写类.title() 首字母大写.upper() 全部大写.lower() 全部小写空.
2020-07-22 23:10:24 137
原创 NLP实践打卡-新闻文本分类之赛题理解
根据要求报名天池零基础入门NLP——新闻文本分类新人赛,并已下载好训练集和测试集数据。需要注意的有:(1)本次比赛的评价标准为类别f1_score的均值,提交结果与实际测试集的类别进行对比,结果越大越好。f1_score的计算可以通过sklearn:from sklearn.metrics import f1_scorey_true = [0, 1, 2, 0, 1, 2]y_pred = [0, 2, 1, 0, 0, 1]f1_score(y_true, y_pred, average=‘
2020-07-21 23:09:42 115
原创 分类变量
一、分类变量category的创建及其性质1、分类变量的创建(a)用Series创建pd.Series(["a", "b", "c", "a"], dtype="category")(b)对DataFrame指定类型创建(c)利用内置categorical类型创建cat = pd.Categorical(["a", "b", "c", "a"], categories=['a','b','c'])pd.Series(cat)(d)利用cut函数创建pd.cut(np.random.ra
2020-06-27 23:38:08 3394
原创 文本数据处理注意事项
一、String类型1、string类型与object有所不同(1)字符存取方法不同,返回的数据类型不同(2)有些Series的方法在string上不能使用,因为存储的不是字符串而是字节;(3)string类型存在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan2、string类型的转换如果将一个其他类型的容器直接转换成string类型可能会出错,需要先转换为str型object,再转为string类型;pd.Series([1,2]).astype('str').asty
2020-06-26 23:42:20 271
原创 Jupyter notebook如何更新Pandas包
Pandas包更新使用Jupyter Notebook的情况下如何更新包使用Jupyter Notebook的情况下如何更新包Jupyter Notebook一般是和Anaconda一起使用的,因此包的更新是利用Anaconda Prompt进行的。打开Anaconda Prompt之后,在命令行直接输入Pandas更新的命令。目前国内比较好用的镜像是清华的,因此此处我使用的也是清华镜像。pip install --upgrade pandas -i https://pypi.tuna.tsing
2020-06-21 11:17:00 12273 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人