![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大邓Python课程笔记
大邓Python文本分析2019年课程
青风learing
这个作者很懒,什么都没留下…
展开
-
Python批量读取公司年报并进行情感分析--代码实战
import jiebaimport osimport csv# 读取预定的情感词列表def read_dict(file): text = open(file,encoding='gbk').read() text = text.split('\n') words = [w for w in text if w] # 去除空的内容 return word...原创 2020-02-08 19:08:21 · 5159 阅读 · 4 评论 -
Python正则表达式--含代码实战
该文章代码均在jupyter Notebook中运行,且已安装re包使用正则表达式可以保留自己想要的内容,比如仅提取汉字,仅提取数字等,中文汉字的正则表达式 \u4e00-\u9fa5import re text='sdfgfvdscsx是的sd好're.findall(r'[\u4e00-\u9fa5]',text)上文中提取的内容不连续,且提取出的内容为列表形式,需要将其转化为...原创 2020-02-07 18:21:44 · 201 阅读 · 1 评论 -
python中结巴分词思路解析-含代码实战
本文代码均在jupyter Notebook上运行,已安装jieba包结巴常用的函数结巴常用函数作用jieba.lcut(text)对text文件内容进行分词,返回的是分词后的词语列表jieba.load_userdic(txt_file)为防止某些目标词汇分割,需要载入紫东义词典,告诉程序说,这几个字是一个词语,不要分割jieba.lcut(text)代...原创 2020-02-07 14:37:57 · 1339 阅读 · 0 评论 -
Python中pandas相关解析--含代码实战
该文章代码均在jupyter Notebook中运行,且已安装re包原创 2020-02-09 19:50:59 · 420 阅读 · 1 评论