日常练习
又要起名字了
这个作者很懒,什么都没留下…
展开
-
贝叶斯算法对PDF文档归类
前段时间看到有个群在招文档分类志愿者,主要工作是把各个渠道收集到的分析报告(PDF格式)进行分类整理,就想起来机器学习中有个朴素贝叶斯算法正好是处理这种语言文字分类的利器,于是决定写一个分类的脚本来玩玩儿。 整个处理思路大致如下: 1、获取PDF文档中文字内容另存在TXT文件(pdfminer) 2、对TXT文件分词并获取特征向量(jieba) 3、划分测试集与训练集并训练模型(sklearn.naive_bayes) 4、使用模型进行预测 需要注意的是,在获取PDF文档中信息时发现部分文档格式原创 2020-12-13 10:05:58 · 479 阅读 · 0 评论 -
多文件分词并统计词频
import os import jieba 数据集如下: folder_path = r"C:\Users\Machine Learning\comments" os.listdir(folder_path) ['201603枕.txt', '201603锅.txt', '201604枕.txt', '201604锅.txt', '201605枕.txt', '201605...原创 2019-04-18 20:35:57 · 2356 阅读 · 2 评论 -
用jieba+wordcloud批量绘制词云
from PIL import Image import numpy as np from wordcloud import WordCloud, ImageColorGenerator from matplotlib import pyplot as plt import jieba import os #定义分词函数 def word_cut(file): with open(...原创 2019-04-19 15:08:57 · 563 阅读 · 0 评论 -
扫福字,集五福——用python制作个性化词云
春节马上到了,又到了集五福的时候。身边没有福字怎么办?往年都是手写来扫,今天脑洞大开,何不试试生成“福”字形的词云,来扫扫看呢?哈哈哈,说干就干: 1、先在网上随便搜了几篇关于怎么集福的文章,然后保存在wufu.txt文件里; 2、读取wufu.txt文件,调用jieba进行分词并将结果保存在wufu中; 3、百度一张福字图片,抠图保存成白色背景png格式; 4、以第三步保存的福字为背景调...原创 2019-01-31 14:40:43 · 2089 阅读 · 1 评论