机器学习之文本挖掘（初学1）

最新推荐文章于 2024-07-19 06:56:06 发布

NicFish0

最新推荐文章于 2024-07-19 06:56:06 发布

阅读量860

点赞数

分类专栏：文本挖掘

本文链接：https://blog.csdn.net/zxyhfdl/article/details/82928753

版权

文本挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一. 这里是基于对网页进行文本提取

#coding:utf-8

from lxml import etree,html
import chardet

#HTML文件路径，以及读取文件

path = 'C:/Users/zs/Desktop/learning.html' #路径
content = open(path,"rb").read()
print(type(content)) # 输出结果是<class 'bytes'>
page = html.document_fromstring(content) #解析文件
text = page.text_content() #去除所有标签
# print type(text)
# print chardet.detect(text)
print(text) #输出去除标签后的解析结果

知识点：

1.python用lxml解析HTML，这里有一篇博客是关于xml的使用：https://blog.csdn.net/lxh199603/article/details/53192883

2.import chardet：是用来查看字符串编码

3.补充一下‘bytes’类的一些知识：
Bytes 对象只负责以二进制字节序列的形式记录所需记录的对象
# 。bytes是一种比特流，它的存在形式是01010001110这种。
#我们无论是在写代码，还是阅读文章的过程中，肯定不会有
#人直接阅读这种比特流，它必须有一个编码方式，使得它变成有意义的比特流

二、

import sys
import os
import jieba

'''
python3 默认编码是utf-8，所以这里已经不需要这个了
reload(sys)
sys.setdefaultencoding('utf-8')
'''
seq_list=jieba.cut("小鱼儿喜欢花无缺，也喜欢张卫健",cut_all=False)
print ("Default Mode:","/".join(seq_list))

seq_list=jieba.cut("小鱼儿喜欢花无缺，也喜欢张卫健",cut_all=True)
print("Full Mode:","/".join(seq_list))

#搜索引擎模式
seq_list=jieba.cut_for_search("小鱼儿喜欢花无缺，也喜欢张卫健")
print("search:","/".join(seq_list))

# 词性标注
import jieba.posseg as pseg
words=pseg.cut("会飞的的驴")
for w in words:
print(w.word,w.flag)

输出结果：

Default Mode: 小鱼儿/喜欢/花无缺/，/也/喜欢/张卫健
Full Mode: 小鱼/小鱼儿/鱼儿/喜欢/花无缺/无缺///也/喜欢/张卫健
search: 小鱼/鱼儿/小鱼儿/喜欢/无缺/花无缺/，/也/喜欢/张卫健
会 v
飞的 z
的 uj
驴 n