一. 这里是基于对网页进行文本提取
#coding:utf-8
from lxml import etree,html
import chardet
#HTML文件路径,以及读取文件
path = 'C:/Users/zs/Desktop/learning.html' #路径
content = open(path,"rb").read()
print(type(content)) # 输出结果是<class 'bytes'>
page = html.document_fromstring(content) #解析文件
text = page.text_content() #去除所有标签
# print type(text)
# print chardet.detect(text)
print(text) #输出去除标签后的解析结果
知识点:
1.python用lxml解析HTML,这里有一篇博客是关于xml的使用:https://blog.csdn.net/lxh199603/article/details/53192883
2.import chardet:是用来查看字符串编码
3.补充一下‘bytes’类的一些知识:
Bytes 对象只负责以二进制字节序列的形式记录所需记录的对象
# 。bytes是一种比特流,它的存在形式是01010001110这种。
#我们无论是在写代码,还是阅读文章的过程中,肯定不会有
#人直接阅读这种比特流,它必须有一个编码方式,使得它变成有意义的比特流
二、
import sys
import os
import jieba
'''
python3 默认编码是utf-8,所以这里已经不需要这个了
reload(sys)
sys.setdefaultencoding('utf-8')
'''
seq_list=jieba.cut("小鱼儿喜欢花无缺,也喜欢张卫健",cut_all=False)
print ("Default Mode:","/".join(seq_list))
seq_list=jieba.cut("小鱼儿喜欢花无缺,也喜欢张卫健",cut_all=True)
print("Full Mode:","/".join(seq_list))
#搜索引擎模式
seq_list=jieba.cut_for_search("小鱼儿喜欢花无缺,也喜欢张卫健")
print("search:","/".join(seq_list))
# 词性标注
import jieba.posseg as pseg
words=pseg.cut("会飞的的驴")
for w in words:
print(w.word,w.flag)
输出结果:
Default Mode: 小鱼儿/喜欢/花无缺/,/也/喜欢/张卫健
Full Mode: 小鱼/小鱼儿/鱼儿/喜欢/花无缺/无缺///也/喜欢/张卫健
search: 小鱼/鱼儿/小鱼儿/喜欢/无缺/花无缺/,/也/喜欢/张卫健
会 v
飞的 z
的 uj
驴 n