机器学习之文本挖掘(初学1)

一. 这里是基于对网页进行文本提取

#coding:utf-8

from lxml import etree,html
import chardet

#HTML文件路径,以及读取文件

path = 'C:/Users/zs/Desktop/learning.html'                        #路径
content = open(path,"rb").read()
print(type(content))                                                            # 输出结果是<class 'bytes'>
page = html.document_fromstring(content)                      #解析文件
text = page.text_content()                                                 #去除所有标签
# print type(text)
# print chardet.detect(text)
print(text)                                                                           #输出去除标签后的解析结果

知识点:

1.python用lxml解析HTML,这里有一篇博客是关于xml的使用:https://blog.csdn.net/lxh199603/article/details/53192883

2.import chardet:是用来查看字符串编码

3.补充一下‘bytes’类的一些知识:
    Bytes 对象只负责以二进制字节序列的形式记录所需记录的对象
# 。bytes是一种比特流,它的存在形式是01010001110这种。
#我们无论是在写代码,还是阅读文章的过程中,肯定不会有
#人直接阅读这种比特流,它必须有一个编码方式,使得它变成有意义的比特流

二、

import sys
import os
import jieba

'''
python3 默认编码是utf-8,所以这里已经不需要这个了
reload(sys)
sys.setdefaultencoding('utf-8')
'''
seq_list=jieba.cut("小鱼儿喜欢花无缺,也喜欢张卫健",cut_all=False)
print ("Default Mode:","/".join(seq_list))

seq_list=jieba.cut("小鱼儿喜欢花无缺,也喜欢张卫健",cut_all=True)
print("Full Mode:","/".join(seq_list))

#搜索引擎模式
seq_list=jieba.cut_for_search("小鱼儿喜欢花无缺,也喜欢张卫健")
print("search:","/".join(seq_list))

# 词性标注
import jieba.posseg as pseg
words=pseg.cut("会飞的的驴")
for w in words:
    print(w.word,w.flag)

 

输出结果:

Default Mode: 小鱼儿/喜欢/花无缺/,/也/喜欢/张卫健
Full Mode: 小鱼/小鱼儿/鱼儿/喜欢/花无缺/无缺///也/喜欢/张卫健
search: 小鱼/鱼儿/小鱼儿/喜欢/无缺/花无缺/,/也/喜欢/张卫健
会 v
飞的 z
的 uj
驴 n

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值