python3.6 抓取网页文本并实现词频统计-自然语言处理小项目

最新推荐文章于 2024-09-14 16:52:51 发布

大奸猫

最新推荐文章于 2024-09-14 16:52:51 发布

阅读量6.4k

点赞数 2

分类专栏：自然语言处理文章标签： python 自然语言处理小项目文本抓取词频统计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeziand01/article/details/80513812

版权

自然语言处理专栏收录该内容

8 篇文章 1 订阅

订阅专栏

前言

最近在学习python，看了廖雪峰的入门教程后，想做个小项目来练下手。于是在网上找了一段python 代码。该段代码能实现抓取网页文本，并进行词频分析的功能。

于是自己对照着一条条敲出来，并且自己添加了注释，最后运行成功时，爽爽滴，看来并不难嘛。

代码

以下代码实现了抓取一个web页面内容，然后对文本内容进行分词统计

备注

相应的python模板要安装好，可参考本博客的另一篇博文https://blog.csdn.net/yeziand01/article/details/80512675

>>> from bs4 import BeautifulSoup

>>> import urllib.request #使用urllib模块来抓取web页面

>>> response =urllib.request.urlopen(' http://php.net/')

>>> html=response.read() #结果包含许多需要清理的HTML标签

>>> soup = BeautifulSoup(html,"html5lib") #BeautifulSoup模块来清洗这样的文字

>>> text=soup.get_text(strip=True) #从抓取的网页中得到了一个干净的文本

>>> tokens = [t for t in text.split()] #将文本转换为tokens

>>> for key,val in freq.items(): #以键值的形式打印

... print(str(key)+':'+str(val))

>>>freq = nltk.FreqDist(tokens) #词频统计

>>> freq.plot(20,cumulative=False) #绘图

可以看到，统计结果是有of,a,an等没价值的单词，这些词都属于停用词，可以用下面的代码剔除。

>>> from nltk.corpus import stopwords #导入语料库中的停用词

>>> stopwords.words('english') #英文停用词

>>> clean_tokens = list() #创建一个list

>>> sr = stopwords.words('english') #创建停用词列表

>>> for token in tokens:

... if token not in sr: #剔除停用词

... clean_tokens.append(token)

>>>freq = nltk.FreqDist(clean_tokens) #词频统计

>>> freq.plot(20,cumulative=False) #绘图

参考引用

神级程序员花了三个礼拜来整理的资料！带来Python NLP入门教程！

https://baijiahao.baidu.com/s?id=1581694569881462392&wfr=spider&for=pcp

续集

单单是重敲一遍代码，价值还是有限的。为了能修改代码，本菜鸡便一条条来弄懂代码背后的知识点。

>>> from bs4 import BeautifulSoup #导入 BeautifulSoup模块

知识点：

该模块的库文件夹名称是bs4，安装完后被移入python3的lib库中，所以识别到的库文件就是bs4

>>> import urllib.request #导入urllib模块中的request

知识点：导入

导入=某个模块可用于当前命名空间和当前python解释程序进程

有两种方法，import, from import 。from import可能会造成命名空间冲突，import不会造成命名空间冲突

from Module import other # 直接导入模块中某类、函数或变量，直接other()就可用

from Module import * #导入Module模块中所有'公开'的内容，内容直接可用

import Module #导入 Module 模块，对于模块中的函数，每次调用需要“模块.函数”来用

import Module.other #导入Module模块中的某类，函数或变量

>>> response =urllib.request.urlopen(' http://php.net/') # 使用 urllib模块的 request类的 urlopen函数来抓取web页面php.net

>>> html=response.read() # 结果包含许多需要清理的HTML标签

知识点：read()方法

read方法可以指定一个参数读取多少，如果不指定的话，会一直读取到文件末尾，也就是一次性读取完。如果再次调用read方法，则什么也读取不到，因为文件指针已经移动到了文件末，没有内容。

>>> soup = BeautifulSoup(html,"html5lib") # BeautifulSoup模块来清洗这样的文字

知识点：Beautiful Soup4

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库；

不仅支持 HTML 解析器,还支持一些第三方的解析器，如， lxml，XML，html5lib 但是需要安装相应的库；

参数1：指出要解析的文档是什么类型，目前支持, html, xml, 和 html5
参数2：指定使用哪种解析器: 目前支持, lxml, html5lib, 和 html.parser

>>> text=soup.get_text(strip=True) # 从抓取的网页中得到了一个干净的文本

知识点：get_text()

这个方法获取到包含的所有文版内容，strip=True可除去文本前后的空白，并将结果作为 Unicode 字符串返回。

>>> tokens = [t for t in text.split()] # 将文本转换为tokens

知识点：[] 和 split()

[ ]是数据类型-列表

split() 方法通过指定分隔符对字符串进行分割并返回一个列表，默认分隔符为所有空字符，包括空格、换行(\n)、制表符(\t)等。

>>>freq = nltk.FreqDist(tokens) #词频统计

知识点： FreqDist

nltk库中的函数，接收list后，自动创建字典dict，key是list的元素，value是元素出现的次数

>>> for key,val in freq.items(): #打印key+:+val

... print(str(key)+':'+str(val))

知识点：for循环

通过for来循环来遍历这个dict的key和value

>>> freq.plot(20,cumulative=False) #绘图

知识点：

matplotlib库的函数plot()可绘图，20代表x轴绘制的单词个数，cumulative=False表示非累积分布函数

>>> from nltk.corpus import stopwords #导入语料库中的停用词stopwords

>>> clean_tokens = list() #创建一个空list，存放清洗后的数据

>>> sr = stopwords.words('english') #创建英文停用词列表

>>> for token in tokens:

... if token not in sr: #剔除停用词

... clean_tokens.append(token)

>>>freq = nltk.FreqDist(clean_tokens) #词频统计

>>> freq.plot(20,cumulative=False) #重新绘图

进阶

试验当然不会就模仿，了解就完了。要会修改，迁移才是目标。

以上抓取的是 http://php.net/，换个格式 http://php.net ，仍能抓取成功。

那换个英文网站试下？抓取：https://www.mysql.com/downloads/。(如下图所示) 得到的结果和观察的有差距，比如说网页上显示MySQL这个词汇应该是最多的，但抓取的结果却是Enterprise最多。而且，网页上根本没有EditionMySQL这个词汇，但却被抓取出来。为何会如此呢？是参数问题么？这个有待继续研究。

展望

那中文网站怎么抓取并统计词频？英文的单词能够通过空格来区分，但中文单词并没有空格呀。

于是本项目的下一步就准备研究如何抓取中文网页并实现词频统计。

关注

2
点赞
踩
34

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。