Python-网络爬虫之BeautifulSoup

玉米丛里吃过亏

于 2017-05-21 21:51:08 发布

阅读量676

点赞数 1

分类专栏： python 网络爬虫文章标签：网络爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y472360651/article/details/72614976

版权

python 同时被 2 个专栏收录

99 篇文章 12 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

在上一节记录了如何使用urllib进行网络爬虫，并将数据存储。但是我当时是使用的正则表达式进行的数据过滤，有些不全面。接下来我将记录一种更加方便的解析数据的操作–BeautifulSoup:

安装beautifulsoup4

在这里插入图片描述

导包

import urllib.request
from bs4 import BeautifulSoup

代码实现

#coding:utf-8
import urllib.request
from bs4 import BeautifulSoup


class Reptile(object):

    def start(self):
        pageCount = 10;
        currentPage = 1;
        while currentPage <= pageCount:
            url = "http://www.neihan.net/text_%d.html"%currentPage
            send_headers = {
                "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
            }
            print("开始爬取第%d页的数据..." % currentPage)
            file = urllib.request.Request(url,headers=send_headers)
            html = urllib.request.urlopen(file).read().decode("utf-8")
            info = BeautifulSoup(html,"html.parser")
            # 匹配所有<dd class="content">的标签
            contents = info.find_all("dd", {"class": "content"})
            self.writeToFile(contents)
            print("爬取第%d页的数据完毕"%currentPage)
            currentPage+=1

    def writeToFile(self,list):
        for temp in list:
            file = open("段子.txt","a")
            # 获取标签的内容
            file.write(temp.get_text())
            file.write("\n\n")
            file.close()



if __name__ == "__main__":
    reptile = Reptile()
    reptile.start()

玉米丛里吃过亏

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python-网络爬虫之BeautifulSoup

在上一节记录了如何使用urllib进行网络爬虫，并将数据存储。但是我当时是使用的正则表达式进行的数据过滤，有些不全面。接下来我将记录一种更加方便的解析数据的操作–BeautifulSoup:安装beautifulsoup4导包import urllib.requestfrom bs4 import BeautifulSoup代码实现#coding:utf-8import urllib.reque
复制链接

扫一扫

专栏目录

玉米丛里吃过亏 CSDN认证博客专家 CSDN认证企业博客

码龄12年

198: 原创

3万+: 周排名

29万+: 总排名

108万+: 访问

: 等级

8421: 积分

252: 粉丝

352: 获赞

121: 评论

1421: 收藏

私信

关注

热门文章

分类专栏

android 15篇
linux 16篇
python 99篇
fastapi 7篇
flask 11篇
mysql 11篇
html
mongodb 5篇
redis 2篇
运维
网络爬虫 2篇
elasticsearch 11篇
mac 3篇
nginx 4篇
scrapy 9篇
gunicorn 1篇
sanic 10篇
docker 13篇
go 8篇
git 1篇
hbase 8篇
sqlserver 1篇

最新评论

Gogs-搭建自己的Git服务器
满天点点星辰: 您好，在创建仓库时，勾选了复选框“使用选定文件和模板初始化仓库”，为什么不能初使化啊，直接报500
Linux下安装Thrift
এ钱多多: 为什么执行了configure一步，但是执行make还是报错，说没有指明目标
MySQL ERROR 1698 (28000) 错误
得来闲时且偷闲: 文章有问题，会导致意外报错，无法登陆，请勿相信
Python-标准库calendar的使用
bigdataXiaoye: 哈哈，这么恐怖的嘛
Python-标准库calendar的使用
北岛荒凉、: 你能想象二级python考calendar，这么多函数名记个鬼。。。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。