Python爬取新闻网站的标题和链接存入Excel

最新推荐文章于 2024-06-08 11:00:00 发布

我是修行千年的板蓝根

最新推荐文章于 2024-06-08 11:00:00 发布

阅读量3.6k

点赞数 5

文章标签： Python 爬虫

本文链接：https://blog.csdn.net/weixin_43857152/article/details/85098893

版权

本文介绍如何使用Python爬虫技术从新闻网站抓取文章标题和链接，通过实例讲解相关代码实现，并最终将数据存储到Excel表格中，便于后续分析处理。

摘要由CSDN通过智能技术生成

最近爬取的一个新闻网站的标题和新闻页的链接还有发布时间。用到了BS4和re，在对要进行爬取的网页url处理时，我选择的是放入Quene中，调用。其实放入set()或者存为txt都可以。
正则用的不是太66，所以正则部分显得有点牵强。
数据存储选择为Excel，可以存为MySQL的，代码还没写，稍后会添加进来。代码还有不足之处，在做修改。

# coding:utf-8

import requests
import random
import re
from Queue import Queue
from bs4 import BeautifulSoup
from xlwt import *
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

class spider_web_news():
    def __init__(self):
        # 请求头
        user_agent = [
            'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.101 Safari/537.36',
            "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36",
            "Mozi

最低0.47元/天解锁文章

我是修行千年的板蓝根

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
Python爬取新闻网站的标题和链接存入Excel

最近爬取的一个新闻网站的标题和新闻页的链接还有发布时间。用到了BS4和re，在对要进行爬取的网页url处理时，我选择的是放入Quene中，调用。其实放入set()或者存为txt都可以。正则用的不是太66，所以正则部分显得有点牵强。数据存储选择为Excel，可以存为MySQL的，代码还没写，稍后会添加进来。代码还有不足之处，在做修改。# coding:utf-8import reques...
复制链接

扫一扫