Python如何快速实现新闻采集

最新推荐文章于 2024-05-13 17:12:44 发布

q56731523

最新推荐文章于 2024-05-13 17:12:44 发布

阅读量490

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_44617651/article/details/128542270

版权

作为一名资深技术员，我是经常使用爬虫工具来实现目标快速采集，下面就是我通过Python语言快速采集新闻的代码以及解释，希望能够给大家带来帮助。

直接上代码：

#!/usr/bin/env python3
# Author: veelion

import re
import time
import requests
import tldextract

def save_to_db(url, html):
    # 保存网页到数据库，我们暂时用打印相关信息代替
    print('%s : %s' % (url, len(html)))

def crawl():
    # 1\. download baidu news
    hub_url = 'http://news.baidu.com/'
    res = requests.get(hub_url)
    html = res.text

    # 2\. extract news links
    ## 2.1 extract all links with 'href'
    links = re.findall(r'href=[\'"]?(.*?)[\'"\s]', html)
    print('find links:', len(links))
    news_links = []
    ## 2.2 filter non-news link
    for link in links:
        if not link.startswith('http'):
            continue
        tld = tldextract.extract(link)
        if tld.domain == 'baidu':
            continue
        news_links.append(link)

    print('find news links:', len(news_links))
    # 3\. download news and save to database
    for link in news_links:
        html = requests.get(link).text
        save_to_db(link, html)
    print('works done!')

def main():
    while 1:
        crawl()
        time.sleep(300)

if __name__ == '__main__':
    main()