python爬虫——带你爬取古诗名句，考试什么的不就是轻轻松松

最新推荐文章于 2024-04-14 14:21:48 发布

49.99%

最新推荐文章于 2024-04-14 14:21:48 发布

阅读量1.2k

点赞数 1

分类专栏：爬虫 python 文章标签： python 爬虫

原文链接：https://cloud.tencent.com/developer/article/1568364

版权

python 同时被 2 个专栏收录

604 篇文章 19 订阅

订阅专栏

爬虫

203 篇文章 15 订阅

订阅专栏

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云作者：py3study

( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 )
在这里插入图片描述

一. 概要

1.通过python爬虫循环爬取古诗词网站古诗名句
2.落地到本地数据库

二. 页面分析

首先通过firedebug进行页面定位：
在这里插入图片描述
其次源码定位：

最终生成lxml etree定位div标签源码：

response = etree.HTML(data)
for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'):
    content = row.xpath('a/text()')[0]
    origin = row.xpath('a/text()')[-1]
    self.db.add_new_row('mingJuSpider', {'content': content, 'origin': origin, 'createTime': str(date.today())})

三. 执行结果

在这里插入图片描述

四. 脚本源码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
@Date    : 2017/12/21 12:35
@Author  : kaiqing.huang
@File    : mingJuSpider.py
'''
from utils import MySpider, MongoBase
from datetime import date
from lxml import etree
import sys

class mingJuSpider():
    def __init__(self):
        self.db = MongoBase()
        self.spider = MySpider()

    def download(self):
        for pageId in range(1,117):
            url = 'http://so.gushiwen.org/mingju/Default.aspx?p={}&c=&t='.format(pageId)
            print url
            data = self.spider.get(url)
            if data:
                self.parse(data)

    def parse(self, data):
        response = etree.HTML(data)
        for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'):
            content = row.xpath('a/text()')[0]
            origin = row.xpath('a/text()')[-1]
            self.db.add_new_row('mingJuSpider', {'content': content, 'origin': origin, 'createTime': str(date.today())})

if __name__ == '__main__':
    sys.setrecursionlimit(100000)
    do = mingJuSpider()
    do.download()

49.99%

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python爬虫——带你爬取古诗名句，考试什么的不就是轻轻松松

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者：py3study( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 )一. 概要1.通过python爬虫循环爬取古诗词网站古诗名句2.落地到本地数据库二. 页面分析首先通过firedebug进行页面定位：其次源码定位：最终生成l
复制链接

扫一扫