爬虫4

Task4
4.1 Task7 实战大项目
实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。
丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626

# 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。

from selenium import webdriver
import time
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from lxml import etree
import requests

#打开浏览器
browser = webdriver.Chrome()
#访问地址
url = "http://www.dxy.cn/bbs/thread/626626#626626"
browser.get(url)

##登陆代码
def login_denglu(browser):
    try:
        #通过xpath定位到登录按钮,并点击
        browser.find_element_by_xpath('//*[@id="headerwarp"]/div/div[1]/div/a[1]').click()
        #点击返回电脑登录
        browser.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/a[2]').click()
        #找到账号的输入框
        elem = browser.find_element_by_name('username')
        #清空输入框
        elem.clear()
        #输入账号
        elem.send_keys("账号")
        #找到密码的输入框
        elem = browser.find_element_by_name('password')
        #清空输入框
        elem.clear()
        #s输入密码
        elem.send_keys("密码")

        print('开始登录:')
        #点击登录按钮
        browser.find_element_by_xpath('//*[@id="user"]/div[1]/div[3]/button').click()

    except TimeoutException:
        print("Time out")
    except NoSuchElementException:
        print("No Element")

##开始爬取信息
def get_information(browser):
    print("登录成功")
    time.sleep(10)
    print("开始获取信息")
    #利用xpath获取丁香园数据
    data = requests.get(url).text#以文本形式打印网页源码
    s = etree.HTML(data)  # 解析HTML文档

    for i in range(1, 5):  # rang(1,28):1 2 3 4...27,一共27楼
        try:  # 帖子内容这里的第一个帖子的div有点不一样,程序中采用分支处理。
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))  # 格式化信息
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[1]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗:去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)
        except:
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[2]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗:去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)

#主函数
def main():
    login_denglu(browser)  # 登录函数
    get_information(browser)  # 获取标题与链接
    time.sleep(1)  # 休眠

# 函数入口调用
if __name__ == '__main__':
    main()

    input("按任意键退出-> ")
    browser.quit()

参考:https://blog.csdn.net/qq_30006749/article/details/89244810

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SQLAlchemy 是一个 SQL 工具包和对象关系映射(ORM)库,用于 Python 编程语言。它提供了一个高级的 SQL 工具和对象关系映射工具,允许开发者以 Python 类和对象的形式操作数据库,而无需编写大量的 SQL 语句。SQLAlchemy 建立在 DBAPI 之上,支持多种数据库后端,如 SQLite, MySQL, PostgreSQL 等。 SQLAlchemy 的核心功能: 对象关系映射(ORM): SQLAlchemy 允许开发者使用 Python 类来表示数据库表,使用类的实例表示表中的行。 开发者可以定义类之间的关系(如一对多、多对多),SQLAlchemy 会自动处理这些关系在数据库中的映射。 通过 ORM,开发者可以像操作 Python 对象一样操作数据库,这大大简化了数据库操作的复杂性。 表达式语言: SQLAlchemy 提供了一个丰富的 SQL 表达式语言,允许开发者以 Python 表达式的方式编写复杂的 SQL 查询。 表达式语言提供了对 SQL 语句的灵活控制,同时保持了代码的可读性和可维护性。 数据库引擎和连接池: SQLAlchemy 支持多种数据库后端,并且为每种后端提供了对应的数据库引擎。 它还提供了连接池管理功能,以优化数据库连接的创建、使用和释放。 会话管理: SQLAlchemy 使用会话(Session)来管理对象的持久化状态。 会话提供了一个工作单元(unit of work)和身份映射(identity map)的概念,使得对象的状态管理和查询更加高效。 事件系统: SQLAlchemy 提供了一个事件系统,允许开发者在 ORM 的各个生命周期阶段插入自定义的钩子函数。 这使得开发者可以在对象加载、修改、删除等操作时执行额外的逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值