python通过selenium爬取百度文库

python通过selenium爬取百度文库

参考

https://blog.csdn.net/c406495762/article/details/72331737

https://blog.csdn.net/c406495762/article/details/72331737

运行平台: Windows 
Python版本: Python3.6 

python3.6的docx模块和2.7的不同,直接pip安装会提示缺少依赖

需要先进入pycharm目录 安装python_docx-0.8.7-py2.py3-none-any.whl

pip install python_docx-0.8.7-py2.py3-none-any.whl

再安装docx

pip install docx

python_docx-0.8.7-py2.py3-none-any.whl下载地址:

https://download.lfd.uci.edu/pythonlibs/r5uhg2lo/python_docx-0.8.7-py2.py3-none-any.whl

由于网页的百度文库页面复杂,可能抓取内容不全,因此使用User-Agent,模拟手机登录,然后打印文章标题,文章页数,并进行翻页。

谷歌浏览器需要设置User-Agent

 

 

 

 

# -*- coding: utf-8 -*-
from selenium import webdriver
from bs4 import BeautifulSoup
from docx import Document
from docx.enum.text import WD_ALIGN_PARAGRAPH# 用来居中显示标题
from time import sleep

#目的URL
DEST_URL='https://wenku.baidu.com/view/8962c8dfb9f3f90f76c61b69.html'
#用来保存文档
doc_title = ''
doc_content_list = []
def find_doc(driver, init=True):
    global doc_content_list
    global doc_title
    stop_condition = False
    html = driver.page_source
    soup1 = BeautifulSoup(html, 'lxml')
    if (init is True): # 得到标题
        title_result = soup1.find('div', attrs={'class': 'doc-title'})
        doc_title = title_result.get_text() # 得到文档标题
        # 拖动滚动条
        init_page = driver.find_element_by_xpath( "//div[@class='foldpagewg-text-con']")
        print(type(init_page), init_page)
        driver.execute_script('arguments[0].scrollIntoView();', init_page)
        init_page.click()
        init = False
    else:
        try:
            #按钮剩余多少未读
            #page = driver.find_element_by_xpath( "//div[@class='pagerwg-schedule']")
            #按钮加载更多   点击继续阅读还是会出现点击加载更多 直接点击加载更多一了百了
            next_page = driver.find_element_by_class_name("pagerwg-button")
            #下拉到最下方
            station = driver.find_element_by_xpath( "//div[@class='bottombarwg-root border-none']")
            driver.execute_script('arguments[0].scrollIntoView(false);', station)
           
            # 防止页面加载过慢
            sleep(5)

            next_page.click()
           
        except:
            #结束条件
            stop_condition = True

    #next_page.send_keys(Keys.ENTER)
    #遍历所有的txt标签标定的文档,将其空格删除,然后进行保存
    content_result = soup1.find_all('p', attrs={'class': 'txt'})
    for each in content_result:
       each_text = each.get_text()
       if ' ' in each_text:
           text = each_text.replace(' ', '')
       else:
          text = each_text
       # 得到正文内容
       doc_content_list.append(text)
    # 防止页面加载过慢
    sleep(5)
    if stop_condition is False:
       doc_title, doc_content_list = find_doc(driver, init)
    return doc_title, doc_content_list
def save(doc_title, doc_content_list):
    document = Document()
    heading = document.add_heading(doc_title, 0)
    heading.alignment = WD_ALIGN_PARAGRAPH.CENTER # 居中显示
    for each in doc_content_list:
        document.add_paragraph(each)
    # 处理字符编码问题
    t_title = doc_title.split()[0]
    #在当前脚本路径存储docx文件
    document.save('百度文库-%s.docx'% t_title)
    print("\n\nCompleted: %s.docx, to read." % t_title)
    driver.quit()
if __name__ == '__main__':
    options = webdriver.ChromeOptions()
    options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Mobile Safari/537.36"')
    driver = webdriver.Chrome(chrome_options=options)
    driver.get(DEST_URL)
    #JavascriptExecutor js = (JavascriptExecutor) driver;
    print("**********START**********")
    title, content = find_doc(driver, True)
    save(title, content)
    driver.quit()

 

 

 

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
对于计算机专业的学生而言,参加各类比赛能够带来多方面的益处,具体包括但不限于以下几点: 技能提升: 参与比赛促使学生深入学习和掌握计算机领域的专业知识与技能,如编程语言、算法设计、软件工程、网络安全等。 比赛通常涉及实际问题的解决,有助于将理论知识应用于实践中,增强问题解决能力。 实践经验: 大多数比赛都要求参赛者设计并实现解决方案,这提供了宝贵的动手操作机会,有助于积累项目经验。 实践经验对于计算机专业的学生尤为重要,因为雇主往往更青睐有实际项目背景的候选人。 团队合作: 许多比赛鼓励团队协作,这有助于培养学生的团队精神、沟通技巧和领导能力。 团队合作还能促进学生之间的知识共享和思维碰撞,有助于形成更全面的解决方案。 职业发展: 获奖经历可以显著增强简历的吸引力,为求职或继续深造提供有力支持。 某些比赛可能直接与企业合作,提供实习、工作机会或奖学金,为学生的职业生涯打开更多门路。 网络拓展: 比赛是结识同行业人才的好机会,可以帮助学生建立行业联系,这对于未来的职业发展非常重要。 奖金与荣誉: 许多比赛提供奖金或奖品,这不仅能给予学生经济上的奖励,还能增强其成就感和自信心。 荣誉证书或奖状可以证明学生的成就,对个人品牌建设有积极作用。 创新与研究: 参加比赛可以激发学生的创新思维,推动科研项目的开展,有时甚至能促成学术论文的发表。 个人成长: 在准备和参加比赛的过程中,学生将面临压力与挑战,这有助于培养良好的心理素质和抗压能力。 自我挑战和克服困难的经历对个人成长有着深远的影响。 综上所述,参加计算机领域的比赛对于学生来说是一个全面发展的平台,不仅可以提升专业技能,还能增强团队协作、沟通、解决问题的能力,并为未来的职业生涯奠定坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爷来辣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值