爬虫练习（三）爬取知网上文章的摘要---笨方法

最新推荐文章于 2024-08-16 07:51:25 发布

xinbingo

最新推荐文章于 2024-08-16 07:51:25 发布

阅读量1.1k

点赞数 1

分类专栏： Pythong-爬虫文章标签： python selenium 定位

本文链接：https://blog.csdn.net/xinbingo/article/details/121506141

版权

本文介绍了一种使用Python结合Selenium库来爬取知网上文章摘要的方法，旨在学习和掌握爬虫技术。虽然方法较为基础，但能有效实现数据抓取。

摘要由CSDN通过智能技术生成

因为一些特殊的需要，需要爬取一些数据，对之前的进行了更改。供大家交流。采取了一些笨方法，重点是学习使用功能和语言。

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import xlrd
from urllib.parse import urljoin
import time
import random
import json
import csv
import os
import pandas as pd
from itertools import zip_longest
# 设置谷歌驱动器的环境
options = webdriver.ChromeOptions()
# 设置chrome不加载图片，提高速度
options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
# 创建一个谷歌驱动器
browser = webdriver.Chrome()
# tbser=webdriver.Chrome()
# 声明一个全局列表，用来存储字典
data_list = []
def start_spider(aurname):  #爬取知网信息
    # 请求url
    url = 'https://kns.cnki.net/kns/brief/result.aspx?dbprefix=SCDB'
    browser.get(url)
    # 显示等待输入框是否加载完成
    WebDrive