Python通过关键词爬取csdn博客文章

最新推荐文章于 2023-03-26 00:51:13 发布

yanjiaxin1996

最新推荐文章于 2023-03-26 00:51:13 发布

阅读量3.6k

点赞数 4

分类专栏：项目实训文章标签： Python 爬虫 CSDN博客静态网页

本文链接：https://blog.csdn.net/yanjiaxin1996/article/details/80637823

版权

项目实训专栏收录该内容

8 篇文章 1 订阅

订阅专栏

摘要：利用requests和BeautifulSoup，爬取网页的源代码，从而抓取到有用的字符信息后进行筛选与匹配。

注：csdn提供有搜索栏，可以通过url链接直接进行搜索，搜索结果的界面是动态网页和静态网页结合的。（具体我也不知道为什么，但是确实搜索结果一部分在源代码里有，一部分没有）简单起见，我们只爬取静态的部分，这样我们只需解析源代码就好了。

先上代码：

#通过关键词爬取csdn博客文章

import requests
from bs4 import BeautifulSoup
    
def getHTMLText(url): #作用：得到html的text
    try:
        r= requests.get(url,timeout =30)
        r.raise_for_status
        r.encoding= "utf-8"
        return r.text
    except:
        # print ("getHTMLText出现异常")
        return "getHTMLText出现异常"
    
def getInformation(soup): #作用：将html的有用信息筛选出来并储存到相对应的列表alist中
    
    #通过查看网页源代码，分析得到下面的解析特点。
    data =soup.find_all("dl")  #每个dl里面储存着一篇csdn博客的信息，1个dl里有1个dt和3个dd
    for dl in data:
        ldt=dl.find_all("dt")    #dt里储存着博客的题目
        for dt in ldt:
            # print (type(dt.get_text()))
            text=dt.get_text()
            # print (text)
            indexOfStart=text.find("\n")
            indexOfEnd=text.find("- CSDN博客")
            # print (indexOfStart)
            # print (indexOfEnd)
            title=text[indexOfStart:indexOfEnd-3].replace("\n","")
            print ("标题是："+title)
            # print ("@@@@@@@@@@@@@@@@@@@@@@@@@@@")
        ldd =dl.find_all("dd") #1个dl里有3个dd，分别是作者日期浏览次数，简介，链接
        #作者日期浏览次数
        text = ldd[0].get_text()
        indexOfStart = text.find("作者")
        indexOfEnd = text.find("日期")
        author = text[indexOfStart+3:indexOfEnd - 3]
        print ("作者是：" + author)

        indexOfStart = text.find("日期")
        indexOfEnd = text.find("浏览")
        date = text[indexOfStart + 3:indexOfEnd - 3]
        print ("日期是：" +date)

        text = ldd[0].get_text()
        indexOfStart = text.find("浏览")
        indexOfEnd = text.find("次")
        clickTimes = text[indexOfStart + 3:indexOfEnd - 1]
        print ("浏览次数是：" + clickTimes)

        #简介
        text = ldd[1].get_text()
        text=text.replace("\n","")
        print ("简介是：" + text)

        #链接
        text = ldd[2].get_text()
        print ("链接是：" + text)

        print ("**********************************************************")



def main():
    a=["线程","地址"]
    # keyword="进程"
    keyword=""
    for i in range(len(a)-1):
        keyword=keyword+a[i]+"+"
    keyword = keyword + a[-1]
    # print (keyword)

    html = getHTMLText(r"https://so.csdn.net/so/search/s.do?q="+keyword+"&t=blog&o=&s=&l=")
    soup = BeautifulSoup(html, "html.parser")
    getInformation(soup)

main()

图文解释：下图就是搜索界面，可以看出可以通过url链接直接定位到相关的搜索界面。