python3 爬取数据并保存到MySQL

最新推荐文章于 2024-04-22 11:23:15 发布

田野啸风

最新推荐文章于 2024-04-22 11:23:15 发布

阅读量996

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_44439675/article/details/115182554

版权

Python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、效果示意：
1.输出：
在这里插入图片描述
2.爬取效果：
3.表结构：

二、核心代码：
1、导入：

import requests
from bs4 import BeautifulSoup
import time
import pymysql

2、爬取数据方法：

# 爬取数据
def get_information(page=0):
    url = 'https://bbs.hupu.com/bxj-postdate-' + str(page+1)
    headers={
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
        "Referer": "https://bbs.hupu.com/bxj"
    }
    r = requests.get(url,headers=headers)
    soup = BeautifulSoup(r.content.decode("utf-8"),"html.parser")
    out = soup.find("ul",attrs={"class":"for-list"})
    datas = out.find_all('li')
    datas_list = []
    try:
        for data in datas:
            title = data.find('a', attrs={"class":"truetit"}).text.split()[0]
            artical_link = "https://bbs.hupu.com" + data.find('a', attrs={"class": "truetit"}).attrs['href']
            author = data.find('a', class_="aulink").text
            author_link = data.find('a', class_="aulink").attrs['href']
            create_time = data.find('a', style="color:#808080;cursor: initial; ").text
            lastest_reply = data.find('span', class_='endauthor').text

            datas_list.append({"title":title,"artical_link":artical_link,"author":author,"author_link":author_link,"create_time":create_time,"lastest_reply":lastest_reply})
    except:
        None
    return datas_list

3、存储到Mysql（核心）：

if __name__ == "__main__":
    config = {
          'host':'localhost',
          'port':3306,
          'user':'localhost',
          'password':'123456',
          'charset':'utf8',
          'database':'hx_users',
    }
    connection = pymysql.connect(**config)  # 创建连接

    try:
        cur = connection.cursor()  # 创建游标
        for page in range(2):
            datas = get_information(page)
            for data in datas:
                cur.execute("INSERT INTO hupu_datas (title, artical_link, author, author_link,create_time, lastest_reply) VALUES(%s,%s,%s,%s,%s,%s)",(data['title'], data['artical_link'], data['author'], data['author_link'], data['create_time'], data['lastest_reply']))
            print("正在爬取第%s页"%(page+1))
            time.sleep(1)
    except:
        connection.rollback()           # 若出错了，则回滚
    finally:
        cur.close()  # 关闭游标
        connection.commit()  # 提交事务
        connection.close()  # 关闭连接

田野啸风

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
4
评论
python3 爬取数据并保存到MySQL

一、效果示意：1.输出：2.爬取效果：3.表结构：二、核心代码：1、引入：import requestsfrom bs4 import BeautifulSoupimport timeimport pymysql2、爬取数据方法：# 爬取数据def get_information(page=0): url = 'https://bbs.hupu.com/bxj-postdate-' + str(page+1) headers={ "user-age
复制链接

扫一扫