使用BeautifulSoup爬取网页内容并存入数据库案例
学习了Python网络爬虫,完成里一个比较完整的爬虫案例与大家分享
爬取地址:http://www.tipdm.com/cpzx/index.jhtml
任务:爬取网页中产品中心的小标题、简介、超链接,存入数据库
数据库使用的是Mysql,直接使用代码创建数据库数据表以及插入数据
长篇短写,代码如下:
import requests
import pymysql
from bs4 import BeautifulSoup
def get_html_text(url):
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'
}
html_resutl = requests.get(url=url, headers=headers)
return html_resutl.text
def get_title_link_intro(html_text_list):
result_list = list()
for i in range(len(html_text_list)):
result_bs = BeautifulSoup(html_text_list[i],'lxml')
search_con = result_bs.select('#t248 > div > div.con')
for i_con in search_con:
result_list.append([])
result_list[len(result_list) - 1].append(i_con.select('h1>a'