Scrapy爬虫教程【三】(对数据进行可视化展示,绘制中国地图、柱状图、饼图)


通过前面两个教程我们已经将爬取到的数据保存至Mysql数据库中,这里我们将Mysql中的数据进行可视化展示

下载安装pyecharts包

pip install pyechart

pip安装不成功的请参考Scrapy爬虫教程【一】中离线安装方法

获取数据

创建jobnums.py文件,从Mysql数据库中获取每个城市的名称和岗位数量并返回。

注意:要创建在jobscrapy文件下,不要创建在spiders文件夹里,因为后续程序会有一个import导包,如果放在spiders文件夹里会出现导包错误的情况。

import pymysql

def select():
    # 保存所有的城市
    citys = []
    # 保存所有的招聘量
    nums = []
    connect = pymysql.Connect(host="localhost", user="root", password="tqa123", port=3306, db="51job", charset="utf8")
    sql = "select address,count(*) from jobinfo group by address"
    cursor = connect.cursor()
    cursor.execute(sql)
    for row in cursor.fetchall():
        city = row[0]
        num = row[1]
        citys.append(city)
        nums.append(num)
    cursor.close()
    connect.close()

    return citys,nums

可见返回的是两个列表,可以打印输出一下,如图:
在这里插入图片描述

绘制柱状图

在spiders文件夹里创建BarJobInfo.py

from pyecharts.charts import Bar    #柱状图的
from pyecharts import options   #标题设置的
from jobscrapy.jobnums import select  #这里就是上面所说的导包

citys,nums = select() #获取数据库数据

# 声明一个Bar对象
bar = Bar()

#添加标题
bar.set_global_opts(
    title_opts=options.TitleOpts(title="柱状图",subtitle="全国各地区招聘信息量"),
    toolbox_opts=options.ToolboxOpts()  #添加快捷工具栏
)

#x轴显示地区
bar.add_xaxis(citys)
#y轴显示数量
bar.add_yaxis("招聘量",nums)
# 生成的html文件
bar.render("BarJobInfo.html")

右键执行该程序,得到BarJobInfo.html文件

在这里插入图片描述
打开查看
在这里插入图片描述

绘制饼图

这个过程与绘制柱状图是一样的,下面就直接放代码了。

PieJobInfo.py

from pyecharts.charts import Pie
from pyecharts import options
from jobscrapy.jobnums import select

citys,nums = select()   #获取数据库数据

pie = Pie()
pie.add("招聘量",[list(i) for i in zip(citys,nums)])   #[('上海',51),('东莞',4)...]   显示数据
pie.set_global_opts(title_opts=options.TitleOpts(title="饼状图",subtitle="全国各地区招聘量"))  #显示标题
pie.set_series_opts(label_opts=options.LabelOpts(formatter="{b}:{d}%")) #显示百分比
pie.render("PieJobInfo.html")

在这里插入图片描述

绘制中国地图

由于中国地图只能显示各省的信息,我们爬取到的数据是精确到市区的,所以在中国地图上无法显示有多少招聘量

MapJobInfo.py

# 用中国地图来展示各个地区的招聘量情况
from pyecharts.charts import Map
from pyecharts import options
from jobscrapy.jobnums import select

citys,nums = select()   #获取数据库数据

data = [(c,n) for c,n in zip(citys,nums)]   #中国地图需要的数据[('上海',51),('东莞',4)...]

map = Map()
map.add("招聘量",data,"china")
map.set_global_opts(
    title_opts=options.TitleOpts(title="全国各省招聘量"),
    legend_opts=options.LegendOpts(is_show=False),
    visualmap_opts=options.VisualMapOpts(max_=200,is_piecewise=True)
)
map.render("MapJobInfo.html")

在这里插入图片描述
转载请注明出处

### 回答1: Python爬虫可以通过网络爬虫技术获取网页数据,然后使用数据可视化工具将数据可视化数据可视化可以帮助我们更好地理解和分析数据,从而更好地做出决策。Python爬虫数据可视化数据科学中非常重要的两个领域,它们可以帮助我们更好地理解和利用数据。 ### 回答2: Python爬虫是一种能够通过编写代码自动从互联网上获取信息的工具。使用Python编写的爬虫程序可以模拟浏览器进行网页数据的抓取,而网页数据可视化是将抓取到的数据以图表、图像等形式展示出来,便于用户直观地理解和分析数据爬虫首先需要选择合适的库,常用的有BeautifulSoup、Scrapy等。BeautifulSoup是一个用于分析HTML和XML文档的Python库,它可以方便地从网页中提取出你感兴趣的数据Scrapy是一个功能强大的Web爬虫框架,它可以自定义爬取策略、并发爬取等。 编写爬虫程序时,首先需要通过指定URL来请求网页数据。使用Python的requests库可以方便地发送HTTP请求,并获取到相应的网页内容。通过解析网页内容,可以找到所需的数据,并将其存储到本地文件或数据库中。 数据可视化则需要借助一些数据可视化库,如Matplotlib、Seaborn、Plotly等。这些库提供了丰富的绘图函数,可以根据数据的不同特点选择合适的图表类型。例如,使用Matplotlib可以绘制折线图、散点图、柱状图等,Seaborn则专注于统计图形的绘制,Plotly可以创建交互式可视化图表等。 在爬取到数据进行可视化后,可以通过图表直观地展示数据的趋势、相对大小等特征。这样的可视化结果可以为决策提供依据,帮助用户更好地理解和分析数据。 综上所述,Python爬虫数据可视化是两个互相关联的领域。Python编写的爬虫程序可以获取网页数据,而使用数据可视化技术可以将抓取到的数据以图形化形式展示出来,使数据更加易于理解和分析。 ### 回答3: Python爬虫是一种用于自动化从互联网上获取数据的工具。它利用Python编程语言的强大库和模块,如requests、BeautifulSoup和Selenium等,可以方便地爬取网页上的数据。 首先,我们需要使用requests库发送HTTP请求获取网页的HTML代码。通过分析HTML结构和标签,我们可以使用BeautifulSoup库提取感兴趣的数据,如标题、内容、链接等。此外,如果网页是通过JavaScript动态生成的,我们可以使用Selenium库模拟浏览器行为来获取完整的数据。 获取到数据后,可以进行进一步的处理和清洗,如去除HTML标签、转换数据类型等。然后,我们可以使用Python中的各种库(如pandas、matplotlib和seaborn)来对数据进行可视化分析。 在数据可视化方面,pandas库可以帮助我们进行数据整理和处理,如对数据进行排序、过滤、聚合等。matplotlib和seaborn库则提供了各种绘图函数,如折线图、柱状图、散点图、饼图等,可以将数据以直观的图形展示出来。 除了基本的统计图表,我们还可以使用地图库(如folium、basemap)将数据地图展示,或者使用词云库(如wordcloud)将文本数据可视化为漂亮的词云图。 总结起来,通过Python爬虫和相关的数据处理和可视化库,我们可以方便地获取网页上的数据,并将其以各种丰富的形式进行可视化呈现。这不仅可以帮助我们更好地理解和分析数据,还可以用于数据报告、数据仪表盘和数据故事等各种应用中。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

缄默:)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值