手把手教你用用Python爬取上道网的赞助公司名称

最新推荐文章于 2022-12-23 10:28:11 发布

小白^-

最新推荐文章于 2022-12-23 10:28:11 发布

阅读量209

点赞数 1

分类专栏：分享实战文章标签： python 编程语言

本文链接：https://blog.csdn.net/weixin_46737755/article/details/112789621

版权

分享同时被 2 个专栏收录

122 篇文章 2 订阅

订阅专栏

实战

25 篇文章 1 订阅

订阅专栏

一、前言

上道网是一个手游发行推荐与投融资交易平台。平台聚集手游CP、手游发行、手游渠道、手游外包，投资商以及IP授权商，IP合作、一站式服务。并为之提供合作交易机会。

今天教如何去爬取上道网的赞助公司名称，方便有关人士投资。
在这里插入图片描述

二、实现目标

获取对应的公司名称，保存文档。

三、项目准备

软件：PyCharm

需要的库：requests，fake_useragent，time

网址：http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html

四、项目分析

如何网页访问？

http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-1.html

http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-2.html

http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-3.html

http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-4.html

点击下一页时，每增加一页p-{}.html自增加1，用{}代替变换的变量，再用for循环遍历这网址，实现多个网址请求。

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：810735403

五、项目实现

1.定义一个class类继承object，定义init方法继承self，主函数main继承self。导入需要的库、请求地址。

import requests
from lxml import etree
from fake_useragent import UserAgent
import time

class Shangdao(object):
    def __init__(self):
        self.url = "http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html"  #网站
    def main(self):
        pass

if __name__ == '__main__':
    Siper = Shangdao()
    Siper.main()

2.随机产生UserAgent，防止反爬。

for i in range(1, 50):
            self.headers = {
                'User-Agent': ua.random,
            }

3.发送请求获取响应, 页面回调，方便下次请求。

def get_page(self, url):
        res = requests.get(url=url, headers=self.headers)
        html = res.content.decode("utf-8")
        return html

4.获取公司名称，for遍历。

def page_page(self, html):
        parse_html = etree.HTML(html)
        one = parse_html.xpath('//h2/a/text()')
        for i in one:
            print(i)

5.写入文档。

f = open('公司.doc', 'a', encoding='utf-8')  # 以'w'方式打开文件
            f.write(str(i))

6.调用方法，实现功能。

def main(self):
        stat = int(input("输 入 开 始 （2开始）:"))
        end = int(input("输 入 结 束:"))
        for page in range(stat, end + 1):
            url = self.url.format(page)
            print(url)
            html = self.get_page(url)
            self.page_page(html)
            print("==================第%s页爬取成功！！！！=====================" % page)

项目优化：
1.设置时间延时。

time.sleep(1.4)

六、效果展示

点击绿色小三角运行输入起始页，终止页( 从0页开始 )。
在这里插入图片描述
渠道公司名，结果显示控制台。

保存文档。

七、总结

不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。
希望通过这个项目，能够帮助了解xpath解析页面的基本流程，字符串是如何拼接，format函数如何运用。
本文基于Python网络爬虫，利用爬虫库，实现爬取上道网，但是到自己动手实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。
需要本文完整代码的小伙伴，可以后台加下方地址进行获取。

在这里还是要推荐下我自己建的`Python开发交流学习（qq）群:810735403`，群里都是学Python开发的，如果你正在学习Python ，欢迎你加入，大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2021最新的Python进阶资料和高级开发教程，欢迎进阶中和想深入Python的小伙伴！

**以下内容无用，为本篇博客被搜索引擎抓取使用
(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)
python 是干什么的零基础学 python 要多久 python 为什么叫爬虫
python 爬虫菜鸟教程 python 爬虫万能代码 python 爬虫怎么挣钱
python 基础教程网络爬虫 python python 爬虫经典例子
python 爬虫
(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(￣︶￣)(￣︶￣)
以上内容无用，为本篇博客被搜索引擎抓取使用

小白^-

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
手把手教你用用Python爬取上道网的赞助公司名称

一、前言上道网是一个手游发行推荐与投融资交易平台。平台聚集手游CP、手游发行、手游渠道、手游外包，投资商以及IP授权商，IP合作、一站式服务。并为之提供合作交易机会。今天教如何去爬取上道网的赞助公司名称，方便有关人士投资。二、实现目标获取对应的公司名称，保存文档。三、项目准备软件：PyCharm需要的库：requests，fake_useragent，time网址：http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html四、项目分析
复制链接

扫一扫

专栏目录