python2 spider 豆瓣电视剧

最新推荐文章于 2024-02-01 20:11:53 发布

wozaiyizhideng

最新推荐文章于 2024-02-01 20:11:53 发布

阅读量425

点赞数

分类专栏： python 爬虫文章标签： python spider json

本文链接：https://blog.csdn.net/wozaiyizhideng/article/details/79751438

版权

这篇博客主要介绍了在Python2中遇到的使用requests+xpath无法获取豆瓣电视剧数据的问题，并转向使用requests+json成功获取数据的解决方案。通过分析页面源代码和数据来源URL：https://movie.douban.com/j/search_subjects?type=tv&tag=热门&sort=recommend&page_limit=20&page_start=0，博主分享了如何利用json解析来实现数据的抓取。

摘要由CSDN通过智能技术生成

直接上代码，第一种方式获取不到数据。

#.*-coding:utf-8-*-
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from lxml import etree

class spider(object):

    # 获取url对应的网页源码
    def getsource(self,url):
        headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'}
        source = requests.get(url, headers=headers)
        return source.text

    def getNeedInfo(self,sourceHtml):
        selector = etree.HTML(sourceHtml)
        print selector
        result = etree.tostring(selector)
        #print(result.decode("utf-8"))
        fd = open("result.txt", "w")
        fd.write(result.decode("utf-8"))
        fd.close()

        html_title = selector.xpath('//a[@class="item"]/div[@class="cover-wp"]/img//@alt')
        print html_title
        ht

最低0.47元/天解锁文章

wozaiyizhideng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python2 spider 豆瓣电视剧

直接上代码，第一种方式获取不到数据。#.*-coding:utf-8-*-import requestsimport reimport sysreload(sys)sys.setdefaultencoding("utf-8")from lxml import etreeclass spider(object): # 获取url对应的网页源码 def getsour...
复制链接

扫一扫

专栏目录