使用scrapy创建一个项目爬取网易云音乐的所有歌手的相关资料

本文介绍如何使用scrapy框架创建一个项目,爬取网易云音乐所有歌手的相关资料。步骤包括:创建项目,创建爬虫,编写爬虫文件,定义字段,设置保存到数据库的逻辑,修改设置文件如user_agent、request_headers和item_pipelines,最后启动爬虫将数据存入数据库。
摘要由CSDN通过智能技术生成

1、创建一个项目

  • scrapy startproject 项目名称
我的项目叫Neteasy_music,所以命令是scrapy startproject Neteasy_music

2、创建一个爬虫

先把目录切换到项目里面

  • cd 项目名称
  • scrapy genspider 爬虫名字 网站地址

 

我这里取的名字是neteasy_music,爬取的网页是music.163.com/discover/artist,

所以命令是scrapy genspider neteasy_music music.163.com/discover/artist

3、编写爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request

from Neteasy_music.items import SingerItem


class NeteasyMusicSpider(scrapy.Spider):
    name = 'neteasy_music'
    allowed_domains = ['music.163.com']
    start_urls = ['https://music.163.com/discover/artist']
    base_url = 'https://music.163.com'

    def parse(self, response):
        # 获取歌手分类链接:如华语男歌手、欧美女歌手的链接
        singer_type_href = response.xpath('//a[@class="cat-flag"]/@href').extract()
        del singer_type_href[0]  # 删除推荐歌手
        for url in singer_type_href:
            full_url = self.base_url + url
            # print(url)
            yield Request(url&#
基于Python Scrapy实现的网易云音乐music163数据爬取爬虫系统 含全部源代码 基于Scrapy框架的网易云音乐爬虫,大致爬虫流程如下: - 以歌手页为索引页,抓取到全部歌手; - 从全部歌手页抓取到全部专辑; - 通过所有专辑抓取到所有歌曲; - 最后抓取歌曲的精彩评论。 数据保存到`Mongodb`数据库,保存歌曲的歌手,歌名,专辑,和热评的作者,赞数,以及作者头像url。 抓取评论者的头像url,是因为如果大家喜欢,可以将他做web端。 ### 运行: ``` $ scrapy crawl music ``` #!/usr/bin/python #-*-coding:utf-8-*- import time from pprint import pprint from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request from woaidu_crawler.items import WoaiduCrawlerItem from woaidu_crawler.utils.select_result import list_first_item,strip_null,deduplication,clean_url class WoaiduSpider(BaseSpider): name = "woaidu" start_urls = ( 'http://www.woaidu.org/sitemap_1.html', ) def parse(self,response): response_selector = HtmlXPathSelector(response) next_link = list_first_item(response_selector.select(u'//div[@class="k2"]/div/a[text()="下一页"]/@href').extract()) if next_link: next_link = clean_url(response.url,next_link,response.encoding) yield Request(url=next_link, callback=self.parse) for detail_link in response_selector.select(u'//div[contains(@class,"sousuolist")]/a/@href').extract(): if detail_link: detail_link = clean_url(response.url,detail_link,response.encoding) yield Request(url=detail_link, callback=self.parse_detail) def parse_detail(self, response): woaidu_item = WoaiduCrawlerItem() response_selector = HtmlXPathSelector(response) woaidu_item['book_name'] = list_first_item(response_selector.select('//div[@class="zizida"][1]/text()').extract()) woaidu_item['author'] = [list_first_item(response_selector.select('//div[@class="xiaoxiao"][1]/text()').extract())[5:].strip(),] woaidu_item['book_description'] = list_first_item(response_selector.select('//div[@class="lili"][1]/text()').extract()).strip() woaidu_item['book_covor_image_url'] = list
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值