前言
编写scrapy框架软件:pycharm
mysql图形界面工具:navicat
mongodb图形界面工具:Robo 3T
浏览器:Google谷歌
爬取网站:https://china.nba.com/
安装pymysql:在命令行:pip install pymysql
安装pymongo:在命令行:pip install pymongo
一、分析网站
我们将爬取NBA网站的首页的要闻(如图背景为蓝色)
查看源代码并分析
在谷歌浏览器可以选中我们爬取的内容右键copy–copy xpath (不过我喜欢用css选择器)
二、编写爬虫
1、编写item
class MysqlItem(scrapy.Item):
# define the fields for your item here like:
news = scrapy.Field()
url = scrapy.Field()
pass
2、编写spider
import scrapy
from mysql.items import MysqlItem
class SqlSpider(scrapy.Spider):
name = 'sql'
allowed_domains = ['nba.com']
start_urls =