工具:Ubuntu、pycharm
打开京东,输入python:https://search.jd.com/Search?keyword=python&enc=utf-8&wq=python&pvid=24be3f6bbd364413aa0b8d9cdac5f468
此为目标网址。
第一步,在终端打开docker(docker没装的自行百度):
~$ sudo service docker start
第二步,连接splash容器:
~$ sudo docker images
~$ sudo docker run -p 8050:8050 scrapinghub/splash
第四步,新建一个py文件,运行如下代码:
import re
import requests
import pymongo
from pyquery import PyQuery as pq
client=pymongo.MongoClient('localhost',port=27017)
db=client['JD']
def page_parse(html):
doc