爬取评分网站上面的商家信息

目标

爬取商家内容包括:店铺名,口味,环境,服务,人均消费价格,店铺地址。
在这里插入图片描述

爬取网页

# 导入必要的包
import sys
import os
import re
import requests
import pymysql
from pyquery import PyQuery as pq
# 模仿浏览器进行请求
header_pinlun = {
   
'Host': '“此处添加网站链接”',#版权问题添加链接
'Accept-Encoding': 'gzip',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36',
'Cookie':'navCtgScroll=0; _lxsdk_cuid=16cf0fdbf1561-0266f4c764b96b-6b111b7e-e1000-16cf0fdbf17c8; _lxsdk=16cf0fdbf1561-0266f4c764b96b-6b111b7e-e1000-16cf0fdbf17c8; _hc.v=b4da0ea5-9b43-609d-cb49-83838666b21c.1567411257; cye=hangzhou; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; ctu=5a917cdbd5b3a5f487d381238c2aa7fa2d12fe3851b903bdc1b9cdf8f3024ace; s_ViewType=10; td_cookie=2817421375; dper=9e7994ee21a6789be75fad35d7786bbfe003906c657c91a7910c647850f9d70a8402140b9432fd238a687542623669a7d8dee6de736f694432014e0ca5ba7a52c1b72cc8757261441604e040184593b2bac2905f727b20ac172687ac4e923af9; ll=7fd06e815b796be3df069dec7836c3df; ua=dpuser_2124997298; _lxsdk_s=16ec5796a2c-630-113-5ba%7C1530432278%7C42',
}

header_css = {
   
'Host': 's3plus.meituan.net',
'Accept-Encoding': 'gzip',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36'

}
#     爬取页面

 html = requests.get(url,headers=header_pinlun)
 html.encoding='utf-8'
 print("1 ===> STATUS", html.status_code)
 doc = pq(html.text<
  • 10
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
要使用JS爬取百度地图商家信息,我们可以使用一些常见的爬虫工具和技术。 首先,我们需要使用Node.js环境来运行我们的JS脚本。Node.js提供了一些非常有用的模块,如`request`和`cheerio`,可供我们发起HTTP请求并处理HTML页面。 我们可以使用`request`模块来发送GET请求,获取百度地图商家信息的网页源代码。例如,我们可以发送一个GET请求到特定的URL,并获取到对应页面的HTML内容。 接下来,我们可以使用`cheerio`模块来解析这个HTML内容。`cheerio`模块提供了类似于jQuery的API,可以方便地从HTML文档中提取我们需要的数据。 首先,我们可以使用`cheerio`模块的`load`方法来加载HTML内容。然后,我们可以使用类似于CSS选择器的方式,来获取特定的DOM元素。例如,我们可以使用类似于`$('.class-name')`的语法来获取指定类名的DOM元素。 在我们获取到DOM元素后,我们可以使用`.text()`或`.html()`方法来获取所需的文本或HTML内容。然后,我们可以将这些数据保存起来,或者进行其他操作,比如存储到数据库或导出为CSV文件。 需要注意的是,我们应该遵守网站的使用条款和规定。在爬取百度地图商家信息之前,我们应该确保充分了解相关法律法规,并尽量不会对目标网站的服务器性能造成不必要的影响。 总之,使用JS爬取百度地图商家信息可以借助Node.js环境、`request`模块和`cheerio`模块来实现。通过发送GET请求获取HTML页面,然后使用`cheerio`模块解析HTML内容,我们可以轻松地提取所需的商家信息

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值