每天和琦琦学点新知识_大数据_数仓分析

数仓分析

ShopXO免费开源商城系统、国内领先企业级B2C免费开源电商系统,包含PC、h5、微信小程序、支付宝小程序、百度小程序、头条&抖音小程序、QQ小程序、APP、多商户,遵循MIT开源协议发布、基于 ThinkPHP5.1框架研发

1.开启服务

Apache HTTP服务器是世界上使用最广泛的Web服务器。 它提供了许多强大的功能,包括动态加载模块,强大的媒体支持,以及与其他流行软件的广泛集成。

  • 启动Apache2、mysql服务,查看Web服务器。
  • 开启服务,使用sudo命令,密码为qingjiao
sudo service mysql start
sudo service apache2 status

在浏览器地址栏中输入localhost出现ShopXO商城页面

2.requests库

requests是python实现的简单易用的HTTP库,安装request库:

pip install requests
import requests

response = requests.get('URL')  # 请求目标网站

print(response.status_code)  # 打印状态码
print(response.url)  # 打印请求url
print(response.headers)  # 打印头信息
print(response.cookies)  # 打印cookie信息
print(response.text)  # 以文本形式打印网页源码
print(response.content)  # 以字节流形式打印
1.状态码.status_code

获取的信息包括状态码,状态码会展示请求状态(服务器状态)。用于判断URL是否合法。

200:请求成功,返回请求数据
在代码中使用这些信息来做判断

if response.status_code == 200:
	print(success!)
elif response.status_code == 404:
	print(Not Found.)
2.响应内容

GET请求的响应通常在消息体中具有一些有价值的信息,称为有效负载。

.content:以字节方式查看响应内容
.text:文本形式(字符串)

import requests
reponse = requests.get ('url')
print (reponse.text)
python3 / homelqingjiao/python/ code.py >> text.txt    #重定向
3.认识xpath.

跟re、bs4一样,xpath也可以进行页面数据提取。xpath是根据元素的路径来查找页面元素。

前提︰安装lxml包
lxml是一款高性能的Python HTML/XML解析器,利用XPath,可以快速的定位特定元素以及获取节点信息。

4.URL限定条件

最大id: max_tid = ?

url满足条件如下:

#判断url是否合法,是否可连通,HTTP状态码是否为200
def get_url_content (url):
	response = requests.get (url)if response.status_code == 200:
	if "资源不存在或已被删除" in response.text:
		return False
	else:
	#如果可以连通返回网页源码
		html = etree.HTML(response.text)
		return html
	else:
		return False
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

琦琦今天加油了吗?

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值