每天和琦琦学点新知识_大数据_数仓分析

琦琦今天加油了吗？

于 2021-05-02 11:00:10 发布

阅读量158

点赞数

分类专栏：每天学习 #大数据

本文链接：https://blog.csdn.net/weixin_45714844/article/details/116351457

版权

每天学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

#大数据

3 篇文章 1 订阅

订阅专栏

数仓分析

ShopXO免费开源商城系统、国内领先企业级B2C免费开源电商系统，包含PC、h5、微信小程序、支付宝小程序、百度小程序、头条&抖音小程序、QQ小程序、APP、多商户，遵循MIT开源协议发布、基于 ThinkPHP5.1框架研发

1.开启服务

Apache HTTP服务器是世界上使用最广泛的Web服务器。它提供了许多强大的功能，包括动态加载模块，强大的媒体支持，以及与其他流行软件的广泛集成。

启动Apache2、mysql服务，查看Web服务器。
开启服务，使用sudo命令，密码为qingjiao。

sudo service mysql start
sudo service apache2 status

在浏览器地址栏中输入localhost出现ShopXO商城页面

2.requests库

requests是python实现的简单易用的HTTP库，安装request库:

pip install requests

import requests

response = requests.get('URL')  # 请求目标网站

print(response.status_code)  # 打印状态码
print(response.url)  # 打印请求url
print(response.headers)  # 打印头信息
print(response.cookies)  # 打印cookie信息
print(response.text)  # 以文本形式打印网页源码
print(response.content)  # 以字节流形式打印

1.状态码.status_code

获取的信息包括状态码，状态码会展示请求状态(服务器状态)。用于判断URL是否合法。

200:请求成功，返回请求数据
在代码中使用这些信息来做判断

if response.status_code == 200:
	print(success!)
elif response.status_code == 404:
	print(Not Found.)

2.响应内容

GET请求的响应通常在消息体中具有一些有价值的信息，称为有效负载。

.content:以字节方式查看响应内容
.text:文本形式（字符串)

import requests
reponse = requests.get ('url')
print (reponse.text)

python3 / homelqingjiao/python/ code.py >> text.txt    #重定向

3.认识xpath.

跟re、bs4一样，xpath也可以进行页面数据提取。xpath是根据元素的路径来查找页面元素。

前提︰安装lxml包
lxml是一款高性能的Python HTML/XML解析器，利用XPath，可以快速的定位特定元素以及获取节点信息。

4.URL限定条件

最大id: max_tid = ?

url满足条件如下:

#判断url是否合法，是否可连通，HTTP状态码是否为200
def get_url_content (url):
	response = requests.get (url)if response.status_code == 200:
	if "资源不存在或已被删除" in response.text:
		return False
	else:
	#如果可以连通返回网页源码
		html = etree.HTML(response.text)
		return html
	else:
		return False

琦琦今天加油了吗？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
每天和琦琦学点新知识_大数据_数仓分析

数仓分析ShopXO免费开源商城系统、国内领先企业级B2C免费开源电商系统，包含PC、h5、微信小程序、支付宝小程序、百度小程序、头条&抖音小程序、QQ小程序、APP、多商户，遵循MIT开源协议发布、基于 ThinkPHP5.1框架研发1.开启服务Apache HTTP服务器是世界上使用最广泛的Web服务器。它提供了许多强大的功能，包括动态加载模块，强大的媒体支持，以及与其他流行软件的广泛集成。启动Apache2、mysql服务，查看Web服务器。开启服务，使用sudo命令，密码为qi
复制链接

扫一扫