Python 采集数据

最新推荐文章于 2022-10-31 14:32:53 发布

栖云三

最新推荐文章于 2022-10-31 14:32:53 发布

阅读量898

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wm5i5i/article/details/43760889

版权

这篇博客介绍了如何使用Python进行网页数据采集。首先通过`urllib.request`模块的`urlopen`函数获取网页内容，然后展示了如何使用`http.client`模块进行HTTP连接，并设置请求头。最后，使用`urllib.request`模块的`Request`和`urlopen`方法完成同样的数据采集任务，强调了设置User-Agent和Cookie的重要性。

摘要由CSDN通过智能技术生成

from urllib.request import urlopen
for line in urlopen('http://www.baidu.com/'):
    print(line)

#!/usr/bin/env python
# -*- coding:utf-8 -*-
#

import http.client

cHeader = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0',
'Host':'www.baidu.com',
'Referer':'http://www.baidu.com',
'Cookie':'t=1766da7fa03df9fdb66af1ebaa160ecc;'}

conn = http.client.HTTPConnection('www.baidu.com')
conn.request('GET', '/', None, cHeader)
res = conn.getresponse()

print(res.status, res.reason)
print('-----------------')
print(res.msg)

#!/usr/bin/env python
# -*- coding:utf-8 -*-
#

import urllib.request

cHeader = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 采集数据

from urllib.request import urlopenfor line in urlopen('http://www.baidu.com/'): print(line)#!/usr/bin/env python# -*- coding:utf-8 -*-#import http.clientcHeader = {'User-Agent':'Mozil
复制链接

扫一扫

专栏目录

栖云三 CSDN认证博客专家 CSDN认证企业博客

码龄16年

18: 原创

42万+: 周排名

222万+: 总排名

4万+: 访问

: 等级

570: 积分

8: 粉丝

8: 获赞

26: 评论

21: 收藏

私信

关注

热门文章

分类专栏

真百式 1篇
美食 1篇
PHP 7篇
MySql 2篇
Javascript 1篇
MongoDB 6篇
Vue.js
Node.js
CSS 1篇
Python 3篇
C# 4篇
信息
Go
区块链

最新评论

淘宝联盟淘宝客私域用户管理百川SDK 接入简介
idisc 回复栖云三: 清楚了，以前在它的api里没注意到公共参数这一项，所以总也没有找到相关信息。谢谢！但是还有个问题就是我申请的渠道管理权限怎么总也不下来，很着急
淘宝联盟淘宝客私域用户管理百川SDK 接入简介
栖云三回复 idisc: 这个API，需要用户授权，就必须传sessionKey，你在公共参数里面可以看到（参数名叫session），sessionKey是参数，不是响应
淘宝联盟淘宝客私域用户管理百川SDK 接入简介
idisc: 5。上面返回的access_token，就是sessionKey。通过taobao.tbk.sc.publisher.info.save，就可以获取会员运营ID或者渠道ID。 http://open.taobao.com/api.htm?docId=37988&docType=2 这几话我怎么理解， taobao.tbk.sc.publisher.info.save传参数中没有响应的sessionKey字段呀，这块该怎么处理？
淘宝联盟淘宝客私域用户管理百川SDK 接入简介
idisc 回复栖云三: 5。上面返回的access_token，就是sessionKey。通过taobao.tbk.sc.publisher.info.save，就可以获取会员运营ID或者渠道ID。 http://open.taobao.com/api.htm?docId=37988&docType=2 这几话我怎么理解， taobao.tbk.sc.publisher.info.save传参数中没有响应的sessionKey字段呀，这块该怎么处理？
淘宝联盟淘宝客私域用户管理百川SDK 接入简介
qq3042257362: 能私信一个账号？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。