python html抓取，并用re正则表达式解析（二）

最新推荐文章于 2024-09-13 18:11:35 发布

wukong_666

最新推荐文章于 2024-09-13 18:11:35 发布

阅读量1.9k

点赞数 1

分类专栏： python学习文章标签： python html 正则表达式

本文链接：https://blog.csdn.net/wukong_666/article/details/84184946

版权

python学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

需求：
url: “http://search.jd.com/Search?keyword=幼猫猫粮&enc=utf-8#filter”
给出一个jd_search(keyword)方法，keyword为你要查找的东西，比如：猫粮、手机，替换上面url中的keyword，得到一个新网页。用正则表达式解析此网页，得到每个物品的图片、标题、价格、链接，组成一个字典，最后将所有物品的信息放在一个列表中。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import urllib.request
import re

'''
url = "http://search.jd.com/Search?keyword=%E5%B9%BC%E7%8C%AB%E7%8C%AB%E7%B2%AE&enc=utf-8#filter"

print jd_search(keyword)

[dict,dict,dict]
dict {pic:'',title:'',price:'',url:''}
'''

def jd_search(keyword):
    #因为keyword是中文，所以需要先对中文进行转换
	keyword = urllib.parse.quote(keyword)
	url = "http://search.jd.com/Search?keyword={}&enc=utf-8#filter".format(keyword)
	
	result = []

	content = urllib.request.urlopen(url).read()

	content_data = content.decode('utf-8')

	pattern = re.compile(r'<li.*?data-sku="\d+".*?>.*?<div class="p-commit">',re.S)

	basic_content = re.finditer(pattern,content_data)

	for i in basic_content:
		init_dict = {}

		match_content = re.match(r'.*?<div class="p-img">.*?source-data-lazy-img="(.*?)".*?<div class="p-price">.*?<em>(.*?)</em><i>(.*?)</i></strong>.*?<div class="p-name p-name-type-2">.*?title="(.*?)" href="(.*?)".*?<div class="p-commit">',i.group(),re.S)

		init_dict['pic'] = match_content.group(1)
		init_dict['title'] = match_content.group(4)
		init_dict['price'] = match_content.group(2) + match_content.group(3)
		init_dict['url'] = 'http' + match_content.group(5)
		result.append(init_dict)
	return (result)

测试

print (jd_search('幼猫猫粮'))
print (jd_search('充电器'))

wukong_666

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录