beautifulSoap使用


import db,re,os
import socket
from urllib import urlopen
from BeautifulSoup import BeautifulSoup

def mkdir(path=''):
base = '.'
newpath = base + '\\'+path
if (os.path.exists(newpath)):
pass
else:
os.mkdir(newpath)

socket.setdefaulttimeout(600)

url="http://www.example.com"
text2 = urlopen(url).read()
text = BeautifulSoup(text2).prettify()

or

text2 = urlopen('http://www.example.com/').read()
text = BeautifulSoup(text2)
[s.extract() for s in text('script')] #去除 危险的script
[s.extract() for s in text('style')] #去除样式
print text.prettify()




==========================
安装
wget http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.2.1.tar.gz

tar zxf

cd 目录

python setup.py install
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值