创建爬虫----遍历单个域名爬取赶集网

爬取赶集网的页面链接

#赶集网首页静态页面的链接爬取
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html=urlopen("http://ty.ganji.com/")
bsObj=BeautifulSoup(html)

for link in bsObj.find("div",{"class":"content-col"}).findAll("a",href=re.compile("^[a-z]")):
   if 'href' in link.attrs:
      print("http://ty.ganji.com/"+link.attrs['href'])

部分运行结果

#出现404HTTPError,修改请求头访问
from bs4 import BeautifulSoup
import requests
import re

session=requests.session()
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36",
         "Accept": "text / html, application / xhtml + xml, application / xml;q = 0.9, image / webp, * / *;q = 0.8"}
#def getlinks(articleUrl):
url="http://ty.ganji.com/fang1/"
req=session.get(url,headers=headers)
bsObj=BeautifulSoup(req.text)
for link in bsObj.find("div",{"class":"f-list js-tips-list"}).findAll("a",href=re.compile("^\/")):
     if 'href' in link.attrs:
         print("http://ty.ganji.com"+link.attrs['href'])

部分运行结果

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值