github书籍索引目录

import requests
import bs4
response=requests.get('http://www.69p11.xyz/')
content_response=response.content
soup=bs4.BeautifulSoup(content_response,"lxml")
title=soup.find("article")
print(type(title))#/html/body/div[5]/div/main/div[2]/div[1]/div[7]/div[2]/article/html/body/div[5]/div/main/div[2]/div[1]/div[7]/div[2]/article/h3[3]html body.logged-in.env-production div.application-main div main#js-repo-pjax-container div.container.new-discussion-timeline.experiment-repo-nav div.repository-content div#readme.Box.Box--condensed.instapaper_body.md.js-code-block-container div.Box-body article.markdown-body.entry-content.p-5 h3
<class 'NoneType'>
from lxml import etree
import os
header={
    'Host': 'github.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'
}
con=requests.get('http://www.69p11.xyz/').content
sou=bs4.BeautifulSoup(con,"lxml")
arti=sou.find_all('div',class_='w')
print(type(arti[1]))
f=open('D:\\python_study\\BeautifulPicture\\c.txt','w',encoding='utf8')

for i in arti:
    for j in i.descendants:
        if(j.name=='a'):
            #print(i['href'],i.string)
            if(j.string!=None):
                f.write(j.string+','+j['href']+'\n')
                #print(j['href'],"\t",j.string)
f.close()
#xp=etree.HTML(arti.string)
#con=xp.xpath("//html/body/div[5]/div")
#print(con)
 <class 'bs4.element.Tag'>
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值