python自动化挖掘、爬虫

import requests,time
from bs4 import BeautifulSoup
# for i in range(1,204):
#     url = 'https://src.sjtu.edu.cn/rank/firm/0/?page=%s'%str(i)
#     s=requests.get(url).text
#     print(s)


# <td class="am-text-center">
# <a href="/list/firm/3086">山东省教育厅</a>
# </td>

def get_edu_name_data():
    for i in range(1,204):
        url = 'https://src.sjtu.edu.cn/rank/firm/0/?page=%s'%str(i) #最开始i是int类型,转换成str类型,填充到url中
        #可以使用try进行容错处理
        try:
            s=requests.get(url).text
            print('->正在获取第%s页面数据'%str(i))
            soup = BeautifulSoup(s, 'lxml')
            #这里使用bs解析,利用tr标签,tr标签中的class:row
            edu1=soup.find_all('tr',attrs={'class': 'row'})
            for edu in edu1:
                edu_name=edu.a.string
                print(edu_name)
                #a+是进行后加
                with open('eduname.txt','a+',encoding='utf-8') as f:
                    f.write(edu_name+'\n')
                    f.close()
        
        except Exception as e:
            time.sleep(1)
            pass
#主函数调用
if __name__ == '__main__':
    get_edu_name_data()

第一个是edu的爬取

import requests
import base64

#https://fofa.info/api/v1/search/all?#email=your_email&key=your_key&qbase64=dGl0bGU9ImJpbmci



def get_fofa_data(email,apikey):
    for eduname in open('eduname.txt',encoding='utf-8'):
        e=eduname.strip()
        search='"%s" && country="CN" && title=="Error 404--Not Found"'%e
        b=base64.b64encode(search.encode('utf-8'))
        b=b.decode('utf-8')
        url='https://fofa.info/api/v1/search/all?email=%s&key=%s&qbase64=%s'%(email,apikey,b)
        s=requests.get(url).json()
        print('查询->'+eduname)
        print(url)
        if s['size'] != 0:
            print(eduname+'有数据啦!')
            for ip in s['results']:
                print(ip[0])
        else:
            print('没有数据')







if __name__ == '__main__':
    email='xxx'
    apikey='xxx'
    get_fofa_data(email,apikey)

第二个是fofa

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值