正则表达式re 匹配pagesource 在爬虫aminer中的应用

aminer中爬取数据正则表达式的写法


一、是什么?

// 以该条为例子
url_list = re.findall('"url":\"(.*?)\"', browser_2.page_source, re.S)
//第一个参数表示符合这个格式的,其中.表任意字符,*表示任意数目,?表示非贪婪规则。如果你不加(),那么你返回的是整个字符串,加了(),你返回的是()里的东西。

//第二个参数是你正则re寻找的源文件

//re.S 表示的是正则模式:这一行找不到不中断,继续下一行

二、使用步骤

代码如下(示例):

    try:
        url_list = re.findall('"url":\"(.*?)\"', browser_2.page_source, re.S)
        homepage=[]
        for url in url_list:
            homepage=homepage+[url.replace("\\u002F", "/")]

        # details = browser_2.find_element_by_xpath('//*[@class="expert_info_content"]')
        # homepage = details.find_elements_by_xpath('//*[@class="homepage baseInfo"]')
        # h = []
        # for url in homepage:
        #     h = h + [url.text]
        #     print(h)

    except:
        homepage="no homepage"

    try:
        papers = re.findall('"pubs":(.*?)}', browser_2.page_source, re.S)
    except:
        papers = "no papers"


    try:
        citation = re.findall('"citations":(.*?),', browser_2.page_source, re.S)
    except:
        citation = "no citation"


    try:
        hindex = re.findall('"hindex":(.*?),', browser_2.page_source, re.S)
    except:
        hindex = "no hindex"
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
信息传递是构成现代社会文明的基本要素,通信系统与网络已经成为人类生活必不可少的基础设施。在我国,信息通信业是国民经济最具成长性、关键性、基础性的产业。随着 AI(人工智能)技术、云计算技术在各个领域的推广和应用,人工智能时代已经启航。 信息通信技术的新一轮发展变革,同样出现了人工智能、云计算、大数据等新技术的身影,多种技术的融合促进信息产业新模式、新业态不断涌现,信息通信业正加速迈向大融合、大变革,继续深刻改变人们的生产生活方式,有利推动了经济社会的持续发展。 为了梳理人工智能和通信的理论、研究、应用的融合发展,我们编写了此份报告,主要内容包括: 一、通信技术领域概述。首先对通信技术的起源进行了回顾,接着按照传输媒质将通信分为有线通信和无线通信,并分别对其进行介绍;然后对通信产业现状及其市场情况进行了介绍。 二、通信领域研究专家简介。利用 AMiner数据对通信领域专家进行深入挖掘,选取十位通信领域有代表性的专家进行简要介绍。 三、AI 在通信领域的研究与应用。在整合前人研究的基础上,利用 AMiner 提供的数据对 AI 和通信领域的热点进行挖掘,对其的机器学习+通信(Machine Learning & Communication)、自然语言处理+通信(Natural Language Processing & Communication)等进行分析。并对未来二者的交叉学科发展做出预测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值