SharePoint Online搜索配置(四)--搜索架构(上)--爬网的概念

其实还有很多可以调整排版的设置没有介绍,当然这些并不难,自己多多练习即可。现在包括后面要介绍到的概念会稍微难理解一些,但是我觉得在介绍种种之前,还是要把爬网这个概念说明一下。

如果有基础或者理解的可以跳过本章不看。爬网用官方的定义来说就是:对内容进行爬网是指系统访问和分析内容及其属性(有时称为“元数据”)从而建立可提供搜索查询服务的内容索引的过程。(https://baike.baidu.com/item/%E7%88%AC%E7%BD%91/3408709?fr=aladdin)
这里提到了几个关键字:
内容
属性
元数据
搜索查询
索引

这里的每一项都可以和SharePoint Online里具体的设置对应起来。

先看一个简单的爬网程序,获取中国教育网里的考试咨询

#导入requests库
import requests
#导入CSV库
import csv
#导入beautifulsoup
from bs4 import BeautifulSoup
#导入正则表达式
import re

#定义user agent
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
headers = {'User-Agent':user_agent}

#用request发送请求
policies = requests.get('http://www.neea.edu.cn/html1/folder/16093/614-1.htm',headers = headers)

#编码改为utf-8
policies.encoding = 'utf-8'
#创建beatifulsoup对象
p = BeautifulSoup(policies.text,'lxml')

#所有包含“content”的链接
reports = p.find_all(href = re.compile('report'))
#定义空表
rows = []

for report in reports:
    href = report.get('href')
    row = {'教育部',report.string,href}
    rows.append(row)

#定义csv
header = ['department','title','link']

with open('e:/policies.csv','w',encoding='gb18030') as f:
    f_csv = csv.writer(f)
    f_csv.writerow(header)
    f_csv.writerows(rows)

print('\n\n\n最新信息获取完成\n结果保存在E盘Policies.csv文件\n\n\n')

程序有点儿小Bug,懒得修了,但是能说明问题,查询结果如下,可以看到把链接,标题和发文部分都分开来了。
在这里插入图片描述
这也就是爬网的基本概念。

说回文章最上面介绍到的几个概念
内容–content,包括内容类型–contentype在上一章已经介绍过用处。
属性,这是尤为重要的一个概念,在SharePoint Online里有两种属性:
托管属性–managed property
爬网属性–crawled property

后面的元数据,搜索查询,索引其实可以理解为为了属性服务的,或者本身代表了属性。如果我新建一个列表,定义了一个新的列,名字较“请假类型”(用之前演示PowerApps的文章里的网页做例子):
在这里插入图片描述
那么是可以在这个网站的搜索架构中的爬网属性种找到到它的:
在这里插入图片描述
ok,不多啰嗦了。概念基本介绍到这里,下一章我们来做配置和使用这些属性并且了解他们之间的关系,并且如何能让这些属性为我们的搜索更好的服务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值