SharePoint Online搜索配置（四）--搜索架构（上）--爬网的概念

最新推荐文章于 2021-11-19 16:20:05 发布

DP2

最新推荐文章于 2021-11-19 16:20:05 发布

阅读量834

点赞数

分类专栏： SharePoint Online 文章标签：爬网搜索 Search

本文链接：https://blog.csdn.net/weixin_44669829/article/details/102602611

版权

SharePoint Online 专栏收录该内容

35 篇文章 8 订阅

订阅专栏

其实还有很多可以调整排版的设置没有介绍，当然这些并不难，自己多多练习即可。现在包括后面要介绍到的概念会稍微难理解一些，但是我觉得在介绍种种之前，还是要把爬网这个概念说明一下。

如果有基础或者理解的可以跳过本章不看。爬网用官方的定义来说就是：对内容进行爬网是指系统访问和分析内容及其属性（有时称为“元数据”）从而建立可提供搜索查询服务的内容索引的过程。（https://baike.baidu.com/item/%E7%88%AC%E7%BD%91/3408709?fr=aladdin）
这里提到了几个关键字：
内容
属性
元数据
搜索查询
索引
这里的每一项都可以和SharePoint Online里具体的设置对应起来。

先看一个简单的爬网程序，获取中国教育网里的考试咨询

#导入requests库
import requests
#导入CSV库
import csv
#导入beautifulsoup
from bs4 import BeautifulSoup
#导入正则表达式
import re

#定义user agent
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
headers = {'User-Agent':user_agent}

#用request发送请求
policies = requests.get('http://www.neea.edu.cn/html1/folder/16093/614-1.htm',headers = headers)

#编码改为utf-8
policies.encoding = 'utf-8'
#创建beatifulsoup对象
p = BeautifulSoup(policies.text,'lxml')

#所有包含“content”的链接
reports = p.find_all(href = re.compile('report'))
#定义空表
rows = []

for report in reports:
    href = report.get('href')
    row = {'教育部',report.string,href}
    rows.append(row)

#定义csv
header = ['department','title','link']

with open('e:/policies.csv','w',encoding='gb18030') as f:
    f_csv = csv.writer(f)
    f_csv.writerow(header)
    f_csv.writerows(rows)

print('\n\n\n最新信息获取完成\n结果保存在E盘Policies.csv文件\n\n\n')

程序有点儿小Bug，懒得修了，但是能说明问题，查询结果如下，可以看到把链接，标题和发文部分都分开来了。
在这里插入图片描述
这也就是爬网的基本概念。

说回文章最上面介绍到的几个概念
内容–content，包括内容类型–contentype在上一章已经介绍过用处。
属性，这是尤为重要的一个概念，在SharePoint Online里有两种属性：
托管属性–managed property
爬网属性–crawled property

后面的元数据，搜索查询，索引其实可以理解为为了属性服务的，或者本身代表了属性。如果我新建一个列表，定义了一个新的列，名字较“请假类型”（用之前演示PowerApps的文章里的网页做例子）：
在这里插入图片描述
那么是可以在这个网站的搜索架构中的爬网属性种找到到它的：

ok，不多啰嗦了。概念基本介绍到这里，下一章我们来做配置和使用这些属性并且了解他们之间的关系，并且如何能让这些属性为我们的搜索更好的服务。