其实还有很多可以调整排版的设置没有介绍,当然这些并不难,自己多多练习即可。现在包括后面要介绍到的概念会稍微难理解一些,但是我觉得在介绍种种之前,还是要把爬网这个概念说明一下。
如果有基础或者理解的可以跳过本章不看。爬网用官方的定义来说就是:对内容进行爬网是指系统访问和分析内容及其属性(有时称为“元数据”)从而建立可提供搜索查询服务的内容索引的过程。(https://baike.baidu.com/item/%E7%88%AC%E7%BD%91/3408709?fr=aladdin)
这里提到了几个关键字:
内容
属性
元数据
搜索查询
索引
这里的每一项都可以和SharePoint Online里具体的设置对应起来。
先看一个简单的爬网程序,获取中国教育网里的考试咨询
#导入requests库
import requests
#导入CSV库
import csv
#导入beautifulsoup
from bs4 import BeautifulSoup
#导入正则表达式
import re
#定义user agent
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
headers = {'User-Agent':user_agent}
#用request发送请求
policies = requests.get('http://www.neea.edu.cn/html1/folder/16093/614-1.htm',headers = headers)
#编码改为utf-8
policies.encoding = 'utf-8'
#创建beatifulsoup对象
p = BeautifulSoup(policies.text,'lxml')
#所有包含“content”的链接
reports = p.find_all(href = re.compile('report'))
#定义空表
rows = []
for report in reports:
href = report.get('href')
row = {'教育部',report.string,href}
rows.append(row)
#定义csv
header = ['department','title','link']
with open('e:/policies.csv','w',encoding='gb18030') as f:
f_csv = csv.writer(f)
f_csv.writerow(header)
f_csv.writerows(rows)
print('\n\n\n最新信息获取完成\n结果保存在E盘Policies.csv文件\n\n\n')
程序有点儿小Bug,懒得修了,但是能说明问题,查询结果如下,可以看到把链接,标题和发文部分都分开来了。
这也就是爬网的基本概念。
说回文章最上面介绍到的几个概念
内容–content,包括内容类型–contentype在上一章已经介绍过用处。
属性,这是尤为重要的一个概念,在SharePoint Online里有两种属性:
托管属性–managed property
爬网属性–crawled property
后面的元数据,搜索查询,索引其实可以理解为为了属性服务的,或者本身代表了属性。如果我新建一个列表,定义了一个新的列,名字较“请假类型”(用之前演示PowerApps的文章里的网页做例子):
那么是可以在这个网站的搜索架构中的爬网属性种找到到它的:
ok,不多啰嗦了。概念基本介绍到这里,下一章我们来做配置和使用这些属性并且了解他们之间的关系,并且如何能让这些属性为我们的搜索更好的服务。