IntelliScraper 更新 --可自定义最大输出和相似度 支持Html的内容相似度匹配

18 篇文章 0 订阅

场景

之前我们在使用IntelliScraper 初代版本的时候,不少人和我反馈一个问题,那就是最大输出结果只有50个,而且还带有html内容,不支持自动化,我声明一下,自动化目前不会支持,以后也不会支持,因为法律的问题,所以数据的前置和后置处理是需要自行处理,如有特殊需求,可联系我。
在这里插入图片描述

更新内容

最大关键字和相似度

此次更新,则是更新了最大关键字和相似度可以自己设置,你可以自己随意设置这些,直到拿到你想要的,原先的写法可能是

wanted_list = ['北堂飘霜']
scraper = WebScraper(wanted_list, url='https://blog.csdn.net/weixin_45487988?spm=1010.2135.3001.5343')
results = scraper.build()
for result in results:
    print(result)

结果和相似度都是内置的,你无法决定,结果最多50个,相似度0.7,更新之后,现在你的写法可能是:

wanted_list = ['北堂飘霜']
scraper = WebScraper(wanted_list, url='https://blog.csdn.net/weixin_45487988?spm=1010.2135.3001.5343',max_reasult=100,similarity=0.6)
results = scraper.build()
for result in results:
    print(result)

你自己可以随意设置,并且对结果进行清洗。代码已经上传至github。
IntelliScraper

更新内容暂时没有发镜像,是因为要经过充分测试和考虑,后面如果更新镜像,令行通知!

支持Html的内容相似度匹配

如果说有些网页可能设置了延时加载机制,或者说在你请求的时候,没有完全加载元素,不用担心,我们现在提供了html的内容相似度匹配策略,该策略可以直接拿出两段html进行相似度匹配,代码可能是:

file_path = '/h10.html'  # 替换为HTML文件的路径
with open(file_path, 'r', encoding='utf-8') as file:
    html_content = file.read()


file_path = '/h11.html'  # 替换为HTML文件的路径
with open(file_path, 'r', encoding='utf-8') as file:
    target_html = file.read()

# 使用函数寻找相似元素
similar_elements = find_similar_elements(html_content, target_html, 0.4)
print(len(similar_elements))
# 打印结果
all_link = []
for el in similar_elements:
    # print("------")
    print(el.text)
    # print(el.__str__())
    # print("------")
    # 提取链接
    unique_links = extract_unique_links(el.__str__())
    # 将链接写入文件
    all_link.append(unique_links)
    # print(unique_links)
write_links_to_file(all_link, '/unique_links.txt')

这段代码很好的演示了如何在h10中找到h11的相似元素,在这里我做了后续数据清洗的工作,它能够很好的达到我的预期,同样的,并没有发镜像,待其彻底稳定后,会更新镜像。

结束

IntelliScraper 更新 --可自定义最大输出和相似度 支持Html的内容相似度匹配,你学废了吗?赶紧用起来,觉得好用,不要忘记点个star支持一下呦!!!

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
TF-IDF和相似度匹配都是常用的文本处理方法,在智能咨询等领域都有广泛的应用。它们可以帮助我们对大规模的文本数据进行分析和处理,从而实现语义分析、关键词提取等功能。 TF-IDF是一种基于词频和逆文档频率的方法,它可以计算文档中每个词的重要程度,并根据重要程度对词语进行排序。TF-IDF可以用于关键词提取、文本分类、信息检索等任务。在智能咨询中,我们可以使用TF-IDF来计算用户提问或者问题描述中各个词语的重要程度,并根据重要程度来理解用户的需求和问题。 相似度匹配是一种基于向量空间模型的方法,它可以计算两个文档之间的相似度相似度匹配可以用于文本匹配、信息检索、自然语言处理等任务。在智能咨询中,我们可以使用相似度匹配来比较用户提问或者问题描述与已有问题库中的问题之间的相似度,从而找到最相关的问题和答案。 TF-IDF和相似度匹配都是常用的文本处理方法,它们各有优缺点。TF-IDF可以帮助我们理解文本中各个词语的重要性,但它忽略了词语之间的语义关系。相似度匹配可以考虑词语之间的语义关系,但它需要对文本进行向量化处理,可能会导致维度灾难等问题。因此,在实际应用中,我们可以根据具体需求选择合适的方法,或者将它们结合起来使用,从而提高文本分析和处理的效率和质量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值