Langchain HTML loader （windows 环境下）

每天都要吃面包

已于 2024-07-18 14:39:34 修改

阅读量278

点赞数 9

文章标签： langchain

于 2024-07-18 11:24:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuaner1057/article/details/140517530

版权

新手用户勇闯llm记录。

Langchain 文档提供了好几种load html的方法，很可惜在使用第一种的时候就出现故障了。这里记录一下不同的方法：

UnstructuredHTMLLoader

load 本地文件会出现permission denied (conda 环境 + jupyter notedbook)
原因大概是这里类似的原因（不确定，猜的）
在colab上的运行结果：
在这里插入图片描述

BeautifulSoup4

运行结果如下：
在这里插入图片描述
要注意的是修改encoding的para是open_encoding，不知道哪个大聪明想的。。。
可以看到这个方式大概是把所有文字内容都放在page_content里了。

可能遇到的错误

环境从py3.11 换到py3.9突然就报错了：
FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
pip安装lxml也没有用。
解决方法：

loader = BSHTMLLoader(fname, open_encoding='utf-8',bs_kwargs={'features':'html.parser'})

SpiderLoader or FireCrawlLoader or AzureAIDocumentIntelligenceLoader

提供了三个需要API和订阅的方式，看上去是会处理一些再返回。还没试，如果试了再update。

每天都要吃面包

关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Langchain HTML loader （windows 环境下）

新手用户勇闯llm记录。提供了三种load html的方法，很可惜在使用第一种的时候就出现故障了。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。