网站关键词搜索

欣然～

于 2025-02-01 20:17:06 发布

阅读量394

点赞数 9

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_69327572/article/details/145414586

版权

用AI工具编写了一段关键词搜索的代码，对于文档信息可以显示出来，但是对于招标网站的信息难以显示。可能是此类网站进行了反爬虫设计？

### 使用说明

#### 概述

这段代码是一个用于监控网站内容变化的脚本。它通过读取一个包含目标URL和关键词的文件，使用Selenium来加载这些网页，并检查页面中是否包含指定的关键词。结果会被记录到日志文件和CSV输出文件中。

#### 环境准备

1. **安装Python**: 确保您的系统上已经安装了Python 3.x版本。

2. **安装依赖库**:

```bash

pip install selenium beautifulsoup4

```

3. **下载Edge WebDriver**: 下载Microsoft Edge的WebDriver（msedgedriver），并将其路径更新到代码中的`edgedriver_path`变量。

#### 文件结构

- `websites.txt`: 包含要监控的网站信息，每行格式为`url,keyword[,tag_class]`。例如：

```

https://example.com/page1,important keyword

https://example.com/page2,special phrase,some-class

```

#### 主要功能模块

1. **日志记录**

- 使用`logging`模块记录程序运行过程中的信息、警告和错误。

2. **读取网站列表**

- `read_websites(filename)`: 从文件中读取网站列表，并返回一个包含URL、关键词和可选标签类名的元组列表。

3. **关键字检测**

- `check_keyword_with_selenium(url, keyword, tag_class=None)`: 使用Selenium加载网页，查找指定的关键词或带有特定类名的段落中的关键词。如果找到关键词，则返回`True`；否则返回`False`。

4. **写入输出文件**

- `write_output(filename, data)`: 将检测结果追加到CSV文件中。

5. **主循环**

- `main()`: 定期检查每个网站上的关键词，并将结果记录到日志文件和CSV文件中。每隔60到120秒重复一次这个过程。

#### 运行脚本

确保所有依赖项已正确安装，并且`websites.txt`文件已准备好后，在命令行中执行以下命令启动脚本：

```bash

python script_name.py

```

其中，`script_name.py`是保存上述代码的文件名。

#### 注意事项

- 修改`edgedriver_path`变量以指向您本地的`msedgedriver.exe`文件路径。

- 如果需要监控更多网站，只需在`websites.txt`文件中添加新的条目即可。

- 脚本会在后台运行，可以通过查看`monitor.log`文件来了解其状态和遇到的问题。

希望以上说明能帮助您顺利使用此脚本！如果有任何问题，请随时提问。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。