王京文-CSDN博客

原创 python小工具——文件复制

假设我们有一份需要复制的名单，名单数量多、一个一个搜、一个一个复制又太慢，刚刚好你会python，又想摸鱼应该怎么做呢？这个来看看。

2024-04-25 20:39:28 589 2

lxml 是一个用于处理XML和HTML文档的Python库。dev_list = ret.xpath('/html/body/div[3]/div[2]/div') # html下的body标签下的第三个div标签下的第二个div标签下的第一个div。文本内容选择：使用 text() 函数选择节点的文本内容，例如 //p/text() 会选择文档中所有 <p> 元素的文本内容。选择子节点：使用斜杠 / 表示选择子节点，例如 //div/p 会选择文档中所有 <div> 元素下的所有 <p> 元素。

2023-09-15 23:42:09 321

原创学习pyquery----一

逻辑：先获取预览页面的小图预览的html，爬取进去详情页的url，设置遍历函数，使用request再次请求，获取进去详情页的url，再次爬取页面的html，再次设置一次遍历函数，然后使用pq爬取所需要的大图并使用os保存到本地目录。其中，os是一个用于与操作系统交互的标准库，它提供了一些常用的功能来管理文件和目录，执行系统命令以及访问环境变量等。3、设置遍历函数，使用request再次请求，获取进去详情页的url，再次爬取页面的html，2、先获取预览页面的小图预览的html，爬取进去详情页的url。

2023-09-14 10:20:07 125 1

原创爬取豆瓣电影选电影页面

接下来，遍历电影列表，通过字典的键值来获取电影的相关信息，包括电影名称`title`、评分`rating`、评论内容`comment`以及评论人姓名`comment_name`。使用`print`函数输出这些信息。首先，使用`requests`库发送GET请求到指定URL，通过设置`headers`参数来模拟浏览器发送请求的行为，同时包含了一些Cookie信息用于访问权限验证。最后，在`__name__ == '__main__'`的条件下执行`douban()`函数来启动爬取过程。

2023-07-07 20:11:09 408 1

原创学习爬虫Ajax动态网页中的雷

Ajax是动态网页，与静态网页不一样，需要在网络中进行抓包，抓包的网页url与展示出来的url是不一样的，需要在网络里找到需要抓包的url才对。

2023-07-07 20:02:14 481

原创使用pyquery爬取虎扑网站球员信息

【代码】使用pyquery爬取虎扑网站球员信息。

2023-07-06 15:54:45 408 1

原创爬虫如何获得User-Agent

在爬虫中有些网站会有反爬机制，简单来说就是网站看穿你就是个计算机，所以不论网站是否有反爬机制，在爬虫前使用模拟浏览器总是没错的，可是怎么获得heads中的user-agent呢？其中最下面那个user-agent就是我们的爬虫头了。每个浏览器的开发者工具结构不一样，这里以edge浏览器为例，不同浏览器大同小异，都有这个。在一个网页中，使用开发者工具，f12，然后找到网络，刷新一下，会有一个文件，是第一个文件，双击，会出现这样的东西。

2023-07-04 09:30:27 1764

原创在运用xpath爬虫中，爬取图片进行下载，如何获取爬虫图片属性后缀

在爬虫中，经常会爬取图片，可是不同的图片属性也不一样，比如有png、jpg、gif等等不同的类型，在进行分类保存的时候总能吐血，因为文件不一样，保存也不一样。那么有没有什么好办法来进行分类呢？然后我们可以通过分割的方法，因为地址中，后缀名的前面一般都是以.为开头，所以我们使用sprit函数来进行分割。我们要获取这段地址的最后一个属性后缀名，第一次想到的方法是使用简单的列表，只取最后面的三个字母就可以了。但是，又发现会有其他的四位的后缀名.这里以这个图片连接为例。

2023-07-04 09:11:35 705

原创关于jdbc报错，8MySQL连接出现com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure

最近写java期末项目的时候，连接一个数据库发现老是报错，要么就更新maven中的jdbc版本要么就是连接不上。其实是因为mysql在8.0后连接的那个码码有点变化了。然后8.0后需要这样（我是单纯连接电脑上的数据库）第二个，连接的url也变化了。第一个正常来说原本是这样的。但是8.0后就需要这样的。

2023-04-27 11:53:00 795 1

weixin_60472488的博客

原创基于TextCNN的新闻文本分类的实现