自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 基于TextCNN的新闻文本分类的实现

成功识别文本并给出分类。

2024-05-29 00:23:54 689

原创 python小工具——文件复制

假设我们有一份需要复制的名单,名单数量多、一个一个搜、一个一个复制又太慢,刚刚好你会python,又想摸鱼应该怎么做呢?这个来看看。

2024-04-25 20:39:28 431 2

原创 爬虫二----使用xpath爬取网站的学习

lxml 是一个用于处理XML和HTML文档的Python库。dev_list = ret.xpath('/html/body/div[3]/div[2]/div') # html下的body标签下的第三个div标签下的第二个div标签下的第一个div。文本内容选择:使用 text() 函数选择节点的文本内容,例如 //p/text() 会选择文档中所有 <p> 元素的文本内容。选择子节点:使用斜杠 / 表示选择子节点,例如 //div/p 会选择文档中所有 <div> 元素下的所有 <p> 元素。

2023-09-15 23:42:09 180

原创 学习pyquery----一

逻辑:先获取预览页面的小图预览的html,爬取进去详情页的url,设置遍历函数,使用request再次请求,获取进去详情页的url,再次爬取页面的html,再次设置一次遍历函数,然后使用pq爬取所需要的大图并使用os保存到本地目录。其中,os是一个用于与操作系统交互的标准库,它提供了一些常用的功能来管理文件和目录,执行系统命令以及访问环境变量等。3、设置遍历函数,使用request再次请求,获取进去详情页的url,再次爬取页面的html,2、先获取预览页面的小图预览的html,爬取进去详情页的url。

2023-09-14 10:20:07 112 1

原创 爬取豆瓣电影选电影页面

接下来,遍历电影列表,通过字典的键值来获取电影的相关信息,包括电影名称`title`、评分`rating`、评论内容`comment`以及评论人姓名`comment_name`。使用`print`函数输出这些信息。首先,使用`requests`库发送GET请求到指定URL,通过设置`headers`参数来模拟浏览器发送请求的行为,同时包含了一些Cookie信息用于访问权限验证。最后,在`__name__ == '__main__'`的条件下执行`douban()`函数来启动爬取过程。

2023-07-07 20:11:09 328 1

原创 学习爬虫Ajax动态网页中的雷

Ajax是动态网页,与静态网页不一样,需要在网络中进行抓包,抓包的网页url与展示出来的url是不一样的,需要在网络里找到需要抓包的url才对。

2023-07-07 20:02:14 469

原创 使用pyquery爬取虎扑网站球员信息

【代码】使用pyquery爬取虎扑网站球员信息。

2023-07-06 15:54:45 331 1

原创 爬虫如何获得User-Agent

在爬虫中有些网站会有反爬机制,简单来说就是网站看穿你就是个计算机,所以不论网站是否有反爬机制,在爬虫前使用模拟浏览器总是没错的,可是怎么获得heads中的user-agent呢?其中最下面那个user-agent就是我们的爬虫头了。每个浏览器的开发者工具结构不一样,这里以edge浏览器为例,不同浏览器大同小异,都有这个。在一个网页中,使用开发者工具,f12,然后找到网络,刷新一下,会有一个文件,是第一个文件,双击,会出现这样的东西。

2023-07-04 09:30:27 1676

原创 在运用xpath爬虫中,爬取图片进行下载,如何获取爬虫图片属性后缀

在爬虫中,经常会爬取图片,可是不同的图片属性也不一样,比如有png、jpg、gif等等不同的类型,在进行分类保存的时候总能吐血,因为文件不一样,保存也不一样。那么有没有什么好办法来进行分类呢?然后我们可以通过分割的方法,因为地址中,后缀名的前面一般都是以.为开头,所以我们使用sprit函数来进行分割。我们要获取这段地址的最后一个属性后缀名,第一次想到的方法是使用简单的列表,只取最后面的三个字母就可以了。但是,又发现会有其他的四位的后缀名.这里以这个图片连接为例。

2023-07-04 09:11:35 671

原创 关于jdbc报错,8MySQL连接出现com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure

最近写java期末项目的时候,连接一个数据库发现老是报错,要么就更新maven中的jdbc版本要么就是连接不上。其实是因为mysql在8.0后连接的那个码码有点变化了。然后8.0后需要这样(我是单纯连接电脑上的数据库)第二个,连接的url也变化了。第一个正常来说原本是这样的。但是8.0后就需要这样的。

2023-04-27 11:53:00 757 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除