自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 在CentOS中使用nohup命令,以及一些常用的操作

nohup命令在CentOS中是一个非常有用的工具,它可以让你在后台运行进程,并且不会因为关闭终端窗口而被终止。在本文中,我们介绍了如何使用nohup命令来后台运行进程、退出终端窗口后继续运行进程、查看正在运行的进程、杀死进程以及查看进程日志。在linux中,nohup是一个非常有用的命令,它可以让你在后台运行进程,并且不会因为关闭终端窗口而被终止。在CentOS中,你可以使用nohup命令来后台运行进程。如果你使用nohup命令启动了一个进程,在退出终端窗口后,进程将会被终止。其中1234是进程ID。

2023-05-10 09:38:47 1225

原创 Windows 中安装和使用 Conda

本文介绍了如何在 Windows 中安装和使用 Conda。我们使用 Conda 创建和管理 Python 环境、安装和升级软件包,并列出了一些有用的命令。使用 Conda,我们可以轻松地构建和管理 Python 应用程序的开发环境,提高开发效率。

2023-05-06 10:24:01 7139

原创 封装一个将 MongoDB 中的数据导入到 MySQL 中的 Python 工具类 MongoToMysql

需要注意的是,在创建 MySQL 表结构时,如果用户选择了设置最大长度,则会创建 TEXT 类型的字段,否则会根据 MongoDB 中字段的最大长度加上200来设置 VARCHAR 类型的字段长度。使用该工具类,用户需要传入相应的参数,包括 MongoDB 的连接信息,MySQL 的连接信息,以及表名、是否设置最大长度、批处理大小和表描述等信息。总之,本文介绍的 MongoToMysql 工具类非常方便实用,对于需要将 MongoDB 数据迁移到 MySQL 的用户来说,是一种很好的解决方案。

2023-05-04 11:55:04 231

原创 在Flask开发Web应用中,实现数据分页

在Flask开发Web应用中,实现数据分页是一个常见的需求。本篇博客将介绍如何使用Flask-Paginate库实现数据分页功能。Flask-Paginate是一个基于Flask的分页扩展库,可以轻松地实现分页功能。

2023-04-27 00:22:19 832

原创 基于doccano标注平台的二次开发

doccano的1.0.5版本是属于比较老的版本,之所以选择1.0.5版本,是因为通过和其他较新的版本对比,1.0.5版本的源码结构相对简单,对于不擅长后端的我还勉强可以读懂。这些功能的实现涉及到了多个模块和组件,需要对doccano的代码进行深入的理解和修改。我们花费了挺多的时间和精力来完成这些功能,但是最终的结果还是挺满意的。在标注数据时,用户可以为每个标注添加多个关键词,这些关键词可以与标签建立多对多的关系。为了满足用户管理方面的需求,我们进行了二次开发,增加了给每个用户添加标注任务数量的分发功能。

2023-04-18 00:06:30 471

原创 Python中使用Kafka帮助我们处理数据

在消费消息时,我们使用consumer.poll()方法从Kafka集群中拉取消息,然后使用for循环遍历返回的消息,并打印出消息的内容。在上面的代码中,我们首先导入了KafkaConsumer类,然后创建了一个消费者对象,并指定了Kafka集群的地址和要消费的主题。通过本文的介绍,读者可以更好地理解Kafka-Python包的使用方法,进一步掌握Kafka的应用。在上面的代码中,我们首先导入了KafkaProducer类,然后创建了一个生产者对象,并指定了Kafka集群的地址。四、批量发送和批量消费。

2023-04-17 23:40:32 600

原创 python中将HTML转义字符转换成相应的符号

【代码】python中将HTML转义字符转换成相应的符号。

2023-04-15 14:55:44 484

原创 Linux中简单且常用的命令

文件和目录操作ls:列出目录中的文件列表cd:更改当前工作目录为指定目录mkdir:创建一个新目录rmdir:删除一个空目录touch:创建一个新文件或更新现有文件的时间戳rm:删除文件或目录cp:复制文件或目录mv:移动或重命名文件或目录文本文件处理cat:将文件的内容打印到终端上head:输出文件的前几行tail:输出文件的后几行more:一页一页地输出文件的内容less:类似于more,但更强大,可以向前/向后翻页等高级功能grep:在文件中查找匹配给定模式的文本

2023-04-15 14:54:50 56

原创 Python中协程的用法和案例

我们还定义了一个名为main的协程,它会创建一个aiohttp的ClientSession对象,并使用fetch协程来获取百度首页的HTML内容。协程是Python中非常强大的编程技术,可以帮助我们编写高效的异步代码。在本文中,我们介绍了Python中协程的用法和案例,希望能对你有所帮助。协程是一种轻量级的线程,它不需要线程上下文切换的开销,因此可以实现更高效的异步编程。Python中的协程是一种非常强大的编程技术,可以帮助我们编写高效的异步代码。在本文中,我将介绍Python中协程的用法和案例。

2023-04-15 14:53:17 405

原创 Python中多线程和线程池的使用方法

上述代码中,我们定义了一个process函数,它接受一个列表作为参数,对列表中的每个元素进行运算,并将结果保存到另一个列表中。在上面的代码中,我们首先定义了一个GetHtmlThread类,继承自threading.Thread类,然后在类的构造函数中传入需要爬取的URL。在主程序中,我们创建了5个线程,每个线程都执行task函数,并传入不同的参数。但是,这种单线程爬取的方式效率较低,因为在获取HTML代码的时候需要等待响应,而在等待响应的过程中CPU会空闲,无法充分利用计算机的性能。

2023-04-15 14:52:42 3856 1

原创 Pandas中DataFrame的各种常用的用法

Pandas是Python中最流行的数据分析和处理工具之一,它提供了一个名为DataFrame的数据结构,可以被认为是一个二维表格或电子表格,其中包含行和列。在本文中,我们将深入探讨Pandas中DataFrame的各种常用的用法,包括创建DataFrame、选择数据、修改数据、数据排序、数据统计、数据合并、数据分组和数据透视表等。要对DataFrame中的数据进行统计,可以使用describe()函数和其他函数,例如mean()、median()和std()。在DataFrame中选择数据有几种方法。

2023-04-15 14:46:12 1067

原创 使用 Python 操作 MongoDB

我们也可以使用 limit() 方法限制查询结果的数量,使用 sort() 方法对查询结果进行排序,使用 count() 方法获取查询结果的数量。在上面的代码中,我们使用 delete_one() 方法删除 customers 集合中 name 字段为 John 的文档,并使用 deleted_count 属性获取删除的文档数量。在上面的代码中,我们使用 find() 方法查询 customers 集合中 name 字段为 John 的文档,并使用 for 循环遍历查询结果。

2023-04-15 14:45:31 2881

原创 使用Python操作MySQL

当今互联网时代,数据处理已经成为了一个非常重要的任务。而MySQL作为一款开源的关系型数据库,被广泛应用于各种场景。本篇博客将介绍如何使用Python操作MySQL的各种功能,以及一些高级用法。

2023-04-15 14:44:50 201

原创 使用Python操作Redis的所有类型

本篇博客介绍了如何使用Python操作Redis的所有数据类型,以及一些高级用法。希望能对大家有所帮助。

2023-04-15 14:43:35 627

原创 python中数据持久化

爬虫数据的持久化存储是爬虫技术的重要一环,不同的数据存储方式适用于不同的数据格式和存储需求。在实际开发中,需要根据具体需求选择合适的数据存储方式。爬虫是一种获取互联网数据的技术,而将爬取的数据持久化存储则是爬虫技术的重要一环。本文将介绍使用不同的数据存储方式来持久化爬虫数据,包括txt、csv、pandas、xlwt、openpyxl、json、mysql、redis和mongodb。pandas是Python中常用的数据分析库,可以使用它来读写各种数据格式,包括csv、excel、json等。

2023-04-15 14:40:06 226

原创 python多线程之setDaemon和join

currentThread() . name } ---->开始输入任务...') time . sleep(1) print(f' {currentThread() . name } ---->完成输入任务...') def get_task() : print(f' {currentThread() . name } ---->开始消费任务...') time . sleep(1) print(f' {

2022-10-18 13:52:59 1403

原创 scrapy之异步持久化

比如我们要采集手机的标题,价格,评分,评论数量。title = scrapy.Field() #标题price = scrapy.Field() #价格score = scrapy.Field() #评分comment_total = scrapy.Field() #评论总数。

2022-10-17 16:25:53 444 2

原创 记录在windows 下指定盘符安装docker容器以及简单使用docker搭建服务

同时E:\Program Files\Docker目录下还会多了这些文件。增加镜像源地址,以便于后续使用docker拉取镜像速度快点。输入:docker -v 查看docker的版本。如下图代表拉取crawlab完成。打开刚刚安装好的docker。其他直接默认点击,进入到。下面直接点击start。

2022-10-17 09:13:24 355

原创 记录我爬虫持久化到mongo中的文档在navicat中常用的一些操作语句

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BuHwKqwF-1665726498173)(https://p1-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f0d1c5816d824c63acc2b11d12b599e1~tplv-k3u1fbpfcp-watermark.image?id字段默认是返回的,如不需要返回__id可以加上"删除刚刚新增的“statu”字段。

2022-10-14 13:50:24 969 1

原创 Pycharm创建虚拟环境

一般情况下,我们每次开发项目,都会为该项目创建一个虚拟环境。

2022-10-12 14:06:46 634 2

爬虫实战 爬取东方财富网上市公司概况信息

爬虫实战(单线程 ) 爬取东方财富网上市公司概况信息

2022-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除