Python
文章平均质量分 64
二两窝子面
这个作者很懒,什么都没留下…
展开
-
python爬虫实例(post目录与get详情页双线程)
由网页探查到通过post获得商品目录页、get获得详情页两步骤实现的爬虫实例,顺带selenium自动点击按钮的小段测试原创 2023-02-15 23:52:38 · 928 阅读 · 0 评论 -
Pandas复习笔记--自用
数据分析:1.数据处理: 1>.Pandas: 1).numpy: 1.概述:numpy是专注于数值计算的拓展包,其算法库是由C写成的(调用C的API),提供了核心数据类型ndarray(多维数组)。其特点一是要求数组中的元素类型保持一致(相比list不限制元素类型,ndarray可在内存上连续存储),另一特点是摆脱了GIL支持并线化运算(可以更快速地对数据进行矩阵计算),因此效率更高,更适合操作大型数据集。 2.ndarray: (1).使用np...原创 2022-04-24 22:49:14 · 797 阅读 · 0 评论 -
Pyodps批量处理作业
1.背景由于业务原因,工作中一直使用的是专有云,且目前不支持OpenAPI,因此作业只能使用手工创建,这在有大量表对象需要创建作业时造成了明显的时间和人力的耗费。 针对这种问题,首先想到了编写资源,再通过一个Pyodps作业调用资源处理批量的表对象。但是必须解决两个问题:1.各个子实例需要实现独立并行;2.需要不影响子实例的运维。即某个子实例报错需要反馈出来且不影响其他子实例的正常运行。2.思路 总体思路:通过一个Pyodps作业,并行地去调起表操...原创 2021-07-19 14:07:19 · 2864 阅读 · 0 评论 -
将有大量表格图片的Word/PDF识别成文本Word(Python调用阿里云读光接口)
将有大量表格图片的word转换成文本格式(依然是word格式),暂且记录下,一时间写的比较乱,有空了再好好梳理和调整。主要是通过“阿里云读光PDF识别”(官方网址)的API实现的,这边的流程是:先把包含大量表格图片的word转换成PDF,然后将PDF拆分(因为API每次调用最多识别20页),然后请求识别,返回拆分后对应的word,再将word合并起来。#!/usr/bin/env python# coding=utf-8from PyPDF2 import PdfFileReader, P.原创 2021-03-17 01:07:46 · 1034 阅读 · 6 评论 -
Pyodps数据探查与实例运行脚本获取
前言1.工作中使用Pyodps探查数据时,为了更快捷地做描述性分析,这里用本地化的Pyodps进行了下尝试。2.在使用Pyodps读取实例日志时,有时需要获得实例运行的脚本日志,但是官方文档缺乏这方面的描述,因此也在这记录下测试出的路径。内容1.描述性数据探查主要是获得每个字段的空值率,枚举值,最值,长度最值。Pyodps可以使用to_pandas()将空间中的对象转换为DataFrame格式,然后就可以使用我们熟悉的pandas对其进行各种操作了。需要注意的是to_pandas函数中有个w原创 2020-12-10 13:55:29 · 1000 阅读 · 0 评论 -
Python计算两日期之间排除节假日与非上班时间的工作时间
Python计算两日期之间排除节假日与非上班时间的工作时间前言一、基本思路二、代码示例总结文章目录前言一、基本思路二、代码示例总结前言工作中遇见需要写UDF计算事项办理时间的需求,事项申请和办结由于在线上,可能不在办理时间内,因此要求排除节假日与工作日的非工作时间(午休时间、上班前与下班后的时间),在次做下记录。一、基本思路首先需要获取法定节假日,这里参考了另一篇从全年法定节假日时间的文章:Python获取全年法定节假日时间文章中已经很详细地叙述了从万年历爬取节假日日期的方法,逻辑也比较简原创 2020-12-02 18:02:03 · 4186 阅读 · 2 评论