大数据
文章平均质量分 56
卑微小钟
君当终日乾乾,熬过万丈孤独,踏过万水千程,与最好的自己温柔重逢。
展开
-
python3 连接数据库 mysql PyMysql
PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库 , 遵循 Python 数据库 API v2.0 规范。原创 2023-02-26 09:48:02 · 10239 阅读 · 0 评论 -
python画图库-matplotlib
当需要中文时需要引入字体。#当x或y含有字符串。原创 2023-02-26 09:47:00 · 8017 阅读 · 0 评论 -
MapReduce编程规范
对多个Map任务的结果进行排序以及合并,编写Reduce函数实现自己的逻辑,对输入的Key-Value进行处理,转为新的Key-Value(K3和V3)输出。MapReduce的开发一共有八个步骤,其中Map阶段分为2个步骤,Shuffle阶段4个步骤,Reduce阶段分为2个步骤。设置InputFormat类,将数据切分为Key-Value(K1和V1)对,输入到第二步。自定义Map逻辑,将第一步的结果转换成另外的 Key-Value (K2,V2)对,输出结果。对输出的Key-Value对进行分区。原创 2023-02-25 22:52:52 · 7950 阅读 · 0 评论 -
Scala 正则表达式
Scala 通过 scala.util.matching 包中的类来支持正则表达式。以下实例演示了使用正则表达式查找单词使用 String 类的可以构造了一个。使用方法找到首个匹配项。如果需要查看所有的匹配项可以使用。原创 2023-02-09 20:53:13 · 8671 阅读 · 1 评论 -
MapReduce编程规范
对多个Map任务的结果进行排序以及合并,编写Reduce函数实现自己的逻辑,对输入的Key-Value进行处理,转为新的Key-Value(K3和V3)输出。MapReduce的开发一共有八个步骤,其中Map阶段分为2个步骤,Shuffle阶段4个步骤,Reduce阶段分为2个步骤。设置InputFormat类,将数据切分为Key-Value(K1和V1)对,输入到第二步。自定义Map逻辑,将第一步的结果转换成另外的 Key-Value (K2,V2)对,输出结果。对输出的Key-Value对进行分区。原创 2023-02-09 20:51:37 · 9212 阅读 · 0 评论 -
selenium启动Chrome配置参数问题
【代码】selenium启动Chrome配置参数问题。原创 2023-02-07 17:04:23 · 9150 阅读 · 0 评论 -
Scala Iterator(迭代器)
Scala Iterator(迭代器)不是一个集合,它是一种用于访问集合的方法。迭代器 it 的两个基本操作是和。会返回迭代器的下一个元素,并且更新迭代器的状态。用于检测集合中是否还有元素。原创 2023-02-07 17:01:36 · 9106 阅读 · 0 评论 -
Scala Option(选项)
Scala Option(选项)类型用来表示一个值是可选的(有值或无值)。Option[T] 是一个类型为 T 的可选值的容器: 如果值存在, Option[T] 就是一个 Some[T] ,如果不存在, Option[T] 就是对象 None。原创 2023-02-07 17:00:56 · 9213 阅读 · 0 评论 -
scrapy Items
为了定义常用的输出数据,Scrapy提供了 Item类 ,其提供了 类似于词典(dictionary-like)的API以及用于声明可用字段的简单语法。原创 2022-09-09 09:36:27 · 15373 阅读 · 0 评论 -
scrapy setting
scrapy中的setting.py源码原创 2022-09-09 09:35:18 · 14618 阅读 · 0 评论 -
scrapy框架选择器
Scrapy有自己的数据提取机制。它们被称为选择器,因为它们“选择”HTML文档的某些部分 XPath 或 CSS 表达。是一种在XML文档中选择节点的语言,也可以与HTML一起使用。是用于将样式应用于HTML文档的语言。它定义选择器,将这些样式与特定的HTML元素相关联。参考文献:scrapy官方文档-选择器。原创 2022-09-09 09:33:32 · 14903 阅读 · 0 评论 -
scrapy框架-pipeline数据验证
您在此设置中分配给类的整数值确定它们运行的顺序:项目从值较低的类转到值较高的类。通常将这些数字定义在0-1000范围内。要激活Item Pipeline组件,必须将其类添加到 ITEM_PIPELINES。让我们看一下下面的假设管道,该管道调整。不包含增值税的那些项目的 属性(原创 2022-09-08 20:00:00 · 14620 阅读 · 0 评论 -
Scrapy去重操作
一个筛选器,用于查找重复项,并删除那些已经处理过的项。您在此设置中分配给类的整数值确定它们运行的顺序:项目从值较低的类转到值较高的类。通常将这些数字定义在0-1000范围内。要激活Item Pipeline组件,必须将其类添加到 ITEM_PIPELINES。原创 2022-09-07 18:20:02 · 15226 阅读 · 0 评论 -
scrapy框架-Middleware(爬虫中间件)
Spider Middleware是Scrapy的Spider处理机制的一个挂钩框架,您可以在其中插入自定义功能,以处理发送到Spider进行处理的响应以及处理从Spider生成的请求和项目。主要入口是类方法,该方法接收一个 实例。该 对象使您可以访问例如。定义:class:方法:process_spider_input(response, spider)**介绍:**对于通过爬虫中间件进入爬虫请求的每个响应都将调用此方法进行处理。**如果返回None:**则Scrapy将继续处理此响应,并执行所有其原创 2022-09-07 18:18:18 · 15214 阅读 · 0 评论 -
NumPy创建数组
NumPy创建数组一、常见创建numpy.emptynumpy.empty 方法用来创建一个指定形状(shape)、数据类型(dtype)且未初始化的数组:numpy.empty(shape, dtype = float, order = 'C')数组元素为随机值。numpy.zeros创建指定大小的数组,数组元素以 0 来填充:numpy.zeros(shape, dtype = float, order = 'C')numpy.ones创建指定形状的数组,数组元素以 1 来填充:原创 2022-05-18 21:34:14 · 32141 阅读 · 0 评论 -
jupyter notebook 安装使用(可部署服务端)
jupyter一、安装pip install jupyter二、启动jupyter notebook三、修改jupyter notebook --generate-config四、CentOS7服务安装# 安装jupyter成功 略# 创建配置文件jupyter notebook --generate-configvi /root/.jupyter/jupyter_notebook_config.py""" python 生成密码from notebook.auth imp原创 2022-05-08 22:00:22 · 34703 阅读 · 0 评论 -
NumPy 数组属性
NumPy 数组属性一、重要 ndarray 对象属性属性说明ndarray.ndim秩,即轴的数量或维度的数量ndarray.shape数组的维度,对于矩阵,n 行 m 列ndarray.size数组元素的总个数,相当于 .shape 中 n*m 的值ndarray.dtypendarray 对象的元素类型ndarray.itemsizendarray 对象中每个元素的大小,以字节为单位ndarray.flagsndarray 对象的内存信原创 2022-05-02 19:05:21 · 37712 阅读 · 0 评论 -
sqlalchemy
sqlalchemy简介: SQLAlchemy 是Python 社区最知名的 ORM 工具之一,为高效和高性能的数据库访问设计,实现了完整的企业级持久模型。**安装 **pip install sqlalchemy #直接cmd命令行安装配置文件一般搭配**flask**框架使用,sqlalchemy的配置一般从flask的config文件中加载config的配置:flask-sqlalchemy-config数据类型类型名MySQL类型python类型描述Sma原创 2022-03-22 22:09:00 · 67850 阅读 · 0 评论 -
ubuntu安装python3(源码安装方法)
Ubuntu安装Python3(第0步)建议配置阿里镜像https://developer.aliyun.com/mirror/ubuntu一、安装相关依赖apt-get update && apt-get upgradeapt-get install -y build-essential checkinstall libreadline-gplv2-dev libncursesw5-dev libssl-dev libsqlite3-dev tk-dev libgdbm-dev l原创 2022-03-12 19:01:50 · 73659 阅读 · 0 评论 -
python数据清洗-时间格式化
数据清洗-时间格式化1.字符串转时间from datetime import datetimet = '2020年11月11日15:04:41'time = datetime.strptime(t,'%Y年%m月%d日%H:%M:%S')print(time) # 结果:2020-11-11 15:04:41t1 = '2020-11-11 15:04:41'time1 = datetime.strptime(t1,'%Y-%m-%d %H:%M:%S')print(time1) #结果:原创 2022-03-11 11:04:39 · 69502 阅读 · 0 评论 -
scrapy如何降低反爬风险
scrapy如何降低反爬风险1、设置时间间隔,降低爬取速度打开setting.py设置#减少请求并发数量CONCURRENT_REQUESTS = 4CONCURRENT_REQUESTS_PER_DOMAIN = 4CONCURRENT_REQUESTS_PER_IP = 4#设置请求间隔DOWNLOAD_DELAY = 12.设置随机请求头部middlewares.pyimport randomclass UserAgentDownloadMiddleWare(object原创 2021-09-10 20:13:32 · 69139 阅读 · 0 评论 -
centos安装python3
centos安装python31、查看安装默认安装位置whereis python2、python2.7默认安装是在 /usr/bin目录中,切换到/usr/bin/cd /usr/bin/3、安装相关的依赖包yum install -y epel-release zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make4、安装pipyum insta原创 2021-09-09 19:29:18 · 69590 阅读 · 0 评论 -
中国地图china.js
中国地图china.js一、简介中国地图china是基于echarts.js和china.js绘制图像。官方已不支持china.js下载china.js:https://static.delebug.com/echarts/china.js二、配置项// china.js的配置项与echarts基本图形配置项相通// 关于echarts基本图形配置参考:https://echarts.apache.org/v4/zh/option.html// 其中china地图主要配置不同处在seri原创 2021-06-02 10:28:08 · 89731 阅读 · 25 评论 -
词云 js2wordcloud.js
词云一、简介“词云”拼音是cí yún,由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年最先使用。戈登做过编辑、记者,曾担任迈阿密先驱报(Miami Herald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常,这些最新的、最适合网络的传播方式,也是最好的传播方式。 因此,“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。原创 2021-06-02 10:24:20 · 71498 阅读 · 0 评论 -
SQLAlchemy之Column常用参数
SQLAlchemy之Column常用参数一、常用参数primary_key:True 设置某个字段为主键。autoincrement:True 设置这个字段为自增长。default: 设置字段的默认值。nullable:指定某个字段是否为空。默认值是True,可以为空。unique:指定某个字段的值是否唯一,默认是False。onupdate:在数据更新的时候会调用这个参数指定的值或者函数。在第一次插入这条数据的时候,不会用onupdate的值,只会使用default原创 2021-04-26 10:12:35 · 70248 阅读 · 0 评论 -
sqlalchemy
sqlalchemy简介: SQLAlchemy 是Python 社区最知名的 ORM 工具之一,为高效和高性能的数据库访问设计,实现了完整的企业级持久模型。**安装 **pip install sqlalchemy #直接cmd命令行安装配置文件一般搭配**flask**框架使用,sqlalchemy的配置一般从flask的config文件中加载config的配置:flask-sqlalchemy-config数据类型类型名MySQL类型python类型描述Sma原创 2020-12-07 14:46:46 · 69366 阅读 · 0 评论 -
SQLAlchemy Column
SQLAlchemy之Column常用参数一、常用参数primary_key:True 设置某个字段为主键。autoincrement:True 设置这个字段为自增长。default: 设置字段的默认值。nullable:指定某个字段是否为空。默认值是True,可以为空。unique:指定某个字段的值是否唯一,默认是False。onupdate:在数据更新的时候会调用这个参数指定的值或者函数。在第一次插入这条数据的时候,不会用onupdate的值,只会使用default原创 2020-12-07 14:45:18 · 69498 阅读 · 0 评论 -
Flask SQLAlchemy config
Flask-SQLAlchemy-config一、配置键SQLALCHEMY_DATABASE_URI# 连接数据的数据库SQLALCHEMY_DATABASE_URI='sqlite:////tmp/test.db'SQLALCHEMY_DATABASE_URI='mysql://username:password@server/db'#SQLAlchemy 把一个引擎的源表示为一个连同设定引擎选项的可选字符串参数的 URI。URI 的形式是:dialect+driver://userna原创 2020-12-07 14:43:28 · 70034 阅读 · 0 评论 -
Linux配置Hadoop单机模式
Linux配置Hadoop单机模式一、准备工作一台装有CentOS 7 的虚拟机并且要能远程连接JDK和Hadoop的安装包两个软件 Xshell 和Xftp(或filezilla)1.首先,将JDK和Hadoop的安装包通过Xftp传入虚拟机当然也可以用其他软件,下图用的是filezilla)]注意:我们将JDK放入/usr/local/java 而Hadoop...原创 2020-04-26 21:28:18 · 70173 阅读 · 0 评论