大数据
文章平均质量分 85
肖永威
信息系统项目管理师,机器学习、数据分析、数据决策、算法模型设计应用研发工程师。
展开
-
空间数据分析和空间统计工具库PySAL入门
当涉及空间数据分析和空间统计时,PySAL(Python Spatial Analysis Library)是一个常用的 Python 库,它提供了丰富的空间数据分析工具和统计方法。以Guerry 数据集为例,使用PySAL开始空间数据分析入门探索之旅。原创 2024-01-30 16:29:40 · 3519 阅读 · 2 评论 -
Pandas数据分析开发实战博文集锦
本文为最近年来使用Pandas进行数据分析的实践笔记集锦,为了便于博主与爱好者查找相关内容,以及学习、应用过程,进行了初步简单梳理。内容包括:数据分析处理、可视化分析、数据库相关(ClickHouse、MongoDB、CSV、MySQL、HDF5)、基础入门(数据分析快速入门、时序数据实践)、应用、问题、其他等等。原创 2023-11-18 17:56:05 · 265 阅读 · 0 评论 -
科学化决策数据分析,先从量化开始
虽然大数据说一切皆可量化,从某种意义上说,人类的偏好是量化的唯一来源。如果意味着量化是主观的,只能说明这种量化的性质就是主观的。它不是物体的物理特性,而是人对事物的权衡和看法。我们唯一要关注的问题就是:该如何量化人们的选择。原创 2023-10-30 18:56:26 · 1411 阅读 · 0 评论 -
Python中Numpy的应用技巧
本文整理了NumPy 中的数组(常见OpenCV、Pandas)、 数学计算(矩阵乘法和点乘)、统计等方法、以及其他常用的删除空值、类型转换、沿轴向连接数组、计算欧式距离、窗口移动平均值等技术。原创 2023-10-18 17:32:31 · 214 阅读 · 0 评论 -
python关联分析实践学习笔记
曾经有个沃尔玛超市,它将啤酒与尿布这样两个奇怪的东西放在一起进行销售,并且最终让啤酒与尿布这两个看起来没有关联的东西的销量双双增加。原创 2023-10-12 17:35:24 · 702 阅读 · 3 评论 -
数据分析视角中的商业分析学习笔记
数据分析一大堆,结果却是大家早就知道的结论?是工具和方法出问题了吗?真正原因可能是你的思维有误区。原创 2023-10-05 16:55:11 · 1092 阅读 · 0 评论 -
MongoDB增加计算列并修改数据实践笔记
MongoDB增加计算列并修改数据实践笔记,包括增加、删除列、文档关联、增加计算列及条件计算等。原创 2023-03-21 11:37:02 · 1460 阅读 · 0 评论 -
2022年Gartner新兴技术、人工智能技术成熟度曲线概述
Gartner 2022年新兴技术、人工智能技术成熟度曲线,以及新兴技术和趋势影响力雷达图中五项具有影响力的技术概述原创 2022-10-18 14:59:34 · 3868 阅读 · 1 评论 -
MongoDB 删除列(修改数据)与随机抽样方法两则
在MongoDB数据处理过程中用到的方法, 删除列(修改数据)、随机抽样方法、表关联修改数据。原创 2022-07-12 17:15:13 · 2034 阅读 · 0 评论 -
集成学习投票法实践案例
集成学习投票法介绍,如何使用投票法提高模型的准确率!以及对应的实践设计案例。原创 2022-07-10 21:00:40 · 1305 阅读 · 0 评论 -
Python多CPU(核)并行数据处理解决方案
Python 进行数据处理的时候,因为有GIL锁,因此多线程也只能使用一个处理器,这样经常出现程序运行只使用了一个CPU核心在运算,导致数据处理需要比较长的时间。如果将多个CPU核心同时参与运算,可以大幅度运算速度,下面讨论原则上不修改程序而发挥多CPU效率方案。原创 2022-05-13 16:28:48 · 12957 阅读 · 3 评论 -
Pandas大数据筛选数据经验教训一则
有经验的开发者都知道,整型计算、比较是计算机软件高级编程语言、数据库里较快的,对于Python及Pandas也不例外。本文通过整型数据比较筛选数据、整型数据字符串类型比较筛选数据、动态转换为整型字符串类型比较筛选数据对比实验来验证经验。原创 2022-05-09 11:14:06 · 1111 阅读 · 0 评论 -
系统的认识大数据人工智能数据分析中的数据
随着数字经济发展,迎接未来的数字化生活,做为数字经济生活的基础数据,你了解多少,你认识大数据人工智能数据分析中的数据吗?原创 2022-03-04 13:25:01 · 3727 阅读 · 1 评论 -
MongoDB聚合结果输出到新的集合方法与案例实践
使用out (aggregation)获取聚合管道返回的文档并将其写入指定集合。原创 2021-12-08 14:05:18 · 1807 阅读 · 0 评论 -
MongoDB多表关联分组查询指定行数数据实践遇坑记及解析
MongoDB多表关联分组查询指定行数数据实践遇坑记及解析,基于聚合中的$lookup、$lookup嵌套pipeline、$group与$push、$slice提取子数组、$unwind组合文档等实现,并分析大数据集处理及解决办法。原创 2021-11-30 17:21:38 · 3528 阅读 · 0 评论 -
Gartner2021新兴技术成熟度曲线,AI与超自动化支撑数字化变革
本文收集整理了2021年新兴技术成熟度曲线、2022年的顶级战略技术趋势、2021年人工智能技术成熟度曲线,结合本人关注点,重点梳理了AI与超自动化支撑数字化变革。原创 2021-11-21 20:49:24 · 24647 阅读 · 2 评论 -
MongoDB聚合使用表达式运算符(函数)分组按条件计数统计案例一则
MongoDB聚合过程中的表达式运算符(函数)用法入门——分组按条件计数统计案例,在MongoDB聚合统计过程中,经常使用表达式运算符用于构造用于聚合管道阶段的表达式。原创 2021-11-20 11:40:44 · 2093 阅读 · 0 评论 -
使用可视化数据分析工具metabase入门——原生查询MongoDB数据源
本文基于Mongo DB为例实践matebase的使用,将以“原生查询”为入门经历记录。轻松浏览数据,即使你不是分析师,Metabase也能让你感觉自己是分析师。原创 2021-11-09 16:20:46 · 6145 阅读 · 0 评论 -
MongoDB高级查询多级分组聚合及时间计算应用实践案例
本文是Mongo DB复杂聚合查询实践案例,其中使用较多时间变换及时间计算,粗略整理出来分享学习。原创 2021-10-30 10:24:54 · 4459 阅读 · 0 评论 -
Pyhton操作Neo4j图数据库实践(南北朝隋唐历史北朝主要人物知识图谱)
在中国的历史长河之中,历史人物及其典故众多,基于图数据库的知识图谱将为我们学习、掌握历史提供新思维,便于整理掌握。例如独孤信“第一岳父”之称很形象,他有三个女儿做了三个朝代皇后,以及杨坚、杨广、李渊等人关系。本文试着使用图数据库(neo4j)表达这段南北朝隋唐历史北朝主要人物知识图谱。原创 2021-10-18 17:17:48 · 2989 阅读 · 6 评论 -
从幂律分布到特征数据概率分布——12个常用概率分布
分析提取及衍生特征数据概率分布,出现较为突出的幂律分布情况,为此整理出12个常用概率分布比较学习。高斯法则和幂律法则的典型代表是分别身高和财富,把姚明放到100个人中,并不会显著改变平均身高,但把比尔·盖茨放到100个人中,就会极大改变平均财富。原创 2021-08-02 17:57:30 · 4249 阅读 · 1 评论 -
ClickHouse数据仓库使用之limit实践
ClickHouse数据仓库使用之limit实践原创 2021-07-21 16:22:19 · 5743 阅读 · 0 评论 -
Python使用ClickHouse实践与踩坑记
本文为初步使用ClickHouse做OLAP数据分析实践,并记录了数据库连接端口配置、接口返回值等问题。体会到ClickHouse的速度快。原创 2021-06-17 11:15:15 · 25113 阅读 · 6 评论 -
Linux环境安装Neo4j图数据库及远程访问防火墙设置
Linux环境安装Neo4j图数据库及远程访问防火墙设置。原创 2021-05-25 14:36:51 · 1441 阅读 · 1 评论 -
Neo4j图数据库入门实践
大数据更多的是关注相关性,图数据库与普通数据库相比,图数据库更关注联系,并试图从联系中找到有用信息。以加油站客户关系为例,实践Neo4j建立图数据库,为客户运营服务。图数据库应用也很广泛,包括社交网络、推荐、主数据管理等。原创 2021-05-25 10:17:47 · 3114 阅读 · 6 评论 -
使用Tensorflow卷积神经网络实现数据分析过程实践
通过使用Tensorflow卷积神经网络实现数据分析过程实践,让我们深入思考深度学习能为我们省去了手动构造高阶特征的工作量,节省专业人事的投入。而且简单的卷积神经网络进行数据分析就能达到较好的效果。原创 2021-01-04 21:44:11 · 2228 阅读 · 4 评论 -
大数据人工智能常用特征工程与数据预处理Python实践(2)
以大数据人工智能和Python工具视角,基于常用的特征工程和过程,系统的实践特征提取、特征选择的方法和算法。算法涵盖了统计和机器学习技术,特征提取包括时域特征、派生特征等,特征选择包括特征分析和特征选择,体现了特征工程过程就成为机器学习过程。原创 2020-12-18 16:23:04 · 3109 阅读 · 0 评论 -
大数据人工智能常用特征工程与数据预处理Python实践(1)
基于大数据人工智能和Python工具视角,简明介绍常用的特征工程和过程,在数据清洗中重点实践数据离群值及其工具PyOD,在特征预处理中使用SKlearn重点实践数据归一化与标准化,以及One-Hot编码、数据变换实践。原创 2020-12-10 11:48:11 · 2853 阅读 · 0 评论 -
新入手Vue及ECharts、Tornado,基于vue-element-admin构建大数据可视化21天感想
21天很快过去了,vue前端,特别是经过vue-element-admin整合后的框架,对于我这样的前端了解者,还是比较容易掌握的,剩下就是熟练应用及经验的积累和提升。做为大数据人工智能开发者,是需要一个前端可视化的工具,把咱们自己后台研究成果展现出来,特别是让人能看懂、理解非常重要。原创 2020-11-16 14:07:34 · 3251 阅读 · 0 评论 -
Python Pandas实践 HDF5高效二进制存储
Python大数据分析过程中,使用Pandas实践 HDF5高效二进制存储,以及使用vitables快速浏览H5格式二进制数据。原创 2020-10-13 10:13:15 · 2828 阅读 · 0 评论 -
模糊层次综合分析法Python实践及相关优缺点分析
模糊综合评价法(FCE)是一种根据模糊数学隶属度理论把定性评价转化为定量评价的方法,它具有结果清晰,系统性强的特点,能较好地解决模糊的、难以量化的问题,适合各种非确定性问题的解决。我们先看模糊综合评价数据表,这是专家(或其他统计方式)对评价打分表投票表决结果统计数据,简单的说就是对需要评价的因素(指标)给出主管或客观的“优、良、一般、较差、非常差”评价。这样,我们能给企业什么样的评价呢?原创 2020-09-08 21:20:48 · 27203 阅读 · 12 评论 -
XGBoost线性回归工控数据分析实践案例(Sklearn接口篇)
XGB Regressor工控实践。原创 2020-08-13 22:03:52 · 5838 阅读 · 6 评论 -
XGBoost线性回归工控数据分析实践案例(原生篇)
以XGBoost原生模型,开发实际工控预测场景实践,过程中分析出检测值精度、业务标注不完整、安全报警与生产过程相互印证等一系列情况。本文第一篇先给出分析模型,XGBoost回归线性模型,以及涉及到参数说明。较为完整内容详见下篇。原创 2020-08-10 22:26:44 · 7742 阅读 · 5 评论 -
Pandas(数据表)深入应用经验小结(查询、分组、上下行间计算等)
分享以少量代码,站在Pandas肩膀上,实现大批量Mongo数据读取、数据计算处理等实践案例,以及所遇到的坑。原创 2020-08-08 21:06:24 · 1177 阅读 · 0 评论 -
基于Pandas实现皮尔逊相关与余弦相似度在工业大数据分析中的应用实践
获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。本文基于Pandas实现相关系数及其散点图分析。原创 2020-08-06 11:49:12 · 2416 阅读 · 0 评论 -
油田大数据与创新之路的探究
聚焦到采油工身上,从采油机入手,将是构建油田大数据的切入点,走出一条特色的创新之路。原创 2017-01-16 21:24:13 · 6813 阅读 · 1 评论 -
基于大数据、多租户PaaS的中小企业运营服务平台解决方案
此方案,以管理视角来看,是以构建区域性中小企业生态链为己任的模式,形成适合的社会化服务效应;以技术视角老看,基于大数据、云计算多租户PaaS搭建中小企业运营服务平台。原创 2017-02-01 15:03:12 · 6101 阅读 · 0 评论 -
VMWare虚拟机安装CentOS 7 Linux及Hadoop与Eclipse学习环境(3-Eclipse开发环境)
安装Java IDE版Eclipse,由于Java环境是JDK1.7版本,则Eclipse不能使用较新版本,按同事推荐使用Eclipse 4.4 版本,下载地址为:eclipse-java-luna-SR2-linux-gtk-x86_64.tar.gz。原创 2016-12-08 21:41:46 · 5784 阅读 · 2 评论 -
VMWare虚拟机安装CentOS 7 Linux及Hadoop与Eclipse学习环境(2-伪分布模式hadoop环境)
伪分布模式hadoop环境安装、配置练习笔记。原创 2016-11-23 15:06:25 · 2688 阅读 · 0 评论 -
VMWare虚拟机安装CentOS 7 Linux及Hadoop与Eclipse学习环境(1-虚拟机)
本文介绍VMWare虚拟机安装CentOS 7 Linux安装过程,以及Hadoop与Eclipse学习环境安装配置过程。原创 2016-11-22 10:11:11 · 4899 阅读 · 0 评论