大数据和人工智能
魔都飘雪
魔都,一座稍不努力就会把你打回原形的城池!
展开
-
大数据测试学习笔记之01
大数据测试学习笔记之01这是2018年度业余主要学习和研究的方向的笔记:大数据测试整个学习笔记以短文为主,记录一些关键信息和思考大数据特征即通常所讲的大数据4V特征:Variety:数据类型分为结构化数据、半结构化数据(例如电子邮件、办公处理文档)、非结构化数据(文本、音频、视频等等)Velocity:大数据具有时效性,要求在正常业务处理时必须及时的处理大数据才能最大化的挖掘和利用大数据的潜在商业...转载 2018-03-07 21:12:55 · 569 阅读 · 0 评论 -
python可视化丨从1896年说起,用数据看 120 年奥运变迁
作者 |小科出品 |科赛Kesci可视化丨从1896年说起,用数据看 120 年奥运变迁1896年,雅典首次举办奥运会。一直到今天,奥运记录一遍遍被刷新,也从一度被嘲讽的比赛摇身变成国际最大的赛事之一。一百年沧海桑田,中国改革开放,而苏联被历史湮没……奥运会有什么变化呢?我们一起来探索。这次探索基于120 年来奥运会运动员数据集,探索分析...转载 2019-06-26 21:37:31 · 2943 阅读 · 0 评论 -
信息图表网站
晚上无意中发现了一个信息图表网站,发现甚是有趣。感觉和网易数读的风格有点相似。老实说,做信息图表费脑洞,设计思想很重要~https://blog.adioma.com/(复制到浏览器打开)...转载 2019-06-23 17:34:14 · 964 阅读 · 0 评论 -
轻松用 Seaborn 进行数据可视化
作者 |Mukul Singh Chauhan译者 | Lemon出品 |Python数据之道 (ID:PyDataRoad)轻松用 Seaborn 进行数据可视化摘要:本文属于Seaborn的基础教程,介绍了直方图、联合分布图、矩阵图、箱形图等,通过本文可以看出,使用 seaborn可以轻松的进行数据可视化。『Python数据之道』已整合本文的相关...转载 2019-06-25 21:37:34 · 1865 阅读 · 0 评论 -
目标检测必须要OpenCV?10行Python代码也能实现,亲测好用!
短短10行代码就可以实现目标检测?!本文作者和他的团队构建了一个名为ImageAI 的Python库,集成了现今流行的深度学习框架和计算机视觉库。本文将手把手教你构建自己的第一个目标检测应用,而且文摘菌已经帮你踩过坑了,亲测有效!无人超市、人脸识别、无人驾驶,众多的使用场景及案例,使得【目标检测】正成为计算机视觉最有前景的方向。听起来似乎是个很难实现的技术,需要大量训练数据和算法才能完...转载 2018-11-26 19:28:40 · 795 阅读 · 1 评论 -
Python十分钟制作属于你自己的个性logo
词云的使用相信大家已经不陌生了,使用很简单,直接调用wordcloud包就可以了。它的主要功能是根据文本词汇和词汇频率生成图片,从中可以直观的看出各个词汇所占比重。最近正好想做一个人的logo,于是乎决定使用词云来制作完成。wordcloud安装pip install wordcloud使用 pip 安装你肯定会遇到一个坑,安装过程中可能会报错,提示你安装 Microsoft Visual C++...转载 2018-05-12 21:54:30 · 2662 阅读 · 0 评论 -
Jupyter notebook快速入门教程
本篇将给大家介绍一款超级好用的工具:Jupyter notebook。为什么要介绍这款工具呢?如果你想使用Python学习数据分析或数据挖掘,那么它应该是你第一个应该知道并会使用的工具,它很容易上手,用起来非常方便,是个对新手非常友好的工具。而事实也证明它的确很好用,在数据挖掘平台 Kaggle 上,使用 Python 的数据爱好者绝大多数使用 jupyter notebook 来实现分析和建模的...转载 2018-05-18 22:22:40 · 106166 阅读 · 2 评论 -
ETL测试工具和面试常见的问题及答案
概述 商业信息和数据对于任何一个企业而言都是至关重要的。现在很多公司都投入了大量的人力、资金和时间对这些信息、数据进行分析和整理。数据的分析和整理已经获得了巨大的潜在市场,因此为了使得这个过程更为简单,越来越多的软件供应商引入了ETL测试工具。目前,有需要开源的ETL工具,供应商允许用户直接从他们的官方网站免费下载,但有可能升级到新版或企业版需要订阅付费。所以我们需要根据企业的不同业...转载 2018-04-20 21:53:52 · 15583 阅读 · 0 评论 -
大数据测试之ETL测试入门
概述在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库。什么是BI?BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据(原始数据或商业数据或业务数据等)进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。原始数据记录了企业日常事务,例如与客户交互的信息、财务信息,员...转载 2018-04-15 18:10:19 · 2521 阅读 · 1 评论 -
大数据测试学习笔记之监控工具Dr.Elephant
大数据测试学习笔记之监控工具Dr.Elephant随着大数据测试方面的学习扩展得越来越多,开始找了些关于大数据技术方面的监控工具,本文主要介绍linkedin开源的Dr.Elephant监控工具。介绍一句话介绍:Dr.Elephant是Apache Hadoop和Apache Spark的job级和工作流级性能监视和调优工具。由Linkedin开源贡献,github地址为:https://gith...转载 2018-03-26 20:50:44 · 1689 阅读 · 0 评论 -
大数据测试学习笔记之基准测试HiBench
简介HiBench是一套基准测试套件,用于帮助我们评估不同的大数据框架性能指标(包括处理速度、吞吐等)的负载指标,可以评估Hadoop、Spark和流式负载等,具体的工作负载有:SortWordCountTeraSortSleepSQLPageRankNutch indexingBayesKmeansNWeightenhanced DFSIO等等同样的它还可以用于评估Spark Stream、Fl...转载 2018-03-19 20:42:14 · 4430 阅读 · 0 评论 -
大数据测试学习笔记之hadoop家族
前言在进行大数据测试之前,我们必须了解下大数据处理的的相关技术体系,今天主要学习和了解了hadoop家族,这里记录下来分享给大家。hadoop家族产品hadoop项目地址: http://hadoop.apache.org/Hadoop是项目的总称。主要是由HDFS和MapReduce组成。HDFS是Google File System(GFS)的开源实现。MapReduce是Google Map...转载 2018-03-12 20:44:39 · 566 阅读 · 0 评论 -
大数据测试学习笔记之数据质量
数据质量定义先搜索了一把,发现当前对于数据质量的定义没有一个共识的定义,通过阅读一些资料,做了些总结,可以从以下几个方面来定义数据质量:从用户层级定义数据质量:即满足特定用户预期需要的程度从数据本身定义数据质量:即从数据质量的指示器和参数指标等方面来衡量(真实性、完备性、自治性等)从数据约束关系定义数据质量:即从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量从数据过程定义数据质量:即从...转载 2018-03-10 08:45:53 · 4161 阅读 · 0 评论 -
大数据测试学习笔记之测试工具集
大数据测试学习笔记之测试工具集本文主要记录大数据测试的一些基本工具,以便后续用的时候能深入的去学习。Bigbench由Teradata、多伦多大学、InfoSizing、Oracle开发,其设计思想和利用扩展具有研究价值,可以参阅论文Bigbench:Towards an industry standard benchmark for big data analytics。论文pdf:http:/...转载 2018-03-15 20:48:22 · 7239 阅读 · 0 评论 -
大数据测试学习笔记之Python工具集
简介在本次笔记中主要汇总Python关于大数据处理的一些基础性工具,个人掌握这些工具是从事大数据处理和大数据测必备技能主要工具有以下(包括但不限于):numpypandasSciPyScikit-LearnSparkMatplotlib对于上述工具,笔者之前已经从安装部署、学习其官方示例等等均已经初步做了一些学习,但在实战方面有待进一步提升,有兴趣的朋友可以加入和我一起学习提升。numpyNumP...转载 2018-03-14 20:56:25 · 2306 阅读 · 0 评论 -
这才是你寻寻觅觅想要的 Python 可视化神器
翻译 | Lemon来源 |Plotly译文出品 | Python数据之道 (ID:PyDataRoad)Plotly Express入门之路Plotly Express 是一个新的高级 Python 可视化库:它是 Plotly.py 的高级封装,它为复杂的图表提供了一个简单的语法。受 Seaborn 和 ggplot2 的启发,它专门设计为具有简洁,一...转载 2019-06-27 21:29:31 · 393 阅读 · 0 评论