大数据
文章平均质量分 69
数据分析相关文章
xieyan0811
算法工程师,终生学习者,《Python大数据与机器学习实战》作者
展开
-
Gemini 初体验
同样需要科学上网。速度很快,而且还不要钱,据说使用太多可能被限流。对于小语种翻译效果比 GPT-4 好,其它还没测试。可通过 ChatBox 界面调用,也可使用 Python 调用。原创 2024-03-07 20:47:41 · 968 阅读 · 0 评论 -
数据库_mongoDB
MongoDB 是一种 NoSQL 数据库,它将每个数据存储为一个文档,这里的文档类似于 JSON/BSON 对象,具体数据结构由键值(key/value)对组成。原创 2023-12-13 20:02:01 · 665 阅读 · 0 评论 -
Redis远程字典服务
Redis(Remote Dictionary Server)是一个开源的内存数据存储系统,可以用作数据库、缓存和消息中间件。它支持多种数据结构,包括字符串(strings)、哈希表(hashes)、列表(lists)、集合(sets)、有序集合(sorted sets)等。原创 2023-12-01 20:40:14 · 560 阅读 · 0 评论 -
数据存储_PGSQL
PGSQL的安装和使用方法简介原创 2023-11-09 08:48:31 · 334 阅读 · 0 评论 -
熵_相对熵_散度
KL散度,KL距离,又叫相对熵(relative entropy),衡量两个概率分布之间的不同程度。原创 2023-03-19 14:41:31 · 664 阅读 · 0 评论 -
数据分析工具_SuperSet
SuperSet是一款开源可视化BI(商业智能)Web应用程序。原创 2023-02-19 13:58:08 · 503 阅读 · 0 评论 -
Bland-Altman图
Bland-Altman图是一种**一致性**评价测量方法,简称BA,常用于医学实验和数据分析。原创 2023-02-19 13:55:59 · 1971 阅读 · 0 评论 -
列线图工具_Nomogram
列线图是一种相对传统的分析方法,用于展示自变量和因变量的线性关系,及其特征的重要程度。原创 2023-02-12 10:41:14 · 1262 阅读 · 0 评论 -
StreamLit构造Web应用
功能Streamlit 帮助机器学习工程师快速开发用户交互工具,几乎可取代 Flask 在机器学习项目中的地位。个人感受确实非常方便,安装python库的streamlit后,可快速入门 和学习前端相比,学习成本非常低 界面比较美观,适合用于demo和内部展示 通过简单的代码,就可以展示丰富的功能;但对于复杂的UI还没试 不需要可见的 b/s 通讯,几乎所有交互都通过操作 streamlit 句柄完成 运行需要基于streamlit框架基本功能安装$ pip insta原创 2022-02-26 15:09:23 · 1505 阅读 · 0 评论 -
图数据库Neo4j
传统数据库难以处理复杂多跳的关系运算。需要一种支持海量、复杂、且结构灵活的关系运算数据库,图数据库应运而生。相关概念简介图数据库由顶点和边组成;主要用于对图数据的增删改查;目前常用的图数据库有Neo4j,JanuxGraph等使用场景常用于社交、电商、金融、零售、物联网等行业 用于关系查询 用于遍历复杂关系 用于实现复杂的规则:如子图比较、推荐等 对于结构化数据,常可使用关系型数据库;对于关系比较多,数据不太规律的情况,则用图数据库分类属性图数据库 构成:顶点、边、顶原创 2022-02-19 11:11:06 · 1564 阅读 · 0 评论 -
MYSQL 数据库大太的解决方案
面对问题插入查询慢、且需要时效性比较强的情况原因MYSQL 容量上千万条以上就会很慢。解决方法分区对应用透明,相对操作比较简单。对主键有要求:所有主键里必须包含分区主键,如果又想用id查,又想用年份查就比较难。查询会受一些影响:批量查时快不了多少,插入可以提速。分库比如不同年份可以放在不同主机上,以加快速度。分表一般都使用分表策略。需要看按什么分,比如按用户id分,或者按年份分表。按时间分:热表(当前一年数据)、冷表(往年数据),最后一个年份的冷表可能看需要看原创 2022-01-09 21:58:42 · 1807 阅读 · 0 评论 -
TableOne数据分析工具
前面学习了统计描述和统计假设的Python方法,分析数据表时,需要先确定因变量Y,然后对自变量X逐一分析,最后将结果组织成数据表作为输出,还是比较麻烦,使用TableOne工具可以简化这一过程。 TableOne是生成统计表的工具,常用于生成论文中的表格,TableOne底层也基于scipy和statsmodels模块实现,其代码主要实现了根据数据类型调用不同统计工具,以及组织统计结果的功能...原创 2019-03-23 21:24:29 · 4487 阅读 · 0 评论 -
python数据统计分析
1. 常用函数库 scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了。这个模块被重写并成为了现在独立的statsmodels包。 scipy的stats包含一些比较基本的工具,比如:t检验,正态性检验,卡方检验之类,statsmodels提供了更为系统的统计模型,包括线性模型,时序分析...原创 2019-02-17 09:08:25 · 89069 阅读 · 5 评论 -
Python海量数据处理之_Hadoop家族
本篇是hadoop部分的最后一篇,主要介绍Hadoop家族的常用工具。以及解答学习过程中的一些疑问。原创 2017-12-27 17:33:08 · 729 阅读 · 0 评论 -
Python海量数据处理之_Hadoop&Spark
本篇将介绍Hadoop+Spark的安装配置及如何用Python调用Spark。原创 2017-12-26 16:27:20 · 5204 阅读 · 0 评论 -
Python海量数据处理之_Hadoop(三)程序调用
前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使用Hadoop的MapReduce功能。原创 2017-12-25 18:25:50 · 5246 阅读 · 0 评论 -
Python海量数据处理之_Hadoop(二)概念和原理
前篇介绍了Hadoop的安装,在安装过程中会产生一些疑问,比如NameNode是什么东西?本篇就以问题&解答的方式介绍Hadoop的相关概念及其原理。原创 2017-12-22 11:34:04 · 2335 阅读 · 0 评论 -
Python海量数据处理之_Hadoop(一)集群搭建
上篇《Python海量数据处理之_单机优化》讲述了单机的处理大数据的解决方案。下面将讲述如何利用服务器集群处理大数据,这里使用的工具是Hadoop,内容太多,分为三部分介绍,本篇是第一部分集群搭建,后两部分分别是原理和python调用。原创 2017-12-21 18:37:38 · 10010 阅读 · 0 评论 -
Python海量数据处理之_单机优化
数据处理时,可能会遇到数千万以及上亿条数据的情况。一次处理所有数据,会遇到内存不够,计算时间太长等问题。一般的解法是:先拆分,再处理,最后将处理的结果合并。本文将介绍在单机上,只使用Python如何处理大量数据。原创 2017-12-20 17:22:15 · 3134 阅读 · 2 评论 -
Python数据分析常用工具
1. Numpy:科学计算基础包, 提供矩阵数据类型、矢量处理,以及精密的运算库。$ pip install numpy2. Pandas:基于Numpy,最初被作为金融数据分析工具而开发出来,一般用于处理结构化数据。$ pip install pandas3. Matplotlib:绘制数据图表$ pip install matplotlib4. Seabor原创 2017-07-21 12:09:03 · 3029 阅读 · 0 评论 -
Dash入门
1. 说明 大数据开发过程中,我们常常需要向别人展示一些统计结果,有时候还是实时的统计结果。最好能以网页方式提供,让别人在他的机器上,使用浏览器也能访问。这时候统计工具往往使用Python,而把分析图表画出来使用JavaScript,需要搭建web服务,还涉及中间过程的数据衔接。而Dash能帮我们实现以上所有的工作。 Dash是Python的一个库,使用pip即可安装。用它可以启动一个ht...原创 2018-11-25 19:35:06 · 8328 阅读 · 0 评论 -
半小时搞定Hadoop+Mysql+Hive
1. 说明 搭建过Hadoop集群的小伙伴一定知道,如果不用docker,半小时配好Hadoop+Mysql+Hive(后简称Hive)肯定是胡吹,有了Docker镜像,没有说明文档,配好了也不一定会用。本文将介绍如何在半小时内,让Hive在你的Linux系统上运行起来,并且可以通过 Python程序访问其中数据。2. 使用集群 Hadoop需要安装Java虚拟机,创建Hadoop用户...原创 2019-02-23 10:21:59 · 1230 阅读 · 0 评论 -
从正态分布到T检验
1. 说明 接上次的《几种常见的数学分布》。这次说说T分布和T检验,用词不够严谨,大家就领会精神为主吧~2. 什么是抽样 如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。 比如说,一个班有20个人,我们可以把所有人的身高加一起,除以人数,计算均值,如果有2000000人,就无法把所有人身高都统计一遍再除以总数,一般情况下,就是取...原创 2018-12-22 21:40:57 · 7919 阅读 · 1 评论 -
Stata中常用的数据分析命令
1. 常用的数据分析工具 Stata、SPSS、SAS、R、Python,甚至Excel都可以做数据分析工作。R和Python是程序员的首选,可以通过编写程序实现成整体的数据清洗、分析、挖掘,还可以增加扩展支持,把一套代码应用于类似的数据分析场景中。对于专业人士(如生物、医疗领域)来说,掌握编程语言的学习成本太高,他们更关注通过工具,方便快捷地得到分析结果,SPSS和Stata主要是图形界面的...原创 2019-03-17 18:17:19 · 17517 阅读 · 0 评论 -
做图工具pyecharts
1. 说明 上次分享了Flask+Dash做图,WXXCX师兄给我留言说:感觉dash不如pyecharts好用,于是我学习了一下pyecharts。 ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,Safa...原创 2018-12-30 11:09:03 · 1088 阅读 · 0 评论 -
Linux下使用SQLServer
1. 说明 SQL Server是由Microsoft开发和推广的关系数据库管理系统。本文介绍在Ubuntu系统下,SQL Server服务端及客户端的安装,基本命令及如何使用python访问数据。2. 安装 由于SQLServer不在默认安装的软件源之中,在Ubuntu 16.04上,需要先加入其软件源,安装后再进行一些配置(1) SQLServer服务器端$ wget -...原创 2019-01-05 15:35:06 · 14468 阅读 · 0 评论 -
全文搜索引擎ElasticSearch
1. 介绍 ElasticSearch简称ES。 先来看它的用途:如果只是在多个机器同步,存储和检索大量数据,它与数据库的差别在哪儿,为什么非要使用ES呢? ES是目前全文搜索引擎的首选。全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当 用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。简单...原创 2018-07-29 15:56:03 · 565 阅读 · 0 评论 -
MYSQL入门之三_将本地MySQL数据导入SAE数据库
1. MySQL字符集MySQL的默认字符集是latin1,将本地MySQL库导出成sql,再导入到SAE的MySQL时中文字符出现乱码,解决方法是将本地mysql默认字符集也设成utf8查看当前MySQL字符集mysql> show variables like 'character_set_%';更改MySQL默认字符集$ vi /etc/mysql/my.c原创 2012-11-21 15:13:20 · 6515 阅读 · 0 评论 -
MYSQL入门之二_PHP操作MYSQL
1. 本地连接MySQL $con= mysql_connect("localhost", "root", "xxxxxx"); if(!$con) { die('Could not connect: ' .mysql_error()); }else原创 2012-11-21 15:10:30 · 1403 阅读 · 0 评论 -
MYSQL入门之一_数据库常用命令
1. 登录$ mysql--user=root --password=xxxxxx2. 数据库操作列出所有数据库mysql> show databases;创建数据库mysql> create database x123;删除数据库mysql> drop database x123;连接使用数据库mysql> use x123;原创 2012-11-21 15:05:59 · 1098 阅读 · 0 评论