数据社
文章平均质量分 82
数据社公众号文章
数据社
欢迎关注公众号:数据社
展开
-
数据库 vs 数据仓库
数据库说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(可能现在很多开发者没再用过),到后来的互联网电商用的MySql,这些都是关系型数据库。后来有了newSQL、NoSQL(not only sql),现在也分了很多种类,比如大型互联网公司存储用户画像的HBase,还有用于存储文档,日志,问答等内容的文档数据库MongoDB,建议大家都去了解一下。关系型数据库,大多都有主键这个概念。比如我可原创 2022-01-06 09:49:25 · 5681 阅读 · 0 评论 -
郑州有哪些牛逼的互联网企业
大家好,我是一哥,最近看到有号主整理的武汉和成都的互联网公司,一哥也想整理一下郑州的“互联网”公司,在郑州其实叫“IT公司”更合适,希望能给一线城市想回郑州的读者一些帮助。虽然郑州互联网公...原创 2021-06-02 07:06:00 · 19123 阅读 · 9 评论 -
畅想数据湖
公众号推文规则变了,点击上方"数据社",设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,周末有读者私聊我咨询了一些问题,遂想起了之前看过的一些关于数据...原创 2021-03-23 07:06:00 · 13587 阅读 · 3 评论 -
传统数仓如何转型大数据
大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈——现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据...原创 2020-11-23 07:00:00 · 9934 阅读 · 0 评论 -
浅谈程序员的“内卷化”
一、什么是内卷化最近开始了解到一个很有意思的词——“内卷化”,如果你还不知道这个词,那就非常建议往下看。什么是内卷化?内卷化,亦称过密化,最初由文化人类学家亚历山大·戈登威泽提出,用于描述社会文化模式的变迁规律。当一种文化模式进入到最终的固定状态时,便逐渐局限于自身内部不断进行复杂化的转变,从而再也无法转化为新的文化形态。在中国语境下,内卷化概念最初闻名自历史学家杜赞奇对于古代中国经济生活的研究成果中。杜赞奇借用内卷化一词描述清代人口爆炸,廉价劳动力过剩,从而无法带动技术革新,使得古代中国的经济形态长期原创 2020-11-12 12:42:55 · 11276 阅读 · 6 评论 -
数据中台如何设计
关注公号【数据社】了解更多。https://mp.weixin.qq.com/s?__biz=MzI4MzE4MjQxOQ==&mid=2649359114&idx=1&sn=4ead52a8a53f085c8af3360cc6a146d5&chksm=f3903736c4e7be201d4e239db2d89c666053357999c3c33252d8820c...原创 2020-05-31 10:04:53 · 24513 阅读 · 0 评论 -
聊聊数据库
数据库的发展基本上也是伴随着计算机技术经历了40年的历史,从最初的文件系统上的文件,到有结构的层次和网状数据库,一直到今天被广泛使用的关系型数据库。随着互联网和物联网行业的兴起,数据量飞速增长,对大数据的采集、存储和应用是每个数据库必备的技能。现在大多数应用都是数据存储密集型,而不是计算密集型。数据存储发展众所周知,文明的发展离不开信息的积累,而任何东西的积累离不开存储。因此,信息存储是文明发展的重要环节,从某种意义上讲,甚至可以说是人类迈入文明社会的标志之一。在历史上,人类曾经创造过很多信息存储的.原创 2020-05-29 14:57:45 · 25503 阅读 · 0 评论 -
数据中台设计方法论
数据中台设计方法论数据中台建设方针:横向规划,各个击破。横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象。其实就是我们建设数据仓库的阶段。比如电信业务,我们要把客户、账务、客服、营销等业务板块打通数据,全盘考虑,融通数据形成数据资产。数据中台建设过程中涉及到大数据平台建设、数据仓库建设、模型算法、数据治理、数据服务等一系列工程,不可能一蹴而就,我们需要梳理业务场景,看他们需要什么样的服务先找一个业务场景,搭建起数据中台的服务能力,然后依次迭代,各个击破。一、总体规划数据集成原创 2020-05-24 14:00:44 · 17759 阅读 · 0 评论 -
如何入门数据分析?
如今,大多数公司都意识到数据驱动的商业策略的价值,因此需要有数据分析才能的人来洞察不断收集的信息。随着我们继续将现实世界数字化,对分析师的需求只会增加。 可以了解之前讲解的《数据分析为什么火了》。如果你刚开始学习数据分析,那么怎么入门呢?其实各大招聘网站的数据分析职位就是一个很好的参考。那么数据分析师究竟需要哪些技能呢?数据分析必备技能:ExcelSQLPython或者R数据可视化机器学习PPT逻辑思维下面我们一个个看下一、Excel说到Excel,首先想到的可能是电子表格,但是原创 2020-05-16 12:54:41 · 57061 阅读 · 1 评论 -
数据分析为什么火了
某天你去买西瓜,你问老板多少钱一个,老板称了一个大的说20元。你说要一半,老板从中间切开,称后说15元。你拿起另一半,丢下5块钱……一、什么是数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。当我们在日常生活中做任何决定时,我们都会根据以往已经发生的事情和现在所处的环境进行思考,然后做出决定。期间,我们可能还收集过去的一些记忆或未来的预.原创 2020-05-16 12:48:31 · 19788 阅读 · 0 评论 -
大数据相关交流群
可以关注公众号:数据社添加微信,申请加入交流群,备注:加群qrcode_for_gh_b1e471355711_258.jpg原创 2020-05-15 16:42:02 · 20586 阅读 · 0 评论 -
一文了解数据护湖架构
什么是数据湖引擎数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。数百万数据消费者使用的工具,如BI工具、数据科学平台和仪表板工具,假设所有数据都存在于一个高性能的关系数据库中,当数据在多个系统中,或者在非关系存...原创 2020-05-08 10:48:23 · 16393 阅读 · 0 评论 -
数据分析师应该了解的数据湖
数据湖数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。这是AWS给出的解释。看了很多数据湖的介绍文章,笔者认为数据胡和我们常说的ODS数据很类似,也就是原始数据的保存区域,存储来自各业务系统(消息队列)的原始数据。...原创 2020-04-03 23:00:21 · 16680 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(3)
小B是一名数据分析师,他问小A XXX的所有指标给我一下,小A“鄙视的”给了他一个文档。元数据知道多少小B作为一名数据分析师,为什么自己没能去找到数据呢?这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不就你还能看单词...原创 2020-03-16 21:26:13 · 16337 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(2)
数据仓库知多少首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。我们来看这几个词:面向主题,数据仓库会规划各种业务主题,所以我们需要理解各大主题的范畴以及之间的关系,这样就了解了数仓的基本架构。集成,数据仓库的数据会来自各个业务系统数据或者外部爬取数据,所以需要我们知道每个数据仓库的模型字段都是来自哪个源,这样我们就能快速全面的了解相关...原创 2020-03-16 21:23:18 · 16155 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(1)
数据库说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(可能现在很多开发者没再用过),到后来的互联网电商用的MySql,这些都是关系型数据库。后来有了newSQL、NoSQL(not only sql),现在也分了很多种类,比如大型互联网公司存储用户画像的HBase,还有用于存储文档,...原创 2020-03-12 08:44:15 · 15645 阅读 · 0 评论 -
数据分析05-SVM
标签(空格分隔): 数据分析SVM 是有监督的学习模型,我们需要事先对数据打上分类标签,通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题,可以将多个二分类器组合起来形成一个多分类器。如何创建一个 SVM 分类器呢?我们首先使用 SVC 的构造函数:model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’),这里有三个重要的参数 kernel...原创 2019-11-17 10:16:57 · 14668 阅读 · 0 评论 -
数据分析04-朴素贝叶斯
标签(空格分隔): 数据分析朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(Ga...原创 2019-11-17 10:16:26 · 14458 阅读 · 0 评论 -
数据分析02-线性回归
可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。Python sklearn中的LinearRegreesion实例:import pandas as pdfrom sklearn imp...原创 2019-11-17 10:10:44 · 13995 阅读 · 0 评论 -
浅谈数据中台
标签(空格分隔): 数据仓库一、什么是数据中台数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数据服务。主要包括以下4部分:数据资产、数据治理、数据模型、数据服务。打通数据建模对全域数据进行沉淀形成数据资产,从而提供统一的数据服务功能。二、如何建立数据中台建设数据中台主要就是...原创 2019-05-15 16:23:34 · 12120 阅读 · 0 评论 -
hive数据迁移
比如需要把生产的hive集群数据迁移到另一个集群,hive提供了2个命令工具,可以实现表的批量迁移。[export/import]设置默认需要导出的hive数据库在hive目录/etc/alternatives/hive-conf下添加.hivercvi ~/.hivercuse test;创建数据临时目录hdfs dfs -mkdir /tmp/test生成导出数据脚本hive -原创 2016-08-22 15:31:16 · 2447 阅读 · 0 评论