摘要:本文深入剖析大数据相关关键问题。探讨数据量、业务场景等因素如何决定大数据何时启用,剖析其平台量级门槛,揭示数据治理时机,解析实时与离线处理抉择要点,并理清大数据与 AI、AIGC 间的关联与制约。
01.大数据何时登场
在当今社会,大数据的应用场景极为广泛,其登场时机取决于多个因素。当数据量达到一定规模,如 TB 乃至 PB 级别,或者数据结构复杂,以及对数据的使用需要实时或近实时分析处理时,大数据技术便有了用武之地。
例如在零售行业,大数据可用于顾客行为分析、产品推荐、库存管理等方面。通过收集和分析顾客的购买记录、在线浏览习惯、反馈和社交媒体行为等数据,零售商能更好地理解顾客喜好和行为模式,为其提供个性化服务和产品推荐。同时,利用大数据分析销售数据、季节性趋势和市场需求等,能优化库存管理,减少积压和缺货现象。
在金融行业,大数据在风险管理、信用评分模型、欺诈检测和算法交易等方面发挥着重要作用。通过分析大量历史交易数据和市场趋势,金融机构能更准确地预测贷款违约可能性,评估信贷风险。传统信用评分模型也在大数据的影响下不断发展,考虑更多因素,如个人财务历史、消费习惯和社交媒体行为等。大数据技术还能实时分析交易模式,帮助快速识别异常行为,预防和检测欺诈。在股票市场中,利用大数据分析市场趋势和金融指标,可实现高效的算法交易,提高投资回报。此外,金融机构还利用大数据分析客户交易历史和个人偏好等,提供个性化服务,增强客户满意度和忠诚度。
在医疗保健行业,大数据可用于患者数据分析、疾病模式识别、个性化医疗和药物研发等方面。分析患者的医疗记录、诊断结果、治疗历史和生命体征数据等,有助于医生制定个性化治疗方案。通过分析大量患者数据,能识别疾病发展模式和风险因素,为早期诊断和公共卫生策略提供依据。基于患者遗传信息和生活习惯等,大数据助力实现个性化医疗,提高治疗效果。在药物研发过程中,大数据可加速研发进程,提高药物安全性和有效性评估。
在制造业,大数据可提升制造业水平,优化供应链管理和实现预测性维护。通过分析原材料采购、生产计划、库存管理和物流信息等数据,制造商能优化整个供应链,提高响应市场变化的能力。收集和分析生产设备的运行数据,能预测设备维修需求,减少意外停机时间和维护成本,提高生产效率。
总之,大数据在各个行业都能发挥重要作用,其应用场景不断拓展和深化,为产业发展带来更多创新和可能性。
核心观点:当数据量达到TB 乃至 PB 级别,或者数据结构复杂,以及对数据的使用需要实时或近实时分析处理时,需要大数据,数据量少,分析简单,那么目前常见的BI工具就可以。
02.大数据平台的量级门槛
通常情况下,当数据量达到 TB 乃至 PB 级别时,传统的关系型数据库在处理能力、存储效率或查询性能上可能会遇到瓶颈,这时大数据平台就有了用武之地。同时,随着业务量的增长和分析场景的复杂化,也需要大数据平台来支撑。具体而言,可以通过构建短期业务和中长期业务增长趋势模型来规划集群,考虑数据范围、应用分布规划和存储容量等方面。
从数据范围来看,在实际业务中,企业的业务条线通常会有自己的业务增长趋势,随着业务规模的增长,企业数据量也会不断增加。因此,在规划集群时,可以按照短期业务(1 - 2 年)、中长期(3 - 5 年)业务增长进行规划,而不是在集群初始化时一次性导入初始数据量。比如,假设企业的客户量为 x,所有客户产生的所有业务数据量为 y,在构建集群时的初始数据量为 c,那么可能的一种企业数据量增长模型为 y = af (x) + bg (x) + c。其中,在大部分企业中,如果客户量增加一个量级 dx,那么其所对应的日志和订单业务数据量可能是客户量的线性模型 f (x),而对于交易类业务的数据量可能是客户量的非线性增长模型 g (x),比如笛卡尔积模型。所以不能通过简单的节点动态增加来调整集群规模和存储计算能力,最好还是通过构建短期业务和中长期业务增长趋势模型来规划集群。
在应用分布规划方面,从集群的系统性能方面考虑,希望集群的整体性能尽可能高,资源使用率尽可能大;而从运营维护角度考虑,当集群某个节点出现故障时,希望对集群的可用性、稳定性等方面的影响尽可能小。对于小微集群来说,集群节点个数往往比较少,多个节点需要进行共享。如果集群的节点个数少于 5 个,以 4 个节点的集群、HA 模式为例,可以按照如下进行应用分布设计:Node01: NN、RM、HM;Node02: NN、RM、HM、JN、ZK;Node03: DN、NM、RS、JN、ZK;Node04: DN、NM、RS、JN、ZK。对于这样的集群,抗风险和容错能力比较差,集群的扩展能力也有限,当有节点发生故障需要机器下线操作起来也不方便,所以仅适合于做开发环境或者实时性要求比较低的批处理集群。
在存储容量规划方面,以 HDFS 集群节点规划为例,假如业务系统数据量每天增量 50T,保留周期为 30 天,那么 HDFS 存储容量为 50T * 30 天 * 3 副本 * 2 倍(数据源 + 清晰加工)= 9000T = 8.79P。假如每个机器的磁盘是 4T * 10 = 40T,每台机器的可用存储容量为 40T * 0.75 = 30T,节点预估数量 = 9000T / 30 = 300 节点,所以 datanode 的节点最小数量为 300 个。YARN 集群节点规划中,NodeManager 节点数可以和 datanode 节点数保持一致,如果算力负载过高,可以根据实际情况再扩容。HBase 节点规划一般开始搭建是根据 HDFS 存储公式计算即可,如果从增加并发的考虑,一般一个 RegionServer 并发为 5000 - 2 万(优化后并发更高),可以根据业务实际并发估计节点数量。Kafka 节点规划一般开始搭建是根据类似 HDFS 存储公式计算,一般 1 个 broker 并发为 5 万(优化后并发更高),可以根据业务实际并发估计节点数量。Zookeeper 节点规划在集群开始搭建时 3 节点就够用了,如果发现 zookeeper 负载过高或有超时现象时可以考虑扩展到 5 节点。
大数据平台的搭建需要考虑单机配置性能。对于内存的考量,通常选择比较大的内存节点。如果是主节点通常情况下对内存的要求更高,需要配置更大的内存,而从节点就没必要像主节点那么大,可能更关注的是磁盘和 CPU 指标了。对于 CPU 的考量,不同的节点可以根据要求而不同,比如对于主节点可以选择 2 路 32 核或者更高性能的 CPU,而从节点可以适当降低一些要求,选择 2 路 16 核的 CPU。对于磁盘的考量,对于从节点来说,安装的都是数据存储节点或者计算节点,往往都选择比较大的磁盘,比如由多块 2T 或者 4T 组成的 20T 或 40T 的磁盘。而对于主节点来说,通常安装的都是主节点需要的是内存,对磁盘的要求比较低,不过如果同时也安装了从节点磁盘也需要配置比较大的磁盘。但有一点,为了保证负载均衡和集群性能,所有从节点的磁盘空间配置要尽量保持一致。对于网络的考量,通常对于大数据平台往往数据量都是非常巨大的,网络的吞吐率要求也比较高,所以在条件允许的情况下都选择万兆网。
核心观点:当数据量达到TB 乃至 PB 级别,传统的关系型数据库在处理能力、存储效率或查询性能上可能会遇到瓶颈。数据存储日增量大例如日增过亿条数据,分析需求日益增长。需要构建大数据平台。对于大数据平台的架构规划分短期业务和中长期业务增长趋势模型来规划集群,考虑数据范围、应用分布规划和存储容量等方面。
03.数据治理的契机
当组织变得庞大、数据系统复杂、横向关注的团队需要支持,或者有监管、合规或合同要求时,组织需要从非正式治理转向正式的数据治理。
数据治理的契机通常在以下几种情况出现:首先,当组织规模不断扩大,传统管理方式难以应对与数据相关的跨职能活动时,数据治理变得必要。例如,一个大型企业随着业务的拓展,数据量急剧增加,不同部门的数据管理需求各异,此时传统的管理模式无法有效协调各部门之间的数据流动和使用,需要正式的数据治理来建立统一的数据管理框架。
其次,当数据系统变得极为复杂,涉及多个业务系统和数据源时,也需要进行数据治理。以拥有众多业务线的企业为例,如某公司的音乐业务线和其他业务线拥有大量的数据表,数据的存储、管理和使用变得复杂,业务人员在数据发现和理解方面面临困难。大量数据表存在关键元数据缺失的问题,使得数据难以理解和信任。同时,数据质量问题可能导致错误决策,如数据处理逻辑更改引发的红包超发等情况。此外,数据成本的控制也成为问题,大量数据表占据存储空间却鲜少被访问,造成资源浪费。
再者,当横向关注的团队,如数据架构师、SOA 团队等需要跨职能程序的支持时,正式的数据治理不可或缺。这些团队需要采用企业级的数据关注视角,而非孤立地看待数据问题。例如,在企业进行数字化转型过程中,数据治理能够为这些团队提供统一的数据标准和管理流程,支持他们的工作。
最后,当有监管、合规或合同要求时,组织必须进行正式的数据治理。在高风险行业,如金融、医疗和能源等领域,数据的安全和合规性至关重要。这些行业通常涉及敏感信息和隐私数据,需要采取额外的安全措施来保护数据,并确保数据在处理和传输过程中的合规性。数据治理可以帮助企业建立适当的数据保护机制,并确保符合相关法规和标准。
数据治理的流程包括规划、采集、存储、处理、共享和监控等环节。在规划环节,组织需要决定数据治理的重点,明确价值陈述,制定路线图,并设计治理程序。例如,企业可以通过现状自查,了解自身数据管理的现状,包括数据管理组织、制度、流程、分类、编码结构、模型、质量标准、安全标准、交换标准以及数据质量、安全、交换状态等方面的情况。同时,企业可以邀请领导观摩考察其他数据治理项目实施成果,邀请外部专家走进企业,讲解数据治理的必要性,以获得高层领导的支持。
在采集环节,要确保数据的可靠性和准确性,建立数据采集规范和标准,并定期检查数据采集的质量和效益。例如,企业可以建立可行模式以保证外部数据的正确性,如与第三方数据供应商建立长期稳定的合作关系,并逐步建立数据交换和共享机制。
在存储环节,要规范数据的存储方式和存储设备,建立数据备份和恢复机制,保障数据的可靠性和安全性。例如,以 HDFS 集群节点规划为例,根据业务系统数据量的增量和保留周期,计算存储容量,确定节点预估数量,合理规划 datanode、NodeManager、HBase、Kafka、Zookeeper 等节点的数量和配置。
在处理环节,要保证数据的一致性、准确性和完整性,制定数据处理流程和标准,依据业务需求进行定制化的数据处理。例如,通过数据仓库建模、合理的分层设计、ETL 过程开发等,保障数据模型及架构的稳健性和可扩展性,提高数据使用的准确性。
在共享环节,要建立数据共享流程和标准,确保数据的安全和合规性。例如,建立数据共享平台,对数据的使用和共享进行管理和监控,明确数据共享机制,包括共享流程、共享平台和共享标准等方面。
在监控环节,要建立数据监控机制和标准,确保数据的质量和安全性。对数据的采集、存储、处理、共享和交换等多个环节进行监控和管理。例如,创建数据质量动态感知台,根据 KPI 和关键业务操作流程进行数据质量的绩效评估,帮助企业管理数据风险,并创造更多降低运营成本的机会。
通过建立集中的数据管理机制、明确责任和权限、建立数据安全管理体系、数据共享机制和数据质量评估机制等实施策略,可以有效实现数据治理。建立集中的数据管理机制,包括建立数据治理团队、明确团队成员的角色和职责,制定数据管理流程、标准和规范。制定明确的责任和权限,确保每个人在数据管理中都有明确的职责和权利,建立数据管理的监控机制,确保数据管理的执行效果。建立数据安全管理体系,包括数据的备份、恢复、加密、访问控制等多个方面,以保障数据的安全性和合规性。建立数据共享机制,包括共享流程、共享平台和共享标准等方面。建立数据质量评估机制,明确评估标准和评估指标,对数据的质量进行评估和监控。
例如,台州农发行以 “数据专项治理” 为契机,将行内数据质量纳入绩效考核整体框架,强化问责,确保数据质量得到明显改善。该行组织制定了数据治理专项行动责任清单,明确责任主体、责任内容、完成时限,并对近年来行内的各项统计数据进行自查自纠,形成整改台账。同时,该行实现了银保监会台州监管分局区域特色报表与非现场监管报表的表间校验功能,切实做到 “用科技手段提升工作效率”。
又如,江苏警官学院现代警务研究中心在公共安全领域的数据治理中,强调国家高度重视数字化应急管理,各地数字化应急管理有制度保障,且在重大公共安全事件中有数据治理经验。但同时也面临统筹规划滞后、制度规范缺失等挑战。这进一步说明了数据治理在不同领域的重要性和复杂性,以及实施数据治理的必要性和紧迫性。
核心观点:数据治理出现在大数据平台的数据应用已经非常多,数据应用推广的后期,为了提高数据应用的效率,提高数据治理的效率,发挥数据价值的情况下,应用数据治理功能和职能。这也说明数据治理是否刚需是看企业在大数据的应用阶段来区分。早期数据治理不是刚需。
04.实时和离线数据处理的抉择
从数据处理的实时性要求角度看,大数据分析可以分为批量(离线)和流式两种数据处理方式。批量处理主要适合于实时性要求不高的分析型应用,如企业周期性统计报表;而流式处理主要适用于实时性要求高的在线分析应用,如客户浏览网页时的产品推介或广告投放。
批量处理通常是对已收集的大量数据进行批量处理和分析,一般是定时执行的任务,具有高吞吐量、容错性强等特点,适用于业务报表、数据仓库、历史数据分析等场景。常用的技术有 Hadoop MapReduce、Apache Spark 等,通过分布式计算框架实现大规模数据的批处理,能够处理海量数据,但对实时性要求不高。
流式处理则是对数据进行实时分析和处理,在数据到达时立即进行处理,以实现快速响应和决策。它具有低延迟、高并发性、连续计算等特点,适用于需要实时响应的场景,如实时推荐系统、实时监控、金融交易分析等。常用的技术有 Apache Kafka、Apache Flink、Apache Storm 等,通过分布式流处理平台实现高吞吐量的实时数据流传输和处理。
例如,在金融行业中,批量处理可以用于每日的业务报表生成,对大量历史交易数据进行分析,以评估信贷风险、优化投资组合等;而流式处理可以用于实时金融交易分析,快速响应市场变化,做出交易决策。在互联网行业中,批量处理可以用于用户行为分析、市场趋势预测等,而流式处理可以用于实时广告投放、产品推荐等,根据用户的实时行为和偏好,向用户推送个性化的内容。
在大数据处理中,离线计算适用于处理大量静态数据,可进行复杂的批量运算,并且能够方便地查询存储计算结果。通常采用 Hdfs 存储数据,使用 MapReduce 等技术进行批量计算,对数据进行处理、筛选和清洗等操作,最终得出与业务需求相关的结果,计算完成的数据可存入 Hive 并从 Hive 进行展现。
而在机器学习中,流式数据处理也有广泛的应用场景。例如,在工业界,希望有一个模型能够利用最近历史信息进行预测分析,并且这个模型是可更新的。以天气预测为例,如果最近几天都是晴天,那么未来几天极小概率会出现雨雪和低温天气。实时机器学习应用是人工智能真正落地服务化的关键一步,因为工业界大部分场景下数据都是实时产生的。典型的流处理框架结合了消息传输层技术以及流处理层技术,如 Lambda 架构实现了离线计算的精确性的同时获得了流式数据处理的实时性,但开发、维护成本高;Kappa 架构使用流式处理解决了维护两套同样逻辑代码的问题;spark streaming 基于小批量进行数据处理;Flink 既可以实现低延迟、高吞吐,还可以实现容错。
在大数据流式计算中,数据往往以元组为单位,以连续数据流的形态持续到达大数据流式计算平台。数据源往往是多个,且数据流中各个元组间的相对顺序难以控制。数据流的流速高速且动态变化,需要系统弹性、动态地适应。实时分析和处理数据流至关重要,所有数据元组仅会被处理一次。大数据流式计算可以广泛应用于金融银行、互联网、物联网等诸多领域,如股市实时分析、插入式广告投放、交通流量实时预警等场景。
大数据运营之数据分析过程中,从数据处理的实时性要求角度看,也分为批量和流式两种处理方式。批量处理适合实时性要求不高的分析型应用,如企业周期性统计报表;流式处理适用于实时性要求高的在线分析应用,如客户浏览网页时的产品推介或广告投放、社会关注热点分析等。
核心观点:在大数据处理阶段,采用批量处理还是流式处理方式,取决于应用的要求。而目前最新的技术架构,湖仓一体或者流批一体的本质是降低数据开发的复杂度,降低数据存储的成本,提升开发效率。
05.大数据和AI&AIGC的关系
大数据、人工智能(AI)和人工智能生成内容(AIGC)之间的关系是相互促进和互补的。以下是它们之间的一些基本关系:
1、大数据作为AI和AIGC的燃料:
训练材料:大数据提供了大量的训练样本,这对于训练AI模型至关重要,尤其是对于监督学习算法。
模式识别:大数据可以帮助AI系统识别复杂的模式和趋势,这对于预测分析和决策支持系统非常有用。
2、AI和AIGC对大数据的处理和分析:
自动化处理:AI可以自动化处理和分析大数据,提高效率和准确性。
智能决策:AI可以帮助从大数据中提取有价值的信息,支持更智能的决策制定。
3、AIGC在内容创造中的应用:
内容生成:AIGC可以利用大数据生成个性化内容,如文章、图像、视频等。
个性化推荐:基于大数据的AI推荐系统可以为用户提供个性化的内容推荐。
4、大数据的挑战和AI的解决方案:
数据清洗和预处理:AI可以帮助处理大数据中的噪声和不一致性,提高数据质量。
数据安全和隐私:AI技术可以帮助保护大数据中的个人隐私和数据安全
没有大数据,AI和AIGC仍然可以实施,但可能会面临一些限制:
1、小数据学习:在数据量较少的情况下,可以使用迁移学习、元学习或少量数据学习技术来训练AI模型。
2、模拟和合成数据:在某些情况下,可以使用模拟环境或合成数据来训练AI模型,尤其是在机器人学习或游戏AI中。
3、领域专业知识:在某些领域,专家知识可以弥补数据的不足,通过规则基础的系统来实现智能决策。
4、AI的解释性和可解释性:在数据量较少的情况下,AI模型的解释性和可解释性变得更加重要,以确保模型的决策是透明和可靠的。
5、AIGC的创造性:即使没有大数据,AIGC也可以通过创造性的方法生成内容,例如,使用预训练的模型和少量的种子数据来激发创意。
核心观点:大数据可以极大地增强AI和AIGC的能力,但即使在数据量有限的情况下,AI和AIGC仍然可以发挥作用,只是可能需要更多的创新和适应性方法。
在企业数字化转型的浪潮中,大数据和 AIGC 的抉择并非一蹴而就,而是要综合考量多方面因素。首先,大数据人员的充足与否至关重要,专业的人才队伍能够确保大数据项目从数据采集、整理到分析挖掘的高效推进,缺乏足够的人力支持,大数据战略将举步维艰。其次,明确的大数据应用场景不可或缺,例如在电商行业精准营销、制造业供应链优化等方面,只有有了应用落脚点,大数据才能真正发挥价值。再者,技术储备是大数据实施的根基,包括数据存储、处理算法等方面的技术积淀,否则难以应对大数据处理的复杂需求。同时,数据量也是关键指标,若尚未达到需要大数据平台支撑的量级,盲目投入可能导致资源浪费。最后,企业战略目标中的资金规划不容忽视,大数据项目的建设、运维以及后续升级都需要大量资金支持,只有在资金充足且规划合理的情况下,企业投身大数据领域才有望收获预期效益,实现长远发展与竞争力提升。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。