大数据及数据管理(治理)专栏
文章平均质量分 89
展现大数据技术应用领域中具有前瞻性、独立性和创新性的产业与技术发展见解;产业的新研究应用成果与发展动态;关键技术、热点的前沿性研究与应用;具有先进性和推广价值的应用方案等。本专栏的文章每天都会更新且无上线,保证“技”有所值。
米朵儿技术屋
畅游在IT的蓝海,对行业信息化建设、大数据、物联网、AI有独到的见解!欢迎咨询毕设、论文、期刊、源代码等业务!如您下载的资源或购买的专栏文章有质量、准确性、完整性(公式)等问题,还请私信我们,我们竭诚为您服务。
展开
-
零信任网络架构与实现技术的研究与思考
数据安全的传输通道构建可以因地制宜,比如在两个局域网之间的数据传输中,可以在各自网络的出口架设实体网关,对经过网关的数据进行保护,也可以在对外提供服务的数据服务器上部署代理软件,或者在其物理接口处部署实体网关,接管出入服务器的数据流。网络安全等级越高,评估的因素就越多,要求掌握的信息就越丰富。在建立身份管理系统、资产管理系统、软件白名单和网络组织清单时,信息采集应满足法律的要求,如果是采集个人信息,应该得到个人的授权,并且数据的生成、传递和保存必须采用制度和技术保护,保证数据的保密、真实和完整。原创 2023-11-26 00:15:12 · 94 阅读 · 0 评论 -
商用密码应用安全性评估
否则,该证书的状态不符合测评要求。本文简单介绍了密码应用安全性评估的相关背景情况,指出了现阶段密评实践中存在的主要问题,针对上述问题,中国电子技术标准化研究院密评团队结合自身工作经验,从抓包工具的部署、报文过滤的技巧、数字证书的认证和加密后的应用层重要数据的读取等方面提出了可行的解决方法。下一步,将进一步加强密码技术应用和安全性评估研究,与产学研用更多力量深度合作交流,依托工业和信息化部商用密码应用产业促进联盟,研究密码相关标准与评估方法,提升评估的准确性和高效性,为密码应用推广及安全性评估贡献力量。原创 2023-11-26 00:14:06 · 355 阅读 · 0 评论 -
智能车联网信息安全研究
摘 要车联网技术是国内外的研究热点问题。车联网技术与传统汽车行业深度融合,促进了自动驾驶技术在多种智能场景下的部署与应用。然而,车联网技术智能化、共享化、网联化发展的同时也带来了不可避免的安全问题,如硬件安全、数据安全、通信安全、云平台安全等安全问题。从车联网生态系统 3 层架构入手,分别讨论了车载端、路端、云端 3 个方面的典型安全问题,有针对性地研究了不同安全防护解决方案,为提升车联网安全保障能力做出了贡献。内容目录:1 车联网发展现状1.1 国内外发展现状2 车联网生态系统2.1 车联网定义概述2.2原创 2023-11-26 00:13:05 · 98 阅读 · 0 评论 -
基于 5G/6G 技术的卫星互联网一体化安全研究
第二阶段是卫星系统与5G/6G在空口技术的融合,即卫星作为 5G/6G 的一种空口无线接入方式,至此卫星通信空口协议与 5G/6G 空口协议融合,只需在频段上稍作区分,卫星基站即成为 5G/6G基站,卫星终端也可以是普通 5G/6G 终端。随着卫星通信技术的发展,空间网络与地面网络一体化融合演进,实现应用业务的融合、网络架构的融合、核心网的融合,通过天地协同的资源调度实现资源按需分配、数据最优流转,构建覆盖全球的天地一体化网络,实现用户无感的自配置、自修复、自优化的网络是未来网络技术的发展趋势。原创 2023-11-26 00:10:36 · 53 阅读 · 0 评论 -
后量子密码的发展趋势研究
摘 要密码是保障网络通信安全的堡垒,随着量子计算的出现,经典密码体制在维护信息安全方面面临着巨大的挑战。目前,后量子密码算法是理论上证明可保障量子环境下通信安全的新型密码方案。通过分析现有量子计算技术与后量子密码方案设计的研究进展,强调后量子密码研究的紧迫感,表明后量子密码的研究在信息安全中的重要性,最后指出后量子密码下一步可能的研究方向,为我国后量子密码技术研究提供参考。内容目录:1 量子计算机的发展现状2 抵御量子威胁时不我待2.1 抵御量子威胁的战略意义2.2 密码算法的实用化需要时间孵化3 全球守护原创 2023-11-26 00:09:35 · 88 阅读 · 0 评论 -
流量劫持的常见手段及其法律规制
摘 要:互联网时代,平台间的竞争焦点在于流量之争。为了实现用户增长、活跃或者其他商业盈利的目的,流量劫持的技术手段在市场竞争中被不当使用,且劫持行为呈现出形式多样的特点。从技术实现原理来看,客户端响应用户指令和服务器通信过程的各个节点都可能潜伏着劫持者。在司法审判中,依据《反不正当竞争法》互联网专条,这类行为多被予以否定性评价,甚至课以刑罚。此外,由于流量黑灰产违背公序良俗,损害了社会公共利益,围绕流量劫持展开的商业合作亦应属绝对无效。内容目录:1 流量及流量劫持的概念2 流量劫持的技术分析、常见手法及其表原创 2023-11-26 00:07:40 · 121 阅读 · 0 评论 -
内涵型人工智能及其伴生安全问题
摘 要人工智能的未来发展有两大趋势,一是继续向外扩展人类的外延,二是努力向内丰富人类的内涵,前者称为外延型 AI,后者称为内涵型 AI。与外延型 AI 的发展方向相反,内涵型 AI 意在借助现有的机器智能来提高人类自身的整体智能。在全面综述内涵型人工智能及其发展趋势的同时,从宏观、中观和微观角度分析了相关新技术和新理念的伴生安全问题,其中有些问题已有解决思路,有些问题还需在发展中不断探索解决方案。内容目录:1 内涵型 AI 与安全的一般性关系2 基于宏观脑电图的内涵型 AI 及安全3 基于中观大脑地图的内涵原创 2023-11-26 00:06:16 · 56 阅读 · 0 评论 -
基于 QKD 网络的量子密钥管理系统体系结构研究
用户应用维度从系统整体使用及服务角度,面向用户应用需求,考虑不同管理功能在量子密钥生命管理周期中的作用与定位,充分体现不同管理功能对量子密钥管理与分配的贡献,以及系统集成管理活动为量子密钥管理系统的有效运行提供的技术保障能力。管理软件的设计以可扩展、开放架构为设计宗旨,提供统一的界面集成框架和服务集成框架,提供成熟的公共基础构件,定义良好的接口规范和开发流程,设计统一的服务分配保障模式的用例,为不同设备及组件的管理插件集成提供良好的平台。因此,需要建立安全防护子系统,为量子密钥管理系统保驾护航。原创 2023-11-26 00:04:58 · 101 阅读 · 0 评论 -
装备软件供应链网络安全风险分析与对策
摘 要随着“震网”“NotPetya”“心脏滴血”“太阳风”等攻击事件的相继发生,软件供应链安全引起各国高度关注,而国家间竞争、地区冲突和全球性疫情等多种不利因素更加剧了对软件供应链安全生态的冲击,也对装备软件供应链安全提出严峻挑战。首先,从软件供应链全链条安全、软件源头把控、开源代码使用安全、软件供应链管控体系等几个方面入手,分析装备软件供应链面临的网络安全形势和安全风险。然后,从形成装备软件供应链的安全标准体系、安全监管体系、安全测评体系和安全技术体系等角度,提出相应对策措施,为装备软件供应链安全提供支原创 2023-11-26 00:03:53 · 69 阅读 · 0 评论 -
网络爬虫技术的安全风险和刑法应对
摘 要随着近年来国内数据经济和数据产业的发展,网络爬虫技术的风险开始在刑事领域凸显,应当运用刑法对其加以规制。当前我国对网络爬虫的刑法规制,在立法和司法层面均存在一定不足。对网络爬虫进行规制应当秉持刑法的谦抑性和法秩序统一性,采取安全与效率平衡的基本立场,实现数据犯罪治理思路由控制模式到利用模式的转型。在立法层面,加快数据犯罪体系建构,积极增设故意破坏数据犯罪,谨慎设立过失危害数据犯罪;在司法层面,充分发挥法益的实质解释功能,不以技术判断取代规范判断,以实质解释为路径,完善对网络爬虫行为违法性的认定,同原创 2023-11-26 00:01:04 · 95 阅读 · 0 评论 -
即时通信的安全加密通信模型研究
摘 要即时通信已经广泛应用于人们的日常生活和工作之中,其安全性和易用性是使用者关心的核心问题。分析了国内外主流即时通信的安全通信模型,并详细讨论了其中的消息加密和发送流程。易用性方面,给出了不同加密模式下群聊和多设备端在线场景中的消息转发原理,设计了端到端加密模式下的安全通信模型。最后分析了各种安全通信模型的适用场景,并提出了相应的选用建议。内容目录:1 即时通信的通信模型1.1 威胁模型1.2 端到服务器加密的通信模型1.3 端到端加密的通信模型1.4 安全性和复杂性比较2 多设备端在线通信模型2.1原创 2023-11-25 23:52:39 · 74 阅读 · 0 评论 -
基于 Spark 大数据平台的云上用户日志行为审计系统
SparkStreaming 读取 HDFS 中的原始日志,经过日志过滤模块,然后对于每行有效日志根据事件的日志模型库去匹配其正则表达式,如果匹配成功,则可以知道当前有效日志属于哪一个事件,待某事件的日志模型对应的日志都收集齐了,则从收集到的日志中提取出对应的有效信息,生成一条新的结构化的数据,并写入数据库中。(2)数据泄露检测。实际的事件日志只能包含有限的信息,因此提取出来的日志要素往往比需要的要素少,某个“事件”结构化后的数据记录的要素的饱满程度,是和该事件触发的日志中包含的信息量相关的。原创 2023-11-25 23:51:47 · 139 阅读 · 1 评论 -
印度的数据治理路径
摘 要数据作为新型生产要素,既是全球数字经济增长的新引擎,也是各国抢占战略竞争制高点的重要抓手。近年来,印度等国家纷纷建立完善数据治理制度和政策,积极参与国际规则制定,已产生了一定的国际影响。在此背景下,从案例视角切入,介绍了印度数据治理的制度和政策,分析了印度数据治理的法律框架、技术框架及治理路径,并指出印度基于自身制度和政治文化形成了独特的数据治理模式。内容目录:1 印度的数据经济1.1 印度的信息技术推广1.2 数字基础设施1.3 印度对数据治理的需求2 印度数据治理的法律框架2.1 个人数据2.2原创 2023-11-25 23:50:14 · 66 阅读 · 0 评论 -
基于混合策略和违规阻断的视频专网准入控制系统的研究与实现
对非授权设备私自连接到视频专网的行为进行检查,并对其进行有效阻断,保证内部网络的安全。随着移动互联网、物联网的发展,越来越多的无线感知设备将接入专网,如何通过标准的 802.x 协议,在网络接入层进行前端和终端的身份认证、合规检查和违规阻断,将是下一阶段研究的课题。以“接入设备可信、接入数据可控”为原则,通过主动扫描、被动监听和手工设置等手段,建立弱口令扫描、高危端口扫描、白名单准入等策略,实现对网络中非法恶意行为的识别、告警和实时阻断,避免非法访问、入侵攻击等非法数据接入视频专网。原创 2023-11-25 23:49:21 · 94 阅读 · 0 评论 -
基于属性加密的云存储访问控制方法
针对现有控制方法在对云存储访问控制时,无论是控制精度还是控制效率均无法满足用户需求的问题,张国梁等人研究了基于分层密钥管理的云计算密文访问控制方案设计,该研究分析了云计算访问控制的技术框架和现行机制,根据分析结果,以分层密钥管理为基础,设计了新的云计算密文访问控制方案和算法,实现加密访问,但是该方法在实际应用中存在加密效果差的问题。上述实验结果能够证明,本文所提出的基于属性加密的控制方法可以在一定程度上保证控制的准确性,并且这一性能不会受到访问次数的影响,具备极高的稳定性。为正确控制用户访问的数量;原创 2023-11-25 23:48:32 · 73 阅读 · 0 评论 -
数据库异常智能分析与诊断
DAS(Database Autonomy Service, 数据库自治服务)面向研发和DBA,是一款为用户提供数据库性能分析、故障诊断、安全管理等功能的数据库自治服务。DAS利用大数据手段、机器学习、专家经验,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定和高效运行。本文主要讲述DAS的历史背景、演进策略、重要功能及实现思路,希望能对从事相关开发的同学有所帮助或者启发。1 现状与问题1.1 规模增长与运维能力发展之间的不平衡问题凸显伴随着最近几年美团业务的快速发展,数据库原创 2022-11-17 16:45:53 · 106 阅读 · 0 评论 -
基于代价的慢查询优化建议
对于数据库来说,慢查询往往意味着风险。SQL执行得越慢,消耗的CPU资源或IO资源也会越大。大量的慢查询可直接引发业务故障,关注慢查询即是关注故障本身。本文主要介绍了美团如何利用数据库的代价优化器来优化慢查询,并给出索引建议,评估跟踪建议质量,运营治理慢查询。1 背景慢查询是指数据库中查询时间超过指定阈值(美团设置为100ms)的SQL,它是数据库的性能杀手,也是业务优化数据库访问的重要抓手。随着美团业务的高速增长,日均慢查询量已经过亿条,此前因慢查询导致的故障约占数据库故障总数的10%以上,而且高级别的故原创 2022-11-16 16:32:48 · 114 阅读 · 0 评论 -
从数据的属性看数据资产
根据第3.4节的分析,有必要将信息资产、数字资产和数据资产统一为数据资产,并依照数据属性开展数据的资产化研究工作。4.1 数据具备资产的基本条件资产是指会计主体(政府、企事业单位等)由过去的经济业务或者事项形成的、由会计主体控制的、预期能够带来经济利益流入或产生服务潜力的经济资源。资产的分类很多,如流动资产、固定资产、有形资产、无形资产、不动产等。资产具有以下几个方面的特征:● 资产预期会给会计主体带来经济利益或产生服务潜力;● 资产应是会计主体拥有或者控制的资源;原创 2022-11-16 16:31:27 · 315 阅读 · 0 评论 -
FlutterWeb性能优化探索与实践
美团外卖商家端基于 FlutterWeb 的技术探索已久,目前在多个业务中落地了App、PC、H5的多端复用,有效提升了产研的整体效率。在这过程中,性能问题是我们面临的最大挑战,本文结合实际业务场景进行思考,介绍美团外卖商家端在 FlutterWeb 性能优化上所进行的探索和实践,希望对大家能有所帮助或启发。一、背景1.1 关于FlutterWeb时间回拨到 2018 年,Google 首次公开 FlutterWeb Beta 版,表露出要实现一份代码、多端运行的愿景。经过无数工程师两年多的努力,在今年年初原创 2022-11-16 16:30:18 · 390 阅读 · 0 评论 -
某实时数仓建设实践
本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是:一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合,同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易开发、易维护且效率高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务的多样性需求。01 实时场景实时数据在美团外卖的场景是非常多的,主要有以下几个方面:02 实时技术及架构1. 实时计算技术选型目前,市面上已经开源的实时技术还是原创 2022-11-16 16:29:27 · 139 阅读 · 0 评论 -
元宇宙:人类叙事的下一个100年
从东非离开的古代智人嘴带微笑想象远处的落日家园,孤岛上的渔夫竭力撑起了复活巨像,淮河两岸的青壮年开拓京杭大运河,一个落拓的程序员开始建设自己的像素世界……“你看,这样一张绿颜色的纸,上面印个人头,然后他告诉你,这张纸价值十个香蕉。“如果一只大猩猩对另一只大猩猩说,你把这根香蕉给我,死后就会进入天堂,那里有吃不完的香蕉。,一个即将发生的故事,一个虚构的伟大故事。有些人,不管你是爱慕还是讨厌,你必须承认,TA本身有着天然蛊惑人心的魅力。作为“全球化”最强大的承载工具,互联网在经历了几十年的红利期后,也遭遇了。原创 2022-11-16 16:28:27 · 107 阅读 · 0 评论 -
Facebook改名Meta,“元宇宙”到底是什么?
其实在今年8月,芯片巨头英伟达也推出了一个为元宇宙打造的模拟平台 Omniverse,其前缀“omni-”表示“总、全部”,比如 omnivore 杂食动物,omnipresent 无所不在,verse 也是来自 universe,所以 Omniverse 就是“包罗万象的宇宙、囊括一切的宇宙”。扎克伯格梦想中的元宇宙是这样一种地方:每个人都参与到虚拟现实的世界中来,能够瞬间传送,仅通过意识就能让事情发生,有效超越物理世界的限制,进入一个勇敢的、全新的数字世界。这位亿万富翁承认,这还有“很长的路要走”。原创 2022-11-16 16:27:20 · 947 阅读 · 0 评论 -
元宇宙的“42条共识”
5G+AI+XR云计算,区块链,高度沉浸社交,引擎技术、脑机接口,数字人,边缘计算,数学算法,3D操作系统等都会出现新技术。Web3.0、区块链、DAO、DeFi、GameFi、NFT、DEX、AMM、以太坊、USDC。的体验,在同一时间尺度上,可以完成不同的事情,实现小说中才可能出现的。无论是互联网派,还是区块链派,在实现元宇宙的过程中都有自己的。自然层、物理层、交互层、数据层、协议层、合约层、应用层。是开源的,只要你有创意,你就能创造元宇宙的内容;,最终都可以形成一个自己的、超出任何产品的世界。原创 2022-11-16 16:26:36 · 170 阅读 · 0 评论 -
深度探讨什么是云原生,它的关键技术包括哪些
在应用开发测试到上线的过程中,应用通常需要被频繁部署到开发环境、测试环境和生产环境中,在传统的可变架构时代,通常需要系统管理员保证所有环境的一致性,而随着时间的推移,这种靠人工维护的环境一致性很难维持,环境的不一致又会导致应用越来越容易出错。服务网格可以使服务与服务之间的通信更加流畅、可靠、安全,它的实现通常是提供一个代理实例,和对应的服务一起部署在环境中,这种模式我们称为Sidecar模式,Sidecar模式可处理服务之间通信的任何功能,比如负载均衡、服务发现等。向上支撑应用,让开发者更关注业务价值。原创 2022-11-16 16:25:18 · 173 阅读 · 0 评论 -
基于数据湖架构下的数据治理
前言随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显的力不从心。数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具。数据湖可以更好地支撑数据预测分析、跨领域分析、主动分析、实时分析以及多元化结构化数据分析,可以加速从数据到价值的过程,打造相应业务能力。而有效的数据治理才是数据资产形成的必要条件,同时数据治理是一个持续性过程,也是数据湖逐步实现数据价值的过程。未来在多方技术趋于融合,落地场景将不断创新,数据湖、数原创 2022-11-16 16:24:23 · 188 阅读 · 0 评论 -
一篇文章讲清楚云原生图景及发展路线
本文简单介绍了云原生的一些基本概念,从演进角度解释了为什么会有云原生,本质就是抽象抽象再抽象,最后调研了国内外的主流现状,读到这希望你有点感觉了,进一步了解需要读者自行实践。原创 2022-11-16 16:23:18 · 84 阅读 · 0 评论 -
24个 Docker 常见疑难杂症处理技巧
启动服务的时候,发现有时候服务之前可以相互连通,而有时启动的多个服务之前却出现了无法访问的情况。平台部署服务的时候,也有时会因为启动问题需要,使启动的服务不直接退出,来手动调试和排查问题原因。中,那么很显然,我们还必须找到一个地方储存文件的元信息,比如文件的创建者、文件的创建日期、文件的大小等等。但是奇怪的是,本地调试的时候发现服务都是可以正常运行的,文件加锁也是没问题的。而是,因为对于分区的。容器在导入或者启动的时候,如果提示磁盘空间不足的,那么多半是真的因为物理磁盘空间真的有问题导致的。原创 2022-11-15 19:10:14 · 915 阅读 · 0 评论 -
基于Docker的网络安全靶场搭建
在学习网络安全技术过程中,我们往往需要有一个自己的操作机与多个用来搭建环境的靶机,使用VM虚拟机模拟资源占用较大,成本高、局限性大且使用十分不便。这时我们可以使用一台安装好Docker环境的linux虚拟机来完成桌面版操作机与WEB靶机的搭建与实验操作。原创 2022-11-15 19:09:29 · 810 阅读 · 0 评论 -
WebAssembly上手:基础指南
首先,我们推入值:整数 2,其后是函数的第一个参数(local.get 0),然后是整数 4。如果命令成功执行,你将看到两个新文件:小巧的 dragon-curve-em.wasm,以及一个 15Kb 的怪物 dragon-curve-em.js(缩小后),其中包含 WebAssembly 模块的实例化逻辑和各种浏览器 polyfills。但在实际的应用程序中,我们希望适当地分配内存并使用系统库,其中“系统”是我们的浏览器:WebAssembly 仍在沙箱中运行,无法直接访问你的操作系统。原创 2022-11-15 19:08:51 · 1399 阅读 · 0 评论 -
元宇宙 • 数学 • NFT
注定属于两个世界,现在的NFT市场存在一个天然的矛盾:大部分的NFT产品,它在物理上是独一无二的,同时又想进入比特世界,而这两个共生的世界一旦纠缠起来是相当麻烦的。,他们面对陌生人的部落时,彼此充满了敌意和恐惧,无法和陌生人建立信任关系,一切争议凭靠武力解决。这是元宇宙最核心的东西,它是数字世界里原生出来的东西,和现实世界没有对应关系,数字原生才是真正的元宇宙。保证的,如果该NFT资产发行在以太坊上,只要以太坊网络是安全的,那么你的NFT资产的属性就是确定的,智能合约与NFT,它的底层都与数学有关。原创 2022-11-15 19:08:16 · 472 阅读 · 0 评论 -
虚拟化与元宇宙:人类文明演化的奇点与治理
摘 要:当前人类文明显然正在面临着来自网络虚拟化的重大挑战与转型,元宇宙作为网络虚拟化进程的最终形态,成为人类文明演化进程的重要历史性节点。元宇宙的形成与发展,势必会引致对传统社会的进一步数字化替代,从而演化出人类未来发展的两条道路:一条是彻底滑向虚拟化陷阱,成为绝大部分人类依赖的数字空间;另一条则是与现实社会的耦合增强,进一步加大对现实社会的有益补充。前者会引发人类在知识发现和实践上的停滞而阻碍文明进步的历史进程,后者则有可能进一步延伸人类探索与改造自然的能力,加快文明的进步。通向哪条道路最终取决于预先政原创 2022-11-15 19:07:29 · 340 阅读 · 0 评论 -
基于容器云技术的典型遥感智能解译算法集成
针对当前航天遥感信息处理向云计算发展的趋势,将容器云技术应用于遥感数据的智能处理,通过在计算集群中部署遥感解译算法镜像与分布式存储服务,屏蔽复杂的环境依赖问题,并通过配置文件进行流程管理,形成了从开发到部署的整体技术路线,为遥感智能解译技术的集成提供了高效可靠的新思路。以几种典型的遥感智能解译算法为例,证明了该方案在智能解译模型的集成化开发部署上的高效性,为遥感智能解译技术的新型云端模式探索了可行性方案。原创 2022-11-15 19:07:10 · 105 阅读 · 0 评论 -
中国为什么要发展人工智能
基于武汉人工智能计算的武汉大学遥感科研创新,已经让遥感产业的武汉立德空间、武汉光谷信息等企业开始合作,未来预计有20多家遥感相关的企业将入驻武汉人工智能计算中心,以AI技术赋能武汉的“北斗军团”,打造全球遥感第一高地。到时候,人工智能计算中心就不仅是基础设施,也是汇聚公共数据资源的平台,更是创新成果共享的平台,哪个行业和企业有需要,都可以从中获益。而武汉纳思系统,借助人工智能的帮助,用AI赋能电力巡检,通过算法的大量训练,让监控镜头在极微弱的光线环境下也能辨认隐患,日夜都能监测到位。原创 2022-11-15 19:02:51 · 486 阅读 · 0 评论 -
人工智能十大流行算法
为此,我们将数据项绘制为 n 维空间中的点,其中,n 是输入特征的数量。当然,这样做题,等于抓瞎,所以我们还需要引入其他数据,比如小猫喜欢你,有b%可能和你贴贴,有c%概率发出呼噜声。可能是最流行的机器学习算法。它测量每个类的概率,每个类的条件概率给出 x 的值。比如在上面例子中的老师就认为出勤率比做作业重要,所以出勤率的节点就更高,当然分数的节点更高。随机森林拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源、保留及流失,也可以用来预测疾病的风险和病患者的易感性。原创 2022-11-15 19:02:19 · 7170 阅读 · 0 评论 -
详解KNN算法
大家可以看到k值的选取会直接影响到评测结果,如果k值选取过大,相当于用较大领域中的训练实例进行预测,这样看起来是觉得数据越多可能越准确,但实际上并不然,如果要想获得较多个k值,这样你就需要把距离进一步扩大,预测准确率自然会下降。还是拿那个我们判断一个人是什么样子的人为例,如果选择较大的k值比如一个班的人,然后根据这一个班所有人的情况去预测这个班里面的某一个人是什么样子的,这样很明显是不准确的。这里我们目前就使用多数表决的分类规则,即这距离最近的k个值中的大部分值的类别就是待预测值的类别。原创 2022-11-15 19:00:01 · 181 阅读 · 0 评论 -
KNN分类算法介绍: Stata和R同步实现(附数据和代码)
既然R或Python介绍机器学习算法的角度和计量经济学相差甚远,那么花费大量时间去学习它们还有必要么?考虑到目前Python已经成长全球第一编程语言,R是全球第一统计语言,同为开源软件的两者对传统商业统计软件的取代(或部分取代)是大势所趋。只有熟悉和掌握作为机器学习最主流的两种语言Python或R,我们才能紧跟人工智能时代的角度。至于R和Python相比,笔者个人更推荐R。毕竟Python是通用编程语言,思维和逻辑角度更偏计算机学科,而R天生是统计语言,和计量经济学关系更为接近,更适合经管学科的朋友们。原创 2022-11-15 18:56:57 · 408 阅读 · 0 评论 -
图解超经典的KNN算法
本文中介绍的机器学习算法中的一种KNN算法,全称是,中文称之为K近邻算法。它是机器学习可以说是最简单的分类算法之一,同时也是最常用的分类算法之一。原创 2022-11-09 16:33:16 · 607 阅读 · 0 评论 -
深入理解KNN扩展到ANN
一句话就可以概括出KNN(K最近邻算法)的算法原理:综合k个“邻居”的标签值作为新样本的预测值。更具体来讲KNN分类过程,给定一个训练数据集,对新的样本Xu,在训练数据集中找到与该样本距离最邻近的K(下图k=5)个样本,以这K个样本的最多数所属类别(标签)作为新实例Xu的预测类别。由上,可以总结出KNN算法有距离度量、 K值的选择 和 决策方法等三个基本要素,如下分别解析:KNN算法用距离去度量两两样本间的临近程度,最终为新实例样本确认出最临近的K个实例样本(这也是算法的关键步骤),常用的距离度量方法有曼哈原创 2022-11-09 15:07:47 · 606 阅读 · 0 评论 -
贝壳业务数据治理中台实践
导读:数据治理经过多年的沉淀,积累了比较完善的理论体系;但是落地时候,治理范围如何聚焦,数据产品如何定位、具象设计和推广运营,不同公司有着不同的设计实现。本文会结合贝壳找房近两年的业务数据中心建设经验,从产品视角来谈谈数据治理的问题。主要内容包括:数据治理目的及内容结合公司特点聚焦治理范围中台侧实践的建设内容及思路治理项目的目标管理产品及运营落地经验01数据治理目的及内容1. 贝壳找房介绍贝壳的主要C端产品是贝壳找房app,围绕居住领域,提供二手、新房、租赁、装修等品质服务。2. 数据治理目的数据治理的终极原创 2022-11-09 15:06:46 · 238 阅读 · 0 评论 -
详解数据治理的元数据、主数据
数据资产管理是对存量数据进行系统化梳理,与数据标准匹配,推动数据资源转化为数据资产的过程,即指规划、控制和提供数据及信息的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交互和提高数据资产的价值。元数据不仅仅表示数据的类型、名称、值等信息,它可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。主数据在设计的时候,就需要考虑未来做扩展的可能性。原创 2022-11-09 15:05:45 · 306 阅读 · 0 评论