自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

科技很有意思

是观点,还是故事?关注科技、互联网圈各种技术热点、八卦。

  • 博客(671)
  • 收藏
  • 关注

原创 淘宝闪购基于阿里云 EMR Serverless Spark&Paimon 的湖仓实践:超大规模下的特征生产&多维分析双提效

本文介绍阿里云 Serverless Spark + Paimon在淘宝闪购大数据湖仓场景的应用。

2026-02-03 18:28:00 591

原创 阿里云携手模思智能构建一站式多模态数据处理平台

阿里云与模思智能达成深度合作,基于阿里云 MaxCompute 构建云原生一站式多模态数据处理平台,同时通过 MaxCompute 自研分布式 AI 计算引擎 MaxFrame 实现对多模态数据高效开发、处理,为大模型研发、创新提供了坚实的数据基座。

2026-02-02 17:34:41 631

原创 万字实战沉淀,阿里云Hologres首发《Serverless OLAP 技术白皮书》

阿里云Hologres团队作为国内Serverless OLAP的先行者,以五年躬身探索为基石,撰写万字实战沉淀,首发《Down to Zero, Serverless OLAP 技术白皮书》

2026-01-27 16:16:44 873

原创 为什么 ES 的搜索结果只到 10,000?强制“数清楚”的代价有多大

Elasticsearch 7.x 版本默认限制查询结果总数为10,000,这是基于Block-Max WAND算法的性能优化。精确计数会强制解压所有匹配的文档块,导致CPU和I/O资源消耗剧增,查询延迟显著上升。在大多数场景下,模糊计数已足够满足需求,特别是高频查询和C端应用中。只有在必要场景(如后台管理)才应开启精确计数,同时建议利用Serverless环境的治理能力设置计数上限。替代方案如Cardinality聚合可提供近似计数,大幅降低性能损耗。开发者应根据实际需求权衡精确性与性能,避免不必要的资源

2026-01-26 18:11:10 716

原创 寻找 AI 全能王——阿里云 Data+AI 工程师全球大奖赛正式开启

2026年1月11日起,阿里云联合 NVIDIA 正式发起“寻找AI全能王”——Data+AI工程师全球大奖赛,面向全球高校学子与企业开发者,开启一场覆盖“数据处理”与“智能体构建”的全链路AI工程实战。

2026-01-21 16:52:13 441

原创 Hologres Dynamic Table 在淘天价格力的业务实践

淘天价格力团队利用Hologres Dynamic Table处理亿级商品价格数据。通过分钟级增量刷新机制,实现数据圈选秒级响应和报表时延从小时级降至分钟级,显著提升大促场景下的运营效率与决策时效性。

2026-01-20 16:54:52 1034

原创 EMR AI 助手再升级:支持 Serverless StarRocks

2026年01月09日起,EMR AI助手新增支持 Serverless StarRocks 产品。

2026-01-16 15:12:09 379

原创 Agentic Search: AI驱动的下一代企业搜索

Agentic Search 是一种以自主智能体(Agent)为核心驱动,以信息检索与整合为坚实基础的革命性架构。它将搜索、推理、规划和工具调用四种能力深度融合,构建了一个完整的“理解-规划-执行-反馈”闭环。

2026-01-15 17:05:52 829

原创 漫画说:为什么你的“增量计算”越跑越慢?——90%的实时数仓团队都踩过的坑,藏在这几格漫画里

Hologres Dynamic Table 用有限的存储换确定性的性能,让实时更新回归本质。

2026-01-13 16:49:26 188

原创 一套底座支撑多场景:高德地图基于 Paimon + StarRocks 轨迹服务实践

本文整理自高德数据开发工程师、赵宇在 Streaming Lakehouse Meetup上的分享。聚焦高德地图轨迹服务在实时湖仓方向的落地实践。

2026-01-09 15:27:17 796

原创 AI时代最大的宝藏,也藏得最深:80%的企业知识沉睡在非结构化数据中

Hologres 构建了新一代 AI 原生数据引擎——HSAP 2.0 (Hybrid Search/Analytics Processing),即分析和搜索的混合处理架构。

2026-01-08 15:13:33 700

原创 面向Interleaved Thinking的大模型Agent蒸馏实践

阿里云 PAI 团队结合交错思维的推理机制,构建了涵盖多轮交互的训练数据集,训练更符合交错思维特性的轻量级 Agent 模型,有效提升性能与响应效率。

2026-01-08 14:57:19 607

原创 迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

在迁移到 EMR Serverless Spark 之后,TCO 明显下降,平台按作业生命周期弹性拉起与回收,只为实际消耗付费;同时,托管化带来了稳定性与调度效率提升;更关键的是交付确定性提升,大作业整体可提速约 1 小时,报表链路从长尾波动变成更可控的出数节奏。

2026-01-07 15:39:55 1043

原创 一站式构建 AI 数据处理 Pipeline:DataWorks Notebook + MaxCompute MaxFrame 快速入门指南

无需自建集群:全托管服务,分钟级开通开发体验友好:Jupyter Notebook 风格,支持 Magic Command 快速连接计算资源安全合规:天然集成 RAM 权限体系、VPC 网络隔离、敏感信息加密成本可控:按量付费 + 包年包月,适合测试与生产混合场景。

2026-01-04 18:11:56 811

原创 StarRocks + Paimon: 构建 Lakehouse Native 数据引擎

阿里云计算平台事业部开发工程师张庆玉聚焦 StarRocks 与 Apache Paimon 的深度集成实践,探讨如何构建真正意义上的 Lakehouse Native 数据引擎。

2026-01-04 16:17:05 877

原创 真实案例复盘:从“三套烟囱”到 All in ES,这家企业如何砍掉 40%运维成本?

使用阿里云 Elasticsearch 企业版,体验“All in ES”带来的极简与高效。

2025-12-30 17:15:06 714

原创 阿里云 PAI 团队获邀在 ChinaSys 2025 分享动态数据调度方案 Skrull

阿里云大数据 AI 团队将深度参与ChinaSys 2025。PAI 团队将在 ChinaSys 2025 带来演讲,与参会者分享大模型长上下文微调中的高效动态数据调度方案 Skrull。

2025-12-26 17:32:50 565

原创 Apache Paimon 多模态数据湖实践:从结构化到非结构化的技术演进

Paimon 作为新一代流式数据湖存储引擎,正通过一系列底层创新,构建面向 AI 原生时代的统一数据基础设施。

2025-12-25 15:13:46 739

原创 【NeurIPS2025】阿里云PAI团队动态数据调度方案Skrull 入选

阿里云 PAI 团队与中国科学院大学前沿交叉科学学院等单位合作的研究成果——轻量级动态数据调度方案 Skrull,论文被 NeurIPS2025 会议接收。

2025-12-24 16:42:43 1073

原创 1TB数据,ES却收到了2TB?揪出那个客户端中的“隐形复读机”

阿里云 ES Serverless,用端到端监控,让流量黑洞无处遁形!

2025-12-24 16:16:03 1002

原创 DataWorks 又又又升级了,这次我们通过 Arrow 列存格式让数据同步速度提升10倍!

DataWorks数据集成引入Apache Arrow列存同步能力,列式、零拷贝、内存级传输为同步性能带来显著提升。DataWorks数据集成正以技术创新为引擎,帮助企业打破数据孤岛、消除性能瓶颈,让数据在湖仓之间、系统之间、业务之间高速、稳定、低成本流动。

2025-12-23 17:22:54 745

原创 Hologres Dynamic Table:高效增量刷新,构建实时统一数仓的核心利器

阿里云 Hologres 作为高性能实时数仓引擎,原生提供了 Dynamic Table,并基于有状态增量计算模型,在多表关联、聚合等复杂场景下展现出显著性能优势。

2025-12-22 17:56:29 735

原创 OmniThoughtV:面向多模态深度思考的高质量数据蒸馏

基于阿里云人工智能平台(PAI)的蒸馏工具包 EasyDistill,我们提出了一套面向多模态深度推理的蒸馏数据构建框架,并发布了首个支持大规模多模态思维链蒸馏的高质量数据集 OmniThoughtV。

2025-12-19 17:39:44 810

原创 打破 IK 分词“架构陷阱”——阿里云 ES Serverless 索引级词典的完美热更新实践

本文将通过一个真实事故的复盘,解析开源 IK 分词器架构设计中的不足,并介绍阿里云 ES Serverless 如何通过“索引级词典”能力,彻底解决热更新引发的搜索错配问题。

2025-12-18 18:40:13 922

原创 在 DataWorks 中一键部署大模型,即刻用于数据集成和数据开发

阿里云 DataWorks 发布大模型服务能力,基于 Serverless 资源组,支持用户 一键部署主流大模型,并可在 数据集成和数据开发任务中直接调用模型 API,实现“部署—集成—使用”全流程闭环,真正让数据工程师也能轻松玩转大模型!

2025-12-17 18:28:19 793

原创 活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台

2025年12月20日,上海 · 阿里巴巴徐汇滨江园区,Apache Spark Meetup 助力企业构建高效数据平台,欢迎报名!

2025-12-12 15:42:04 440

原创 Forrester发布流式数据平台报告:Ververica首次跻身领导者行列,实时AI能力获权威认可

近日,全球权威研究机构Forrester正式发布《The Forrester Wave™: Streaming Data Platforms, Q4 2025》报告(后简称“报告”),Ververica首次进入领导者象限,成为该年度报告中最受关注的"新晋领导者"。

2025-12-11 17:19:08 496

原创 Fusion 引擎赋能:七猫如何使用阿里云 EMR Serverless Spark 实现数仓加速

七猫基于阿里云 EMR Serverless Spark 利用 Fusion引擎赋能实现数仓加速

2025-12-10 18:16:59 833

原创 一行代码,让Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略

直接让你的集群拥有“防弹护甲”,自动抵御那些足以击穿性能的高危查询。与自建相比,阿里云 ES Serverless 的架构更健壮、更安全,也更省心。

2025-12-05 16:43:28 1085

原创 MaxCompute SQL AI:让 SQL 成为你的 AI 语言

MaxCompute SQL AI 全新上线,一句SQL就能用上大模型,零门槛让数据分析师秒变AI高手。

2025-12-04 15:04:38 725

原创 【新模型速递】PAI-Model Gallery云上一键部署DeepSeek-V3.2模型

阿里云 PAI-Model Gallery 已第一时间接入 DeepSeek-V3.2、DeepSeek-V3.2-Speciale 模型,提供企业级部署方案。

2025-12-03 18:20:49 795

原创 PAI Physical AI Notebook详解(5):基于Isaac-Cortex的软件在环验证

在本期,我们隆重介绍DSW全新的noVNC功能,并结合Isaac Sim的协作机器人系统Cortex,搭建软件在环验证系统(Software-In-Loop System)。

2025-12-02 18:00:29 798

原创 EMR AI 助手开启公测:用 AI 重塑大数据运维,更简单、更智能

阿里云正式推出 EMR AI助手(EMR Agent) ——一款专为大数据场景打造的智能运维助手,标志着EMR运维正式迈入“AI驱动”的新纪元。

2025-12-01 16:35:24 591

原创 朝阳永续基于阿里云 Milvus 构建金融智能投研产品“AI 小二”

通过采用 阿里云向量检索服务 Milvus 版,朝阳永续成功构建了高性能、高可靠的金融语义检索引擎,有效解决了海量非结构化数据下的检索效率、精度与稳定性难题,为“AI 小二”提供了强大的底层支撑,显著提升了智能投研服务的用户体验与商业价值。

2025-11-28 15:54:49 869

原创 PAI Physical AI Notebook 详解4:基于仿真的 GR00T-N1.5 模型微调

在本期,我们将针对更复杂的VLA模型(以GR00T-N1.5为例)进行微调,同样需要经过人工演示、数据扩增、模仿学习、在环验证这几个步骤。

2025-11-25 16:55:30 964 1

原创 基于 Hologres 构建多模态AI数据分析与检索系统

Hologres4.0以“AI时代的一站式多模态分析平台”为核心理念,全面展示了Hologres在结构化、半结构化与非结构化数据分析能力上的重大突破,发布全新向量索引HGraph,登顶 VectorDBBench 性价比榜单QPS、Recall、Latency、Load 四项第一,为AI应用的提供高性价比、高吞吐、低延迟、高并发的向量服务,成为全球最具性价比的向量数据库!

2025-11-24 17:55:31 767

原创 阿里云 Elasticsearch 的 AI 革新:高性能、低成本、智能化的搜索新纪元

阿里云 Elasticsearch 在过去几个月里完成了一系列重要更新,从性能、成本、效果到业务实践,展现了全新的产品进化。

2025-11-21 17:15:07 1013

原创 【跨国数仓迁移最佳实践12】阿里云MaxCompute实现BigQuery 10万条SQL智能转写迁移

本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第十二篇,基于 阿里云MaxCompute 实现BigQuery 10万条SQL智能转写迁移。

2025-11-20 17:32:03 678

原创 EMR Serverless Stella 1.0 技术分享:StarRocks企业级版本内核重大突破

在今年云栖大会上,EMR Serverless Stella 1.0正式发布,这是一款面向企业级场景深度优化的高性能数据分析引擎。阿里云开源大数据平台OLAP引擎负责人周康系统性地分享了 Stella 在存算分离架构、Lakehouse 场景以及全文检索等三大核心场景下的深度优化经验,为业界提供了大规模 OLAP 系统工程化实践的宝贵参考

2025-11-19 18:01:25 1046

原创 PAI Physical AI Notebook 详解3:基于仿真的导航模型训练

针对具身智能场景,除了Manipution,Navigation(导航)也是一类非常重要的控制模型,本期我们就来详细解读基于仿真环境的导航模型训练的全过程。

2025-11-19 15:26:06 839

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除