云的数据分析和人工智能的开源
文章平均质量分 90
本专栏旨在介绍和探讨云的数据分析和人工智能领域的开源工具和技术。云技术的普及和发展为数据分析和人工智能提供了强大的计算和存储能力,并且开源工具的出现使得更多的人能够参与到这个领域的研究和应用中来。
在这个专栏中,我们将详细介绍云平台上最流行的开源数据分析和人工智能工具,如Hadoop、Spark、
像素旅人
我是一名高中生,目前就读于普通高中。我热爱计算机科学领域,对编程和算法有着浓厚的兴趣。在我的课余时间里,我会积极地参加各种编程比赛和活动,以提升自己的技能和素质。
展开
-
中心化决议管理 —— 云端分析
CocoaPods 云端分析能力是字节跳动的终端技术团队 (Client Infrastructure) 下 Developer Tools 部门提供的一系列云化基础设施之一, Developer Tools 团队致力于建设下一代移动端云化基础设施,团队通过云 IDE 技术、分布式构建、编译链接等技术,优化公司各业务的研发和交付过程中的质量、成本、安全、效率和体验。原创 2023-08-29 15:09:13 · 125 阅读 · 0 评论 -
一条提示词等同于多少个数据点?
通过这项工作,我们研究了一种新的、基于自然语言提示的微调方法,其目的是通过单词预测显式地利用预训练模型的语言建模能力,而不是通过基于模型中间表征的线性分类器隐式地利用它。为了公平比较,我们把问题建模为用反向传播来微调基于提示的分类器语言模型,我们发现提示法通常优于使用标准微调线性分类头的方法。我们用数据点来估计这种优势,以衡量人类通过提示提供的附加信息,并发现编写提示始终抵得上数百个数据点。此外,即使没有言语器带来的信息量(即使用空言语器),这种优势仍然存在,并且这种方法对于提示的选择相当鲁棒。原创 2023-08-29 15:01:39 · 23 阅读 · 0 评论 -
使用if管理请求路径
在Web开发中,我们经常需要处理各种各样的请求路径。有时候,我们需要根据请求的路径来执行不同的操作。这时候,我们就可以使用if语句来管理这些请求路径。本文将详细介绍如何使用if语句来管理请求路径,并通过一个简单的案例来说明如何获取铁粉。原创 2023-08-26 20:48:20 · 39 阅读 · 0 评论 -
应用开发者的疑问:大模型是真正的银弹吗?
传统行业,比如福特汽车,每卖出一辆汽车,就必须付出一辆车的生产成本,甚至要扩建厂房等等,这最终使得福特汽车的规模扩张不再划算,不得不市场份额让给其他厂商。而假如应用全面接入了大模型,每次调用都是大模型产生的,目前 Open AI 的是按 token 收费的,最便宜的 GPT-3.5 Turbo 模型的价格是 0.0015 美元每 1000 token 输入,0.002 美元每 1000 token 输出,这算成人民币我们就简单估计成每 1000 token 输入输出 2 分钱,也就是 0.02 元。原创 2023-08-22 21:19:11 · 40 阅读 · 0 评论 -
一次网络不通 “争吵” 引发的思考
通过 conntrack 表可以到,这是由于在 cn-hongkong.10.0.5.168 节点上,相关的链路被 dnat,最后是由 pod cn-hongkong.10.0.2.77 节点上的 nginx-79fc6bc6d-8vctc 10.0.2.78 返回源,源在接受这个链路后,会发现和自己的五元组不匹配,直接丢弃,三次握手必然失败,所以建连失败。通过 conntrack 表可以到,在没有 ep 的节点访问 SLB 的 IP,可以看到期望的是后端 pod 返回给 SLB IP。原创 2023-08-16 21:41:13 · 222 阅读 · 0 评论 -
验证码识别全流程实战
本文将介绍验证码的历史与发展、验证码破解的历史与发展,验证码破解全流程实战。原创 2023-08-07 23:13:26 · 949 阅读 · 0 评论 -
一站式运维管家 ChengYing 主机接入原理解析
在部署完 ChengYing 之后,从集群进去,进入,进行集群编辑之后,开始主机接入流程。具体的接入过程请看下图及文末的视频讲解,主要注意脚本的解析、下载和读取。原创 2023-07-12 15:19:28 · 40 阅读 · 0 评论 -
基于袋鼠云实时开发平台开发 FlinkSQL 任务的实践探索
每种开发模式没有绝对的好坏之分,需要根据不同企业的实时计算场景和阶段,采⽤不同的开发模式,才能真正达到降本增效的目的。・当企业刚接触实时计算,数据开发⼈员对 FlinkSQL 熟悉度较低时,DEMO 模式是最好的选择;・当企业已经上⼿实时计算,但是任务量还不⼤时,脚本模式或者向导模式是不错的选择;・当企业实时计算达到⼀定规模,需要进⾏类似离线数仓的管理⽅式时,Catalog 模式是最优的选择。原创 2023-07-09 20:56:38 · 68 阅读 · 0 评论 -
一份保姆级的 Stable Diffusion 部署教程,开启你的炼丹之路
安装完 Stable Diffusion 及上面的推荐插件,你的 Stable Diffuion 已经具备强大的生产力。后续我会继续同大家一起探索和分享更多的使用经验。原创 2023-07-09 20:54:43 · 2342 阅读 · 1 评论 -
云时代已至,新一代数据分析平台是如何实现的?
当执行更新(update)或删除(delete)操作时,PieCloudDB 会生成一个新的 block,将未发生变化的 tuple 放入新的 block 中,并将更新后的用户数据放入新的 block 中(例如,在 block 4 上执行更新操作后,生成一个新的 block 5,将更新后的用户数据放入新的 block 5 中)。这样的设计确保了扩缩容操作的高效性。计算引擎方面,需要具有关系型数仓的众多优势,能够具备支持完备的 SQL 语言,具有高效的分布式计算能力,且能够具有完备的事务 ACID 特性。原创 2023-07-02 18:08:03 · 71 阅读 · 1 评论 -
带你彻底掌握 Bean 的生命周期
目录1. 理解 Bean 的生命周期1.1 生命周期的各个阶段2. 理解 init-method 和 destroy-method2.1 从 XML 配置创建 Bean 看生命周期2.2 从配置类注解配置创建 Bean 看生命周期2.3 初始化和销毁方法的特性2.4 探究 Bean 的初始化流程顺序3. @PostConstruct 和 @PreDestroy3.1 示例:@PostConstruct 和 @PreDestroy 的使用3.2 初始化和销毁 —— 注解和 init-method 共存对比4.原创 2023-06-27 16:58:42 · 195 阅读 · 1 评论 -
详解深度学习中推荐系统的经典模型
另一方面,传统的输入层是用 Embedding 的方式(如 Word2Vec 的词向量)或者主题模型的方式(如 LDA 的主题向量)来直接做词的映射,再把各个词的向量累加或者拼接起来,由于 Word2Vec 和 LDA 都是无监督的训练,这样会给整个模型引入误差,DSSM 采用统一的有监督训练,不需要在中间过程做无监督模型的映射,因此精准度会比较高。在输入特征部分,由于原始特征向量多是高纬度,高度稀疏,连续和类别混合的分域特征,因此将原始的稀疏表示特征映射为稠密的特征向量。这也是 FM 的优势所在。原创 2023-06-27 16:52:35 · 437 阅读 · 1 评论 -
Falcon 登陆 Hugging Face 生态
Falcon 是最新的、令人兴奋的、可商用的大语言模型。在本文中,我们展示了 Falcon 模型的功能、如何在你自己的环境中运行 Falcon 模型以及在 Hugging Face 生态中如何轻松地用自有数据微调它们。我们期待看到社区如何使用 Falcon 模型!原创 2023-06-25 21:01:37 · 357 阅读 · 0 评论 -
Alluxio Operator 一体化部署方案
当我们创建了一个 Presto 资源后,自定义的 controller 仍然要监控资源的状态,如果资源的状态被更新了(比如 Presto 的镜像被更新了),那么它也需要根据更新之后的状态和当前状态进行对比,之后 controller 要去做的事情就是自动更新它所创建的相关资源,而我们则无须关心要更新哪些内置的 deployment 和 service。比如如果镜像的版本发生了变更,此时理所当然地 Operator 也能帮我们同时去修改那些相关的资源,这样一来,我们也不需要维护里面这些资源之间的关系了。原创 2023-06-25 20:35:21 · 42 阅读 · 0 评论