- 博客(535)
- 资源 (9)
- 收藏
- 关注

原创 从零搭建机器学习平台Kubeflow
来自官网的一段介绍: Kubeflow 项目致力于使机器学习 (ML) 工作流在 Kubernetes 上的部署变得简单、可移植和可扩展。Kubeflow的目标不是重新创建其他服务,而是提供一种直接的方法,将用于 ML 的同类最佳开源系统部署到不同的基础设施中。在任何运行 Kubernetes 的地方,开发者都应该能够运行 Kubeflow。从官网这段介绍可以看出,Kubeflow与Kubernetes是形影不离的。
2022-12-25 03:59:33
5896
5

原创 Python人工智能之图片识别,Python3一行代码实现图片文字识别
自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定#作者微信:2501902696from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_...
2017-09-20 14:15:00
22924

原创 Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)
斗图我不怕最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是利用Python多线程爬取斗图(多页),并将图片保存到本地。自己写这篇文章总结下这个项目的所涉及的知识,并将实现过程分享给大家。首先:分析网站,找到图片的src地址打开网址:https://www.doutula.com/a
2017-05-06 17:05:54
6794
20

原创 Python爬虫系列(一)初期学习爬虫的拾遗与总结
最近,为了提取裁判文书网的有关信息,自己迈入Python的学习之路,写了快两周的代码,自己写这篇文章总结下踩过的坑,还有遇到一些好的资料和博客等总结下,以便自己后期复习和参考和、分享给大家交流学习,也欢迎大家补充些精彩内容。一、环境搭建和工具准备1、为了省去时间投入学习,推荐直接安装集成环境 Anaconda2、IDE:Pycharm、Pydev3、工具:Jup
2017-04-16 20:22:01
2575
原创 记录一次“top负1”比赛经历
自己在复现方案里面如实提到了,也不是故意使用的,后来和他们沟通,重新跑一次没有使用去年数据的模型提交也不行,就是直接取消成绩!你在键盘巧了几百字,几十行微信消息,可能被别人搪塞一句“我和主办方沟通了,确实不行”,其实是不是她下班回家,懒的管你?“各位评委老师,我是来自WOT团队的选手AMBT,口号是将中文语义病句识别与纠正提升到新高度”某日下午,“叮叮叮”,“叮叮叮”,“叮叮叮”,扭头一看桌面上手机响了,接了电话。后来扯皮了很久,后来苦苦婆心解释了一达通,就是直接取消成绩,对,就是这么残忍。
2023-08-26 00:40:32
821
6
原创 讯飞星火认知大模型升级体验
分享续写:支持用户以页面链接的形式分享自己的对话内容,分享出去的对话内容其他 用户可以通过点击续写,自动带入自己的对话中,继续对话。助手结构化指令: 通过角色设定、目标任务、需求说明、风格设定等字段,帮助用户快 速定制自己的专属助手,并提高助手的大模型应用效果。音频生成:根据用户要求,生成符合要求的合成音频,并自动匹配发音人。虚拟人视频生成:根据用户要求,生成符合要求的虚拟人视频。图像生成:根据用户的描述,生成符合要求的图像。
2023-08-14 00:01:03
135
原创 【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”
或者有继续微调比较合适的方案也可以,不损失之前模型的效果(或者损失比较小),目前可以尝试Lora或者Qlora的方式微调底座模型,然后将训练好的Lora权重合并到原始模型,这样可以减轻多次微调对模型的影响。之前推理的时候,发现不加训练的时候prompt,直接输入模型性能会变差的,这个倒是可以理解。(3)另外通过实验发现,如果模型微调的时候使用模板,那么推理的时候应该也使用模板,否则效果会影响,直观上就是生成效果不理想,生成比较短,甚至“驴唇不对马嘴”;那高质量如何定义呢?和alpaca模板差不多。
2023-07-31 22:31:39
1569
原创 【LLM系列之踩坑记】你训练的大模型生成长度真的变短了吗
这个时候我们还是得分析底座的能力。其次,我们也可以构造一些搜索+生成的指令数据,这个需要注意的是答案怎么得到,可能检索文档基于本地检索系统或者搜索引擎去召回就可以,答案尽量是高质量的gpt4生成的,因为到时候我们是学习第一名的效果,那么我们近逼第一名的能力的,这个毋庸置疑。然后发现的问题是检索模型召回出的知识对大模型的生成效果是有影响的,那么直观就是自己训练的大模型生成的答案太短了。(2)训练大模型的时候尽量去拟合比较好的数据,这个好的数据可以是高昂成本人工标注的数据,也可以是chatgpt生成的数据。
2023-07-22 23:06:04
171
原创 大模型评测平台OpenCompass
OpenCompass 是面向大模型评测的一站式平台。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能灵活化拓展:想增加新模型或数据集?
2023-07-21 13:26:06
442
原创 【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍!
🧮 7B、13B & 70B 参数版本🧠 70B模型采用分组查询注意力(GQA)🛠 聊天模型可以使用工具和插件🚀 LLaMA 2-CHAT 与 OpenAI ChatGPT 效果一样好🤗 发布在HuggingFace:https://huggingface.co/meta-llama公告: https://ai.meta.com/llama/
2023-07-19 03:27:14
3353
原创 CH福利发放:免费算力抽奖
小编前几天和揽睿星舟官方小伙伴在社区认识,为了推广平台,官方免费给出CH社区小伙伴社区送算力了,作为福利送给粉丝,无套路含泪送给大家( ̄▽ ̄)~,回馈粉丝长期关注于支持,请关注公众号ChallengeHub即可获取抽奖方式。揽睿星舟平台链接:下面给出平台使用教程。
2023-06-01 23:30:13
92
原创 【LLM系列之Tokenizer】如何科学地训练一个LLM分词器
在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize具体目标与粒度是什么呢?tokenize也有许多类别及优缺点,这篇文章总结一下各个方法及实际案例。tokenize的目标是把输入的文本流,切分成一个个子串,每个子串相对有完整的语义,便于学习embedding表达和后续模型的使用。tokenize有三种粒度:word/subword/char。
2023-05-19 23:46:00
1157
1
原创 【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比
使用 ALiBi 位置嵌入,它根据键和查询的距离直接衰减注意力分数。与原始的 Transformer 和 Rotary 嵌入相比,它可以带来更流畅的训练和更好的下游性能。ALiBi不会在词嵌入中添加位置嵌入;相反,它会使用与其距离成比例的惩罚来偏向查询键的注意力评分。Embedding Layer Norm 在第一个嵌入层之后立即使用,以避免训练不稳定。使用了 25 万个标记的词汇表。使用字节级 BPE。这样,标记化永远不会产生未知标记。
2023-05-18 23:45:12
1720
原创 【LLM系列之GPT】GPT(Generative Pre-trained Transformer)生成式预训练模型
GPT(Generative Pre-trained Transformer)是由OpenAI公司开发的一系列自然语言处理模型,采用多层Transformer结构来预测下一个单词的概率分布,通过在大型文本语料库中学习到的语言模式来生成自然语言文本。
2023-05-18 23:27:32
1312
原创 【LLM系列之BLOOM】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
预训练语言模型已经成为了现代自然语言处理pipeline中的基石,因为其在少量的标注数据上产生更好的结果。随着ELMo、ULMFiT、GPT和BERT的开发,使用预训练模型在下游任务上微调的范式被广泛使用。随后发现预训练语言模型在没有任何额外训练的情况下任务能执行有用的任务,进一步证明了其实用性。此外,根据经验观察,语言模型的性能随着模型的增大而增加(有时是可预测的,有时是突然的),这也导致了模型规模越来越多的趋势。抛开环境的问题,训练大语言模型(LLM)的代价仅有资源丰富的组织可以负担的起。
2023-05-16 23:27:55
426
原创 【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models
LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源一系列语言模型,可以与SOTA模型竞争LLaMA-13B比GPT-3的性能更好,但是模型大小却是十分之一。
2023-05-15 14:40:24
628
原创 【LLM系列之GLM】GLM: General Language Model Pretraining with Autoregressive Blank Infilling
目前,已经有各种类型的预训练架构,包括自编码模型(例如BERT),自回归模型(例如GPT)和编码器-解码器模型(例如T5)。然而,没有一个预训练框架对三个主要类别的所有任务(自然语言理解(NLU),无条件生成和有条件生成)都表现最佳。提出了一种基于自回归空白填充的通用语言模型(GLM)来应对上述三种任务。GLM通过添加2D位置编码并允许任意顺序预测跨度来改进空白填充预训练,从而在NLU任务上比BERT和T5获得了性能提升。通过变化空白数量和长度,可以针对不同类型的任务对GLM进行预训练。
2023-05-14 23:46:32
553
原创 【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways
PaLM 540B 在 1-shot 设置的 29 个任务中的 24 个和在 few-shot 设置的 29 个任务中的 28 个任务上优于之前的 SOTA。总体来说,该程序包含用于 pod 内前向+反向计算(包括 pod 内梯度减少)的组件 A,用于跨 pod 梯度传输的传输子图,以及用于优化器更新的组件 B(包括本地和远程梯度的求和) ).(2)提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B 中一样,使用的是标准“序列化”公式。
2023-05-14 01:24:35
680
原创 LlamaIndex :面向QA 系统的全新文档摘要索引
在LlamaIndex中提出了一个新索引,它将为每个文档提取/索引非结构化文本摘要。该索引可以帮助提高检索性能,超越现有的检索方法。它有助于索引比单个文本块更多的信息,并且比关键字标签具有更多的语义。它还允许更灵活的检索形式:我们可以同时进行 LLM 检索和基于嵌入的检索。
2023-05-10 23:45:41
716
原创 【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models
研究已经证明,在一组表述为指令的数据集上微调语言模型可以提高模型性能和对未知任务的泛化能力。(1)缩放任务数量;(2)缩放模型大小;(3)链式思维数据微调;论文发现,在上述方面进行指令微调可以显着提高各种模型(PaLM、T5、U-PaLM)、提示设置(零样本、少样本、CoT)和评估基准(MMLU、BBH、 TyDiQA、MGSM、开放式生成、RealToxicityPrompts)。
2023-05-08 23:11:08
632
原创 BigCode开放性能超越Copilot的代码生成模型Starcoder
StarCoder模型的优点之一,是可以处理比其他大型语言模型更多的输入,可以接受高达8,000个Token,而这将能支援更多样的应用,像是经过一系列的对话指示,便可使StarCoder成为技术助理。由于StarCoder是一个多语言模型,因此开发团队也使用MultiPL-E基准测试进行比较,在多语言上,StarCoder表现比OpenAI code-cushman-001模型更好,并在资料科学DS-1000基准测试上,击败其他开放存取模型。
2023-05-05 23:27:14
1343
原创 Chinese-LangChain:基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成
Chinese-LangChain:中文langchain项目,基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成俗称:小必应,Q.Talk,强聊,QiangTalk。
2023-04-19 03:15:52
4215
原创 研究LLMs之前,不如先读读这五篇论文!
论文链接:https://gwern.net/doc/www/s3-us-west-2.amazonaws.com/d73fdc5ffa8627bce44dcda2fc012da638ffb158.pdf。论文链接:https://arxiv.org/pdf/1706.03762.pdf。论文链接:https://arxiv.org/pdf/1810.04805.pdf。论文链接:https://arxiv.org/pdf/1910.13461.pdf。前两年火爆的论文:transformer。
2023-04-17 23:43:57
544
1
原创 ControlNet 1.1重磅发布,14个模型全部开源!
来源:https://github.com/lllyasviel/ControlNet-v1-1-nightlyControlNet 1.1 与 ControlNet 1.0 具有完全相同的体系结构,ControlNet 1.1 包括所有以前的模型,具有改进的稳健性和结果质量,并添加了几个新模型。
2023-04-15 21:49:03
10272
原创 生成式AI的一小步,AGI的一大步:AIGC时代ChatGPT全盘调查
OpenAI 最近发布了 GPT-4(又名 ChatGPT plus),这被证明是生成式 AI (GAI) 的一小步,但是通用人工智能 (AGI)的巨大飞跃。此外,我们对 ChatGPT 如何发展以实现通用 AIGC(又名 AI 生成的内容)提出了展望,这将是一个重要的里程碑AGI的发展。其他关键词和短语:Survey、ChatGPT、GPT-4、Generative AI、AGI、Artificial General Intelligence、AIGC。CCS 概念: • 计算方法 → 计算机视觉任务;
2023-04-14 21:10:57
460
原创 DeepSpeed-Chat:最强ChatGPT训练框架,一键完成RLHF训练!
本着使 ChatGPT 式模型及其功能民主化的精神,DeepSpeed 自豪地推出了一个通用系统框架,用于为类 ChatGPT 模型提供端到端的培训体验,名为 DeepSpeed Chat。它可以自动采用你最喜欢的预训练大型语言模型,通过 OpenAI InstructGPT 风格的三个阶段来生成您自己的高质量 ChatGPT 风格模型。DeepSpeed Chat 使类似ChatGPT 风格的模型训练变得简单、快速、经济且可扩展。
2023-04-13 23:07:40
2456
4
原创 Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好
Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好。
2023-02-25 22:18:02
901
原创 【论文解读】如何使用1B参数的小模型吊打GPT3.5
COT全称为Chain-of-Thought,定义是在应对推理任务时,在给出最终答案之前所产生的中间推理步骤,载体是一系列的短句子。简单来说,思维链是一种离散式提示学习,更具体地,大模型下的上下文学习(即不进行训练,将例子添加到当前样本输入的前面,让模型一次输入这些文本进行输出完成任务),相比于之前传统的上下文学习,即通过x1,y1,x2,y2,…
2023-02-24 18:40:06
1901
原创 第三届腾讯Light技术公益创造营启动
腾讯Light·技术公益创造营通过持续探索技术与公益的结合,已经打造出了包括推进公众参与中华白海豚保育的公益计划、使用AI技术助力新生儿黄疸诊断的“高危儿拯救计划”等一批优秀项目全面升级的第三届腾讯Light·技术公益创造营在海南海口正式启动,围绕数字时代下“未成年人心理健康”、“老年人用网安全”、“生物多样性保护”三大议题,号召社会各界人士打造技术公益多元解决方案,以共同解决更多的社会公共议题,持续释放技术公益的内核价值。
2023-02-03 16:27:46
566
原创 STI比赛任务二:【答案检验基线方案以及思路分享】
完整代码:https://aistudio.baidu.com/aistudio/projectdetail/5194830子任务 2:答案检验任务概述子任务1涉及的答案抽取过程主要依赖答案片段与搜索query间语义相关性,却无法保证答案片段本身的正确性与可靠性。因此,在答案抽取之后需要设计答案验证方法,从抽取的多个答案片段中选择出大众认可度最高的高置信度答案进行最后的展示。给定一个搜索...
2022-12-05 18:22:47
182
原创 百度搜索首届技术创新挑战赛:搜索模型推理优化
模型推理优化任务采用相对开放的设定,可自行选用各种模型推理框架,挖掘GPU加速硬件特性,通过异构算子优化、模型量化压缩等各种优化手段,追求最优的模型推理性能(推荐深入应用NVIDIA TensorRT优化技术)。参赛队员请用飞桨AI Studio配置的NVIDIA A100完成参赛作品。给出已经训练好的模型文件,模型结构以ERNIE结构为主,提供PaddlePaddle和ONNX两种模型格式;同时给定一批搜索线上模型推理测试数据,包括用户的实际query、候选文档等,所有数据均已ID化。
2022-11-28 15:59:34
181
原创 文本分类微调技巧实战2.0
讯飞比赛答辩结束,笔者和小伙伴们参加了一些讯飞的比赛,今年讯飞文本分类比赛相比去年更加多元化,涉及领域、任务和数据呈现多样性,听完各位大佬的答辩之后,结合之前经验和以下赛题总结下文本分类比赛的实战思路。
2022-11-18 17:40:42
566
原创 STI比赛任务一:【智能问答baseline】
https://aistudio.baidu.com/aistudio/projectdetail/5043272?contributionType=1
2022-11-16 13:03:24
495
原创 Kaggle 专利匹配比赛赛后总结
比赛简介在专利匹配数据集中,选手需要判断两个短语的相似度,一个是anchor ,一个是target,然后输出两者在不同语义(context)的相似度,范围是0-1,我们队伍id为xlyhq,a榜rank 13,b榜ran12,非常感谢@heng zheng、@pythonlan,@leolu1998,@syzong四位队友的努力和付出,最后比较幸运的狗到金牌。和其他前排核心思路差不多,我们在...
2022-06-22 17:57:18
545
javascript——PDF教程大合集.rar
2016-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人