- 博客(95)
- 资源 (2)
- 收藏
- 关注
原创 归国6年创业干出一个AI芯片独角兽,媒体专访中昊芯英(杭州)创始人
但当用户获取量越来越多,开始深入行业解决方案的时候,这就会变成是我们的强项了,核心在于我们是真正的做软硬件一体化的公司,我们能够提供行业大模型的基础模型服务、基础模型的开源、基础模型预训练,当我们把模型的整个软件栈框架搭好后,那么行业客户就可以基于自身行业数据,在我们的这个框架上调用接口,就可以完成模型的二次训练。另外,软件栈也不是一成不变的。**杨龚轶凡:**我们希望实现软硬件的一体化协同,通过训练基础模型,并将其开源,同时配套完善相应的软件框架,如此一来,我们为客户提供了完整的解决方案。
2025-02-28 09:19:35
544
原创 deepseek+ollama+maxkb部署自己的本地知识库详解【纯玩-详解】
deepseek+ollama+maxkb部署自己的本地知识库详解
2025-02-19 12:52:56
886
1
原创 段永平浙大分享会-2025.1
8、谈分享:我能做到今天,很多就是对人的支持,我的分享的精神,我觉得很多人用人的时候都是要。9、谈黄峥:我非常喜欢和黄铮交流,因为我觉得他是一个看本质的人,和我一样,我觉得这是比较重。是真的有想法,真的有必要,还有就是走投无路的时候,有时候也是创业的一个好办法,因为我们当。错了你赶紧改,这一辈子你累积三十几年,四十几年,每一个决定都是基于十年,二十年以后回过头。11、谈信息差:信息差对炒股没有太大影响,除非是有那种希望买了马上卖,赚不该赚的钱的人。其实你并不需要去追求它,你到了该去的时候,你自然就去了。
2025-02-16 18:54:19
20
原创 海光部署deepseek参考【待测试】
转自:https://www.sourcefind.cn/#/model-zoo/1885958664579317762,如有侵权请联系删除模型结构该模型基于Transformer,采用Multi-Head Latent Attention和DeepSeekMoE架构,其中MLA通过减少KV缓存降低内存占用可用于高效推理,DeepSeekMoE通过auxiliary loss平衡专家负载。算法原理。
2025-02-07 16:04:59
861
原创 深度解析 DeepSeek 的蒸馏技术
计算资源优化:蒸馏模型的参数量大幅减少,例如DeepSeek-R1-Distill-Qwen-7B的参数量仅为7B,相比原始的DeepSeek-R1(671B参数),计算复杂度显著降低。例如,在多模态数据处理任务中,学生模型在面对复杂的图像与文本融合任务时,其推理能力往往受限于教师模型的固有模式,难以实现更深层次的创新。例如,通过监督微调(SFT)的方式,将教师模型的推理数据样本用于学生模型的训练。在机器学习中,模型蒸馏是一种优化技术,通过模仿教师模型的输出,训练一个较小的学生模型,从而实现知识的传递。
2025-02-07 12:01:35
187
原创 大数据下的中国公司注册情况
推荐云+AI头部大厂工作机会和指导面试(阿里、字节、华为、微软、大疆等);陪伴年轻人终身成长。我是海持,AI顶尖大厂攻城狮+创业者,为梦想窒息的老少年,追求自由、健身、智慧。大数据下的中国公司注册情况,排名前五的分别是:广东、江苏、山东、浙江、河南。个人所得税APP,航天、网X、军号技术架构师。
2025-02-07 09:40:22
233
原创 当下90%的人都不知道的DeepSeek可以帮你赚钱的路径
另外,我还问了AI此轮风口的周期,它的回答是:当前AI技术红利期窗口预计持续12-18个月,建议选择1-2个细分领域快速切入,在6个月内完成商业模式验证。想象空间无限,2025年大概率是AI应用大爆发的元年,小程序、App、网站、插件再更强的模型基座的基础上,都更加具备想象空间。这个工种,大家可能相对陌生。简单解释一下,这个工作就是教AI看图识物的过程,通过给原始数据打标签,让AI模型理解数据的含义。这波AI会平权到大家的父母、小孩,培训机会有多大,大抵是2024年的10倍以上,都是钱。
2025-02-06 12:49:33
2356
原创 中国信通院发布《高质量大模型基础设施研究报告 2024年》
通过加速卡和存储设备的数据一跳直达,可以消除CPU处理瓶颈,极大提升数据从存储到加速卡的数据传输效率,经企业实践验证,可实现TB/s级带宽和亿级IOPS,每个机架单元的存储性能可达50GB/s以上,大幅提升集群可用度。为充分发挥大模型基础设施的赋能作用,更好支撑大模型发展,推动大模型应用落地,特编制此研究报告。报告聚焦大模型基础设施的五大核心能力领域:计算、存储、网络、开发工具链和运维管理,系统梳理了大模型发展对基础设施提出的新需求,剖析了基础设施发展的关键技术,并提出体系化评价指标。陪伴年轻人终身成长。
2025-02-06 10:45:10
40
原创 海光完成问答基础模型DeepSeek-V3、推理模型DeepSeek-R1和文生图模型DeepSeek-Janus-Pro的适配
同时,公司2024年度研发投入也大幅增加,预计实现研发投入与上年同期相比,将增加42022.44万元到85022.44万元,同比增长14.96%到30.26%。据介绍,用户现可通过“光合开发者社区”中的“光源”板块访问并下载相关模型,或直接登录[www.sourcefind.cn]搜索“deepseek”,即可基于DCU平台快速部署和使用相关模型,包括高性能的问答基础模型DeepSeek-V3、推理模型DeepSeek-R1和文生图模型DeepSeek-Janus-Pro。陪伴年轻人终身成长。
2025-02-06 10:15:35
462
原创 OpenAI向所有用户开放ChatGPT搜索,无需账号登录
OpenAI 表示,所有 ChatGPT Plus 和团队用户以及 SearchGPT 候选用户即日起就可以访问该功能。企业和 Edu 用户将在未来几周内获得访问权限。免费版将会在数月后推出。ChatGPT 会根据用户的问题选择网络搜索,用户也可以点击网络搜索图标手动选择搜索。搜索功能将在chatgpt.com(在新窗口中打开)以及桌面和移动应用程序上提供。据OpenAI 官方消息,向所有用户开放ChatGPT搜索功能,无需注册。
2025-02-06 10:01:42
414
原创 PDF转图片及拼接- ImageMagick
我是海持,AI顶尖大厂攻城狮+创业者,为梦想窒息的老少年,追求自由、健身、智慧。个人所得税APP,航天、网X、军号技术架构师。所用工具:ImageMagick。适用环境:Macbook。
2025-02-05 14:41:58
442
原创 ollama 安装deepseek r1
转发自:https://zhuanlan.zhihu.com/p/20924220892DeepSeek-R1 是由深度求索(DeepSeek)公司开发的高性能 AI 推理模型,专注于数学、代码和自然语言推理任务。DeepSeek-R1 在多个中表现优异,性能对标 OpenAI 的 o1 正式版,同时具有更高的性价比。image.png。
2025-02-05 12:27:44
920
转载 爆火的DeepSeek-V3强在哪?
DeepSeek-V3在关键的地方会用更精确的大数字(FP32)来确保质量,比如:矩阵乘法,这就像在做精细活儿时,在关键步骤用上好工具,其他时候用差点的也没事。总之,DeepSeek-V3的架构,像一个高效的团队,每个成员都有特定的任务,而且团队能够预测并准备接下来的工作,这样的设计才能让模型在处理信息时既快速又准确。**这些专家模型就像专业的老师,负责教模型如何在特定领域做得更好。最后,团队会用“拒绝采样”的方法挑选最好的示例,用于最终模型的训练,这确保了用于模型学习的数据既准确又容易理解。
2025-02-04 16:28:22
59
原创 2024年招投标市场,大模型应用最多的6个场景和6大中标厂商
2024年,国内公开披露的大模型相关中标项目约为1520个,其中413个项目未披露金额,其余1107个中标项目披露的金额达到64.67亿元。与2023年相比,中标项目数量增长了15.5倍,披露中标金额增长了7.2倍。科大讯飞在中标项目数量和金额上均位居第一,百度、智谱、火山引擎和阿里云等企业紧随其后。大模型落地速度加快,知识问答&平台、智能分析&决策、数字人&客服、智能运维、智能编程、内容生成成为应用最多的6个场景。此外,“智能体”或“Agent”相关项目在通信、教科、金融等行业有探索性应用。
2025-02-04 15:51:05
195
原创 python3抓取杭州房价信息
因为马上要去杭州,杭州房价去年涨的太厉害了,现在政策比较多看不清杭州房价的形式,所以想写个爬虫将杭州房产的交易信息做个记录。准备阶段自己的服务器用的CentOS,上面装了python3,因为要连接数据库,需要安装psycopg2,于是python3 -m pip install psycopg2设计好数据库----------------------------
2018-01-05 13:59:35
2067
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人