- 博客(511)
- 资源 (13)
- 收藏
- 关注
原创 腾讯2025校园招聘全球启动(内附鹅厂校招内推群)
点击https://join.qq.com/poster.html?iDeptId=0&bole=CuRmEfTQoH9dlSTW5rSak7PclqV6aD4nxcshky96BDk&RecruitType=0&adtag=wx获取专属校招内推码。腾讯,一家引领全球科技潮流的巨头,一直致力于为全球用户带来更便捷、更智能、更有趣的互联网体验。现在,我们诚挚地邀请你加入我们,一起探索科技的无限可能,创造属于我们的未来。,提交你的简历和作品集,加入我们的人才储备库。我们期待你的加入,一起见证腾讯的辉煌未来!
2024-08-17 12:56:17
1004
原创 Ubuntu 24.04 抢先体验换国内源 清华源 阿里源 中科大源 163源
代号,即将与我们见面!Canonical 已经宣布,作为 LTS 版本,它会有 5 年的常规维护和安全更新。如果订阅Ubuntu Pro,还能享受额外 57年的支持。也就是说,Ubuntu Pro将享有长达 12 年的系统更新保障!!!接下来,我们将重点介绍中那些值得关注的新特性,以方便你决定是否进行升级。1.将引入最新的GNOME 46作为默认桌面环境。GNOME设置得到进一步的优化,带来更加整洁的布局和新增的实用功能在中,可以使用简单的命令快速安装一系列基于Snap发布的办公软件(基于。
2024-03-07 11:49:59
74400
17
原创 Ubuntu 22.04换国内源 清华源 阿里源 中科大源 163源
Ubuntu 22.04 的稳定版计划于 2022 年 4 月 21 日发布。开发工作已经在紧锣密鼓地进行,它将遵循如下发布时间表:2022 年 2 月 24 日:功能冻结2022 年 3 月 17 日:用户界面冻结2022 年 3 月 31 日:测试版发布2022 年 4 月 14 日:候选版本2022 年 4 月 21 日:最终稳定版本Ubuntu 22.04 仍在积极开发中。您不应该在生产机器或主系统上使用它。如果你想在备用机器或虚拟机上测试它,你可以从 Ubuntu 的网站下载每日
2022-02-10 11:14:04
176189
14
原创 Windows下安装PyTorch1.0
PyTorch简介在2017年1月18日,facebook下的Torch7团队宣布PyTorch开源后就引来了剧烈的反响。PyTorch 是 Torch 在 Python 上的衍生版本。Torch 是一个使用 Lua 语言的神经网络库, Torch 很好用, 但是 Lua 流行度不够, 所以facebook开发团队将 Lua 的 Torch 移植到了更流行的语言 Python 上,推出了PyTo...
2019-01-11 14:45:12
31475
24
原创 Windows下安装PyTorch0.4.0
本文系转载,出处:https://blog.csdn.net/sunqiande88/article/details/80085569。PyTorch简介在2017年1月18日,facebook下的Torch7团队宣布PyTorch开源后就引来了剧烈的反响。PyTorch 是 Torch 在 Python 上的衍生版本。Torch 是一个使用 Lua 语言的神经网络库, Torch 很...
2018-04-27 09:21:52
52423
27
转载 Win10 Python3.6下安装PyTorch
更新提醒:本文已过期,PyTorch0.4.0已经有官方的Windows支持,Windows下安装最新的PyTorch0.4.0请移步本人另一篇博客:Windows下安装PyTorch0.4.0。2017年1月18日,周董生日这一天,facebook下的torch7团队宣布Pytorch开源,官网地址:pytorch。pytorch是一个python优先的深度学习框架,是一个和tensorfl...
2017-06-20 16:27:15
125981
14
原创 服务运行带宽测试脚本
简单说:BERT 做分类,输出就是一个"类别标签";Qwen 做生成,输出是一段文字。推理服务的带宽消耗,主要看每秒生成的 Token 数和每个 Token 的数据量,而不是模型参数量。对比维度 传统 Transformer(如 BERT 类) Qwen 0.5B / 1.5B。典型任务 分类、向量化(输出几个数字) 文本生成(输出成百上千个 Token)每次请求输出 极少(几十字节) 较多(几百到几千字节)输出速度 极快(<5ms) 较慢(受限于推理速度)A 的上行 = B 的下行(数据传输方向)
2026-04-16 11:26:09
34
原创 解决Docker容器无法识别宿主机cuda驱动-报错Error 804
Error 804的根本原因是容器内 CUDA 兼容库与宿主机驱动的冲突。确保宿主机正确安装了删除容器内目录通过构建新镜像或修改启动脚本实现永久修复这个问题在混合使用不同版本 CUDA 镜像和驱动时较为常见,掌握这个排查思路可以快速解决类似问题。
2026-04-04 19:15:26
258
原创 C++26新特性速览By KIMI
契约编程(Design by Contract)允许开发者为函数定义前置条件(Preconditions)和后置条件(Postconditions),在运行期或编译期验证契约是否被遵守。:前置条件,函数执行前检查:后置条件,函数返回时检查:捕获返回值进行验证(Sender/Receiver模型)是C++26引入的标准异步编程框架,提供声明式的异步任务组合能力。它解决了C++20协程缺乏统一调度框架的问题,被视为C++对Go Goroutine和Rust async/await的回应。
2026-03-31 17:16:31
426
原创 Ubuntu 26.04 换国内源 清华源 阿里源 中科大源 华为源
Ubuntu 26.04 LTS Beta 无疑是近年来最具安全意识和前瞻性的 LTS 版本之一。从 Linux 7.0 内核、GNOME 50 的 Wayland 独占,到 Rust 重写的系统核心工具、TPM 全盘加密增强,每一项更新都指向一个更安全、更现代的 Linux 桌面体验。如果你是开发者或 Linux 爱好者,现在就可以下载 Beta 版本进行尝鲜体验;如果你是生产环境用户,建议等待 4 月 23 日的正式版发布,或更稳妥地等到 8 月的 26.04.1 版本再进行升级。参考资料。
2026-03-30 20:26:32
788
1
原创 Python将Parquet文件转换为JSONL格式文件
如果你的文件达到了 GB 级别,或者你在内存受限的环境(如 Docker 容器、云函数)中运行,请务必使用 pyarrow 的分块读取方案,它能将内存占用控制在极低的水平(仅占用当前 Batch 的内存)。:如果你的 Parquet 文件在几百 MB 以内,或者你的机器内存足够大,直接使用 pandas 代码最少,且底层经过高度优化,执行速度非常快。使用 pyarrow:支持分块(Batch)流式读取,内存占用极低,非常适合处理超大型 Parquet 文件。
2026-03-26 14:44:08
54
1
原创 讲透Transformer(六):FlashAttention 1→4 进化史:从在线Softmax到硬件极致利用
FlashAttention系列算法通过IO感知设计大幅优化Transformer注意力计算。标准Attention因存储$O(N^2)$中间矩阵而受限,当序列长度$N=128K$时需12.8GB显存。FlashAttention利用GPU内存层次结构(寄存器→共享内存→HBM),通过减少HBM访问次数提升性能。其数学基础包括Safe Softmax(3-pass)和优化的Online Softmax(2-pass)。FlashAttention V1进一步实现1-pass注意力计算,采用分块算法将Q/K/
2026-02-24 11:06:26
660
原创 讲透Transformer(五):Self-Attention与KV Cache的深度解析——从原理到实现
本文深入解析了Transformer模型中Self-Attention的计算过程与KV Cache优化技术。Self-Attention通过Q、K、V矩阵计算注意力分数,复杂度为O(n²d)。在自回归生成过程中,传统方法会重复计算已生成token的K、V矩阵,造成大量冗余。KV Cache通过缓存历史K、V矩阵,将计算复杂度从O(n²d)降至O(nd),实现数量级加速。当生成长度为t时,理论加速比可达t+1倍(如1024倍加速)。这种"空间换时间"的优化是Transformer推理加速的
2026-02-22 21:07:26
768
原创 Ubuntu 26.04 LTS“坚毅浣熊”(Resolute Raccoon) 新特性前瞻
│ Ubuntu 26.04 核心亮点 ││ ││ 1️⃣ 发布时间与支持 ││ • 2026年4月23日正式发布 ││ • 12年综合支持(5年标准 + 7年Ubuntu Pro扩展) ││ ││ 2️⃣ 桌面环境革新 ││ • GNOME 50,X11 正式退役,全面 Wayland ││ • NVIDIA Wayland 性能大幅优化 ││ • Showtime 和 Resources 取代 Totem 和 System Monitor ││ ││ 3️⃣ 系统现代化 │。
2026-02-22 11:12:52
2474
原创 讲透Transformer(四):Transformer 超长上下文注意力机制的新范式:稀疏注意力与线性注意力
本文探讨了Transformer模型在处理超长上下文(1M+ token)时面临的计算和内存瓶颈问题,介绍了两种主流解决方案:稀疏注意力和线性注意力。DeepSeek提出的动态稀疏注意力(DSA)通过两步筛选机制显著提升了效率;Kimi的Delta注意力(KDA)创新性地结合线性注意力和全注意力,在性能和速度上实现突破;面壁智能的SALA则首次将两种注意力机制融合,展现了卓越的长度外推能力。这些创新方法在降低显存占用、提升推理速度的同时,保持了模型的性能表现,为大语言模型处理超长上下文提供了新范式。
2026-02-22 10:56:13
713
原创 讲透Transformer(一):Tokenizer详解——从文本到数字的桥梁
Tokenizer(分词器)是将原始文本转换为模型可以处理的数字表示的工具。它是 NLP 流程中的第一步,负责将人类语言转化为机器能理解的"语言"。Tokenizer原始文本→Token IDs\text{Tokenizer}: \text{原始文本} \rightarrow \text{Token IDs}Tokenizer原始文本→Token IDs直观理解│ Tokenizer 的工作流程 ││ ││ 原始文本: "I love AI" ││ ↓ │。
2026-02-21 10:31:17
686
原创 讲透Transformer(二):深入解析Embedding
Embedding(嵌入)是将离散的符号(如单词、物品、用户)映射到连续向量空间的技术。让语义相似的实体在向量空间中也彼此接近。Embedding离散符号→Rd\text{Embedding}: \text{离散符号} \rightarrow \mathbb{R}^dEmbedding离散符号→Rd其中ddd是嵌入维度(通常 128、256、512、768、1024 等)。直观理解│ Embedding 的本质 ││ ││ 现实世界 → 数学世界 │。
2026-02-21 10:21:31
694
原创 讲透Transformer(三):Transformer 注意力机制详解与Qwen/DeepSeek近期改进
│ 注意力改进三大方向 ││ ││ 1️⃣ 效率优化 ││ • Flash Attention (减少内存访问) ││ • GQA/MQA (减少 KV-Cache) ││ • MLA (压缩存储) ││ ││ 2️⃣ 长上下文支持 ││ • RoPE (更好的位置外推) ││ • 滑动窗口/稀疏注意力 ││ • 动态缩放 (YaRN 等) ││ ││ 3️⃣ 效果提升 ││ • 更多注意力头 ││ • 分层注意力策略 ││ • MoE + Gate 开关 ││ │。
2026-02-20 20:40:59
1279
原创 CUDA编程模型与硬件执行层级对应关系
实际使用 cuBLAS 时,1000×1000 这种规模往往会受到 kernel launch、调度、数据读写等开销影响,真实耗时通常会比上述微秒级下界更高一些(常见到几十微秒量级,取决于是否批处理、数据是否已在 GPU、是否使用合适的 GEMM 接口等)。:以上是"理论下界"。所以 grid size 不直接"对应某个 SM",它只是提供足够多的 block 让所有 SM 忙起来(提高占用与吞吐)。所以这是"可以在显存内做"的规模,比较接近纯算力上限。、以及是否允许 TF32,我可以把估算再贴近实际。
2026-02-19 21:08:11
784
原创 基于paddleocr的多线程多进程GPU版本推理
OCR比较页数的地方在于需要跑多个模型,不是单模型场景,目前大多数优秀的OCR功能并没有实现多线程/多进程版本的推理工程。截止2024年10月,全网目前唯一实现此需求的仅有paddleocr(之前有个需求,就是需要快速跑完约200W张图片的ocr结果,精度要求不敏感,因为希望使用ocr完成包含乱码文档的过滤,但是项目交付紧迫,对处理速度要求比较高。Release版本(当前最新1.0.7)安装。可以放大,单卡V100最多可以放到7-8;
2024-10-23 10:35:22
2831
2
原创 清空当前机器所有Docker容器和镜像
删除当前机器上的所有Docker镜像是一个高风险操作,因为它会删除所有镜像,包括那些可能正在被容器使用的镜像。在执行此操作之前,请确保你已经备份了重要的数据,并且了解此操作的影响。
2024-09-22 22:41:01
908
原创 apose python注册码使用方式
您可以使用pip install aspose-cells安装Python via Java的Aspose.Cells的评估版本。评估版本提供的功能与产品许可版本完全一致。此外,评估版本在购买许可证并添加几行代码以应用许可证后,会变为许可版本。一旦您满意Aspose.Cells的评估,您可以在Aspose网站上购买许可证。请熟悉提供的不同订阅类型。如果您有任何疑问,请随时联系Aspose销售团队。每个Aspose许可证都包含一年的免费升级订阅,可以在此期间免费升级到任何新版本或修复版本。
2024-09-12 17:04:53
1609
原创 python dict转json字符串后写入csv后去除多余的引号
dict转为标准json格式化字符串json_str,再把这个json字符串使用csv库写入csv文件 会有多余的双引号。
2024-09-04 10:35:43
622
1
原创 腾讯2025校招不需要笔试了!速来投递!付内推
以本次主要校招岗位之一的产品经理举例,很多同学会认为必须要有程序、技术等专业背景才能投递。这次腾讯特意做出说明,产品经理不限专业、不限专业、不限专业!本次校招技术、产品、设计、市场、职能五大核心部门全开,覆盖内地和海外共29个城市。是全年开放岗位最多、应届生进入腾讯机会最大的黄金投递期。本次腾讯校招最重要的变化就是取消统一笔试(在线测试未取消),仅保留部分岗位的个性化笔试。内地:深圳、北京、广州、上海、香港等17个城市,共169个岗位。海外:洛杉矶、奥克兰、新加坡、伦敦等12个城市,共80个岗位。
2024-08-23 16:16:42
1806
原创 python读取parquet文件并打印内容
文件前五行的所有列信息,并尽可能详细地展示每一列的数据类型和内容,可以使用 pandas 库。如果要打印某个字符内容,则使用如下代码。然后,使用以下代码读取并打印。首先,确保你已经安装了。
2024-08-22 20:17:59
1586
原创 rsync迅速清空某个文件夹下所有内容
然后,使用rsync的–delete-before选项来同步空目录到目标目录。这将会删除目标目录中的所有文件。请注意,这个命令会删除目标目录中的所有文件和子目录,所以在运行这个命令之前,请确保你有备份或者你确定要删除这些文件。如果你想使用rsync来快速删除某个目录下的所有文件,你可以通过同步一个空目录到目标目录来实现。首先,创建一个空目录。是你想要删除所有文件的目标目录。是你刚刚创建的空目录。
2024-08-22 17:36:47
973
原创 cuda从入门到精通(六)共享内存和循环分块实现CUDA矩阵乘
然后,我们可以使用另一个线程块来将这些子矩阵的结果相加,得到最终的矩阵乘法结果。例如,我们可以使用更复杂的内存访问模式来减少内存访问的冲突,或者使用更高效的算法来计算子矩阵的结果。在矩阵乘法中,我们可以将大的矩阵分解为一系列小的子矩阵,并分别对每个子矩阵进行乘法运算。在每个循环迭代中,我们首先将子矩阵A和B的数据加载到共享内存中,然后计算子矩阵的结果,并将结果写回全局内存。的子矩阵乘法,其中t是分块的大小。然后,我们可以使用多个线程块并行计算这些子矩阵的结果,最后将结果相加得到最终的矩阵乘法结果。
2024-03-19 13:19:02
3035
原创 cuda从入门到精通(五)CUDA实现AI模型中的softmax
NVIDIA提供了许多CUDA库,如cuBLAS和cuDNN,这些库为许多常见的线性代数运算提供了高效的实现。例如,在上述示例中,我们在GPU上分配了额外的内存来存储输入和输出的副本。为了避免这种情况,我们可以从每个输入值中减去最大值,这样可以确保所有的输入值都在可接受的范围内。:了解你正在使用的硬件的特性,并根据这些特性进行优化。例如,不同的GPU可能有不同的内存带宽和计算能力,这可能会影响你的代码的性能。这些只是优化CUDA代码的一些基本建议,具体的优化策略可能会根据你的应用和硬件的特性而有所不同。
2024-03-19 13:08:39
1994
原创 C++递归和非递归实现判断一个数是否为质数
在C++中,判断一个数是否为质数,可以编写一个函数来实现。这个函数首先检查输入的数是否小于等于1,如果是,则直接返回false。然后检查数是否为2,如果是,则返回。这个函数首先检查输入的数是否小于等于2,如果是,则直接返回。的所有奇数,如果num能被这些数中的任何一个整除,则返回。接着检查i的平方是否大于输入的数,如果是,则返回。函数来判断这个数是否为质数,并输出相应的结果。函数来判断这个数是否为质数,并输出相应的结果。然后检查数是否能被i整除,如果是,则返回。接着检查数是否为偶数,如果是,则返回。
2024-03-19 11:22:38
622
原创 leetcode 240. 搜索二维矩阵 II
由于每一列的元素都是升序排列的,那么在当前的搜索矩阵中,所有位于第 y 列的元素都是严格大于 target 的,因此我们可以将它们全部忽略,即将 y 减少 1;,由于每一行的元素都是升序排列的,那么在当前的搜索矩阵中,所有位于第 x 行的元素都是严格小于 target 的,因此我们可以将它们全部忽略,即将 x 增加 1。编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target :如果搜索到返回true,否则返回false。每列的元素从上到下升序排列。
2024-03-07 19:19:03
478
1
原创 求每个cluster中box的个数
有一堆box,若干个box有交集就是一个簇,求每个cluster中box的个数。注意:可以自定义box的结构体, 无需考虑旋转角度。请用C+实现上述代码。
2024-03-07 11:12:28
297
原创 leetcode.15三数之和
然后,我们遍历数组,对于每个元素,我们使用两个指针分别指向当前元素的下一个元素和数组的末尾,然后向中间移动两个指针,直到两个指针相遇。在移动指针的过程中,我们需要判断三个指针指向的元素之和是否等于0,如果等于0,我们将这三个元素加入结果集中;然后,我们遍历数组,对于每个元素,我们使用两个指针分别指向当前元素的下一个元素和数组的末尾,然后向中间移动两个指针,直到两个指针相遇。同样地,在移动指针的过程中,我们也需要判断当前指针指向的元素是否与前一个元素相同,如果相同,我们也需要跳过当前元素,以避免重复计算。
2024-03-05 20:10:29
542
原创 leetcode 经典题目42.接雨水
如果当前元素的高度小于栈顶元素的高度,我们将当前元素的索引入栈;如果当前元素的高度大于或等于栈顶元素的高度,我们将栈顶元素出栈,并计算出栈元素对应的雨水量。首先,我们需要遍历数组,对于每个元素,我们将其高度与栈顶元素的高度进行比较。如果当前元素的高度小于栈顶元素的高度,我们将当前元素的索引入栈;如果当前元素的高度大于或等于栈顶元素的高度,我们将栈顶元素出栈,并计算出栈元素对应的雨水量。需要注意的是,在计算雨水量时,我们需要考虑当前元素与栈顶元素之间的距离,以及当前元素和栈顶元素之间的最小高度。
2024-03-05 20:00:50
763
原创 leetcode 11.盛最多水的容器
首先,我们需要两个指针,分别指向数组的左右两端。然后,我们比较两个指针指向的值,将较小的值对应的指针向中间移动,同时计算当前两个指针之间的面积。最后,我们比较所有计算出的面积,返回最大的面积即可。来确定当前两个指针之间的最大高度,这是因为如果两个指针之间的最大高度小于当前指针的高度,那么即使将指针向中间移动,也无法增加面积。的值,将较小的值对应的指针向中间移动,同时计算当前两个指针之间的面积,并更新最大面积。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。,分别指向数组的左右两端。
2024-03-05 19:54:43
490
原创 leetcode128. 最长连续序列
找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。请你设计并实现时间复杂度为。给定一个未排序的整数数组。解释:最长数字连续序列是。
2024-03-04 22:00:17
414
原创 迭代法实现二叉树前序/中序/后序遍历
二叉树前序/中序/后序遍历是最简单的题目之一,类似于二分/快排/链表反转,是在求职期间必熟必会的算法!在这里记录下三种遍历的迭代实现,动画版解释戳。
2024-03-03 19:22:53
447
原创 秒杀leetcode子数组问题的模板“前缀和+哈希表”
umap 的初始值为。以上代码实现了一个函数 subarraySum,用于计算一个整数数组 nums 中所有和为 k 的子数组的数量。中的每个元素 n,将其加到 sum 上,然后计算当前子数组和减去 k 的结果 cur。答: 假设当前前缀和为sum,我们的目标是求解一个连续的和为k的子数组,假设子数组标号从i到j,即求。给你一个整数数组 nums 和一个整数 k ,请你统计并返回 该数组中和为 k 的子数组的个数。中存在,则表示存在一个前缀和为 cur 的子数组,其和为 k,因此将。
2024-03-03 14:07:36
1005
SSH.NET最新dll集合(2017年8月)
2017-09-07
C# SSH.NET库Renci.SshNet.dll最新集合(8个)
2017-07-15
SSH.NET-1.0.zip
2019-05-17
C#SSH.NET开发官方chm帮助文档
2017-07-15
orb_vocab.zip
2019-05-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅