【2024W29】肖恩技术周刊（第 7 期）：Fight！

最新推荐文章于 2024-08-22 21:58:02 发布

ShawnxXie

最新推荐文章于 2024-08-22 21:58:02 发布

阅读量1.1k

点赞数 19

分类专栏：肖恩技术周刊文章标签：后端业界资讯 AIGC github 信息可视化

本文链接：https://blog.csdn.net/xiexiao064/article/details/140604394

版权

肖恩技术周刊专栏收录该内容

9 篇文章 0 订阅

订阅专栏

周刊内容: 对一周内阅读的资讯或技术内容精品（个人向）进行总结，分类大致包含“业界资讯”、“技术博客”、“开源项目”和“工具分享”等。为减少阅读负担提高记忆留存率，每类下内容数一般不超过3条。
更新时间: 星期天
历史收录: shawn-weekly
备注: 内容收集&摘要生成基于developer-hotspots-summary，之后经人工校验和调整后发布。

开篇图

Fight! Fight! Fight!

业界资讯

“微软蓝屏”登顶微博热搜：全球多地 Windows 系统崩溃，杀毒软件 CrowdStrike 要背锅？

2024年7月19日，“微软蓝屏”成为微博热搜榜首。全球多地Windows用户遭遇系统崩溃，错误提示涉及“csagent.sys”。初步分析认为，杀毒软件CrowdStrike平台出现问题，导致新西兰、澳大利亚、日本、印度等地区用户受到影响。解决方案是进入安全模式，重命名C:\windows\system32\drivers\crowdstrike文件夹后重启。同日，微软报告Microsoft 365服务中断，影响全球企业和用户。Downdetector数据显示，日本用户报告OneDrive问题最多。

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

文章讨论了主流大型AI模型在处理一个看似简单的问题——“9.11和9.9哪个大"时出现了集体错误。尽管问题简单，但包括GPT-4o、谷歌Gemini Advanced付费版、Claude 3.5 Sonnet在内的多个大模型都错误地认为9.11比9.9大。这一现象引起了人们的关注和讨论。

文章提到，Riley Goodside，一位专业的提示词工程师，在使用GPT-4o时发现了这个问题，并尝试询问其他大模型，结果发现大多数模型都给出了相同的错误答案。一些网友通过改变提问的顺序或方式，成功引导AI给出了正确答案，这表明AI对词序和提问方式的敏感性。

国产大模型在这个问题上的表现也参差不齐。一些模型如Kimi和ChatGLM给出了错误结论，而腾讯元宝和字节豆包则能够正确处理这个问题。文章分析了大模型出错的原因，指出可能是因为大模型以token的方式来理解文字，导致它们在处理数字时出现了误解。

此外，文章还提到了OpenAI的秘密模型"草莓”，据说在MATH数据集上取得了超过90%的得分，但是否能正确处理上述问题还有待验证。

总的来说，这篇文章揭示了即使是先进的大型AI模型，在处理某些问题时也可能因为理解方式的差异而出现错误，这引发了人们对AI模型准确性和可靠性的思考。

技术博客

图解Kafka：架构设计、消息可靠、数据持久、高性能背后的底层原理

本文深入剖析了Apache Kafka的内部机制，从宏观架构到消息流转的细节，揭示了Kafka如何通过精心设计的系统组件和策略，实现消息的异步处理和流量管理。文章探讨了Kafka的ack策略、数据持久化技术，以及提升系统性能的关键设计，包括批量处理、压缩、PageCache和零拷贝等技术。同时，还涵盖了负载均衡和集群管理，提供了一个全面视角，理解Kafka如何满足大规模分布式系统中对消息队列的严苛要求。

Kafka由Producer、Broker、Consumer和ZooKeeper组成。Producer负责消息的创建和发送；Broker负责消息的持久化和中转；Consumer从Broker拉取并消费消息；ZooKeeper负责集群元数据管理。Kafka通过主题（Topic）、分区（Partition）、分段（Segment）和位移（Offset）等概念，优化了消息处理的并行性和可靠性。

Kafka的高可靠性体现在确保消息在传递过程中不丢失，通过ack策略、消息发送策略和Broker的异步刷盘机制，结合Replica副本机制，解决了单机故障和多副本间数据同步一致性问题。此外，Kafka的高性能探究显示，其核心在于保障系统低延迟、高吞吐地处理消息，采用异步发送、批量发送、压缩技术、PageCache机制、零拷贝、稀疏索引、Broker和数据分区以及多Reactor多线程网络模型等设计。

最后，文章还讨论了负载均衡和集群管理，Kafka通过ZooKeeper进行集群管理，实现如partition选主、broker集群管理、consumer负载均衡等功能。

一文搞懂大模型！基础知识、 LLM 应用、 RAG 、 Agent 与未来发展

全面介绍了大型语言模型（LLM）的基础知识、应用场景、未来发展方向以及与自然语言处理（NLP）的关系。文章通过对话形式，详细解释了LLM的定义、特点、发展历史，并探讨了如何通过数据训练、持续学习等手段保证回答的准确性。同时，讨论了LLM在问答系统、文本处理、工作流等方面的应用，并介绍了RAG（检索增强生成）技术和LangChain框架在构建本地知识库中的作用。最后，文章展望了LLM的未来发展，包括多模态能力的发展和向通用人工智能（AGI）的迈进，同时指出了伴随技术进步而来的挑战和风险。

一文讲清多线程和多线程同步

本文全面介绍了多线程编程的核心技术和同步机制。多线程允许程序利用多核处理器的优势，通过并行执行任务提高性能。然而，它也引入了复杂性，尤其是在线程间共享数据时，需要同步以避免竞态条件和数据不一致。

线程是程序执行的独立流，每个线程拥有自己的执行栈和状态，但可以共享进程内的内存空间。多线程的优势在于能够提高资源利用率和执行效率，但这也要求开发者理解线程、核心、进程和协程之间的关系。

同步是多线程编程中的关键概念，它通过串行化对共享资源的访问，防止多个线程同时修改同一数据，从而避免数据竞争。文章详细介绍了多种同步机制，包括原子操作保证不可分割的操作序列，锁机制确保资源的互斥访问，条件变量允许线程在某些条件不满足时挂起等待，以及Lock-free编程，它通过非阻塞算法实现线程同步，避免了锁的开销。

文章还探讨了伪共享问题，这是由于多个线程访问同一缓存行导致的性能下降。通过增加内存填充，可以避免变量分布在同一个缓存行上，减少缓存一致性协议的开销。

最后，文章通过代码示例和模式，展示了如何在实际开发中应用这些知识，以及如何避免常见的陷阱和问题。通过这些实践，开发者可以更有效地利用多线程编程，构建高性能和高稳定性的软件系统。

开源项目

TabbyML / tabby

Tabby是一个开源的自托管AI编码助手，提供给开发者一个不依赖于数据库管理系统或云服务的GitHub Copilot替代方案。它支持消费者级GPU，并通过OpenAPI接口易于与现有基础设施集成。最新版本引入了Answer Engine，一个为内部工程团队设计的中央知识引擎，以及VSCode 1.7中的全新聊天体验。

opendatalab / MinerU

MinerU是一个开源的一站式数据提取工具，支持从PDF、网页和电子书中提取数据并转换为Markdown格式。它基于PDF-Extract-Kit，具备多种前端模型输入支持、去除页眉页脚、保留文档结构和格式、提取图像和表格、转换公式为LaTeX格式等功能。支持CPU和GPU加速，并兼容Windows、Linux和macOS平台。

学习资源

krahets / hello-algo

《Hello 算法》是一本开源免费、面向初学者的动画图解数据结构与算法教程。它采用清晰易懂的动画和图解，帮助读者平滑学习曲线，深入理解算法和数据结构。

其他值得看

从四大趋势看芯片产业的发展

本文探讨了芯片产业的四大发展趋势。首先，全球多个国家通过《芯片法案》（CHIPS Acts）投资芯片产业，以减少对中国的依赖，推动本土芯片制造能力的提升。美国、日本、欧洲和印度都推出了相应的资金支持计划。

其次，边缘运算（Edge computing）在AI领域的应用越来越受到关注，它允许AI模型在本地设备上运行，保护用户隐私并减少对云服务的依赖。美国国防部正在资助相关研究，预计2025年将有新的边缘计算芯片面世。

第三，大型科技公司如亚马逊、谷歌和微软正在进入芯片制造领域，以减少对外部供应商的依赖，提高利润率。这些企业推出了自己的AI芯片，可能对英伟达的市场地位构成挑战。最后，初创企业也积极投身于芯片创新，尽管面临英伟达等巨头的竞争，但它们通过采用新型计算技术，如量子计算、光子学和可逆计算，寻求在特定细分市场中取得突破。

整体来看，芯片产业正经历着政府支持、技术创新和市场竞争的多重影响，预示着未来将有更多的创新和变革。

科技爱好者周刊（第 309 期）

本期周刊聚焦了无人驾驶出租车在中国的快速发展，特别是武汉地区“萝卜快跑”公司的无人驾驶出租车服务。武汉因政策支持成为首个实现全市范围内7X24小时无人驾驶出租车运营的城市。尽管无人驾驶技术带来产业升级和国家竞争力提升，但也引发了对司机失业的担忧。文章提出几点建议，如优先发展货运无人驾驶、郊区和农村的应用等，以及政府应对措施。

周刊还涵盖了其他科技动态，例如苹果手表的新式外壳、广州建成的双头风力发电机、AI语音复制技术帮助丧失说话能力的人，以及关于拍手姿势的声学研究。此外，还介绍了一些技术工具和AI相关资源，包括在线英文词典、视频转配工具、WordPress插件等。

AIGC Weekly #80

Anthropic公司推出了分享功能和后台功能更新，允许用户分享和重写artifacts。LLM的分布式训练取得进展，Prime Intellect发布了OpenDiLoCo框架，实现全球AI模型训练。Odysseyml致力于基于3D技术的视频生成工具。其他动态包括ComfyUI和Ollama的更新，OpenAI定义了5个AGI级别，以及多个AI相关公司的融资和产品发布信息。

产品推荐方面，Audioscribe将语音转为结构化笔记，Klipy是AI CRM平台，Writer是聊天机器人应用程序，LlamaCloud提供数据处理层，Doti是AI健康追踪器。精选文章讨论了GraphRAG架构、LLMs中的幻觉问题、ML/AI工程师招聘技巧，以及人工智能在不同领域的应用前景。

重点研究包括AuraFlow图像生成模型、FlashAttention-3加速Transformer、Paints-Undo绘画过程图生成、Meta在移动设备上运行LLM的方法、UltraPixel超大分辨率图片生成、controlnet-union开源实现，以及UltraEdit细粒度图像编辑技术。封面提示词展示了AI生成图像的风格和提示词。最后，提供了AI资讯站点和联系方式，鼓励读者分享和投稿相关内容。

ShawnxXie

关注

19
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
【2024W29】肖恩技术周刊（第 7 期）：Fight！

本期聚焦微软蓝屏事件，分析了因杀毒软件CrowdStrike问题导致的全球Windows系统崩溃，以及微软365服务中断问题。同时，探讨了大型AI模型在简单数字比较问题上的错误，揭示了AI模型在理解方式上的局限性。技术博客部分深入分析了Apache Kafka的架构设计和性能优化技术，以及大型语言模型（LLM）的基础知识和未来发展方向。开源项目介绍了TabbyML/tabby和opendatalab/MinerU，分别作为AI编码助手和数据提取工具。学习资源推荐了《Hello 算法》...
复制链接

扫一扫