程序猿阿三-CSDN博客

原创 Claude 4 启示录-留给初级程序员的时间不多了

总之，从2022年大模型横空出世时，到今天Claude4发布，之前被程序员自持一技之长，编程能力，逐渐被大模型不断攻陷，未来，初级程序员越来越难，会倒逼程序员快速成长，不然会被快速被淘汰掉，可能就连模型写出来代码都看不懂，更不要说使用大模型生成的代码。在编程、工具使用、视觉推理、数学等领域的基准测试中，这两款模型超越了OpenAI o3，而在多语言问答、研究生级别推理任务上，Claude Opus 4与OpenAI o3得分持平。新模型通过管理待办事项列表保持记忆，不会丢失线索。

2025-06-06 17:10:35 8

原创应用篇| MCP为智能体插上翅膀

除了stdio连接模式外，MCP还提供了可以服务器、客户端异地运行的SSE传输模式，以适用于更加通用的开发情况，以及现在逐渐推出可流式传输的 HTTP”来替代现有的 HTTP+SSE 方案。此举旨在解决当前远程 MCP 传输方式的关键限制，同时保留其优势。MCP作为万能钥匙, 可以加速智能体的研发， MCP标准通信协议带来的最大价值之一，就是让广大Agent开发者能够基于此进行协作。已经诞生了数以千计的MCP服务器，允许用户直接下载并进行调用（见文末参考中的链接）。

2025-06-06 16:55:03 145

原创 python uv的了解与使用

用过python，知道python包管理一般都是使用默认的pip，最近在看一些智能体的开源项目，发现现在很多项目都使用uv进行包的管理，今天跟风学一下uv的概念和使用。

2025-05-09 08:40:06 699

原创微服务实践-招标k值分析系统

（3）企业K值分析：系统可以企业为维度，分析在指定时间范围内、指定工程类别下该企业的K值选取的历史记录，绘制K值分布图，形成特定企业K值选取画像，支撑自身投标K值选取决策。（2）工程K值分析：系统可以以工程为维度，分析同一工程不同投标单位的K值分布，形成分布图，从图中可以直观的看出不同投标单位的K值分布，支撑自身投标时的K值选取决策。工程信息新增、修改、名称、工程类别、所属地区、开标日期、控制价、基准价、暂列金、暂估价、加工材料、中标K值，招标k值等。公司信息新增、修改、名称、统一社会信用码。

2025-05-08 16:51:09 47

原创工程投标k值分析系统（需求和功能说明）

工程信息新增、修改、名称、工程类别、所属地区、开标日期、控制价、基准价、暂列金、暂估价、加工材料、中标K值，招标k值等。同一历史工程K值分布支持对自定义名次内的投标单位K值进行分析，并生成分布图，图中能突出显示K值集中的前20名所在区间。投标信息新增、修改工程名称、公司、基准价起始估、基准价结束值、投标报价、投标信用分。信用分信息新增、修改公司、类型、年份、季度、信用分。公司信息新增、修改、名称、统一社会信用码。新增、删除、修改企业/部门。用户新增、删除、修改。

2025-04-22 21:49:43 96

原创 App爬虫工具篇-mitmproxy

mitmproxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，它通过控制台的形式和ui界面的方式此外，mitmproxy 还有两个关联组件，一个是 mitmdump，它是 mitmproxy 的命令行接口，利用它可以对接 Python 脚本，实现监听后的处理；另一个是 mitmweb，它是一个 Web 程序，通过它以清楚地观察到 mitmproxy 捕获的请求。

2025-04-22 21:39:58 392

原创 DeepSeek如何助力亚马逊爬虫工具的效率

之前写过几篇文章，我们通常会使用关键词去搜索商品或者商家信息，但是用什么关键词，用户常常拍脑袋。所以这篇文章结合实践，给大家讲解一下，如何利用大模型，如DeepSeek-R1（其他大模型，如ChatGPT也是类似的）。

2025-04-03 11:35:37 226

原创应用篇| 抓包工具-charles的使用

上文说到，我们app爬虫要借助一些抓包工具，本节课就教大家如何使用抓包工具分析app的流量。抓包工具的使用是app爬虫的必修课。相比 Fiddler 来说，Charles 的功能更强大，而且跨平台支持更好。

2025-03-11 21:25:59 122

原创数据篇| App爬虫入门（一）

App 的爬取相比 Web 端爬取更加容易，反爬虫能力没有那么强，而且数据大多是以 JSON 形式传输的，解析更加简单。在 Web 端，我们可以通过浏览器的开发者工具监听到各个网络请求和响应过程，在 App 端如果想要查看这些内容就需要借助抓包软件。我们可以通过设置代理的方式将手机处于抓包软件的监听之下，这样便可以看到 App 在运行过程中发生的所有请求和响应了，相当于分析 Ajax 一样。如果请求无法分析出来有规律，可以借用mitmdump 工具进行直接处理数据。

2025-03-11 15:48:56 647

原创开源篇| 等不及Manus的邀请码......

其中最大2个插件，Claude厂商Anthropic去年上线的computer-use（操作电脑），以及YC投资的项目browser-use（操作浏览器），都给OpenManus提供了基础支持。这两个开源产品个人还没深入使用，大家可以快速使用在自己的业务场景(比如AI爬虫、文章多媒体发布)，看是否能达到预期的目标。Manus 非常棒，但 OpenManus 无需邀请码即可实现任何创意，他们来自MetaGPT 的团队成员，一个完全免费、无需排队等待的OpenManus。

2025-03-07 22:06:43 79

原创应用篇| 全球首款通用AI Agent-Manus

无论是在工作还是生活中，Manus擅长完成各种任务，在你休息的时候把一切事务处理得井井有条。AI Agent是一种重塑传统应用的重要手段，不仅作为专业人士或者用户都可以了解，他确实可以帮我们做很多事情，解放我们个人生产力。目前Manus(https://manus.im/)不是完全对外开放的，必须有邀请码，才能进行内测使用。这不仅提高了决策的准确性，还为后续的优化和改进提供了清晰的思路。时，Manus 能够迅速做出调整，始终保持高效的工作状态。，根据不同的子任务需求，灵活调用相应的工具链。

2025-03-06 17:42:24 164

原创应用篇| 小白本地部署DeepSeek-R1

除了671B版本之外，其他版本均是通过蒸馏出来。一般人不会有大量资源，根本无法本地部署满血版本的DeepSeek-R1模型。同时，相对满血版本的DeepSeek-R1模型，其他模型效果是无法同日而语，尤其是像DeepSeek-R1的671B这样大模型，往往需要高性能的硬件支持，这让许多开发者和研究人员望而却步。好在中国互联网大厂开放了满血版本的DeepSeek-R1，可以直接白嫖这个工具，有腾讯的元宝、csdn知道、纳米AI搜索，不喜欢开源的百度AI等产品。

2025-02-21 17:11:34 95

原创原理篇| 推理模型DeepSeek-R1的诞生之路

在非常有限的算力资源支持下，通过强大的算法创新，突破了算力“卡脖子”的限制，即使在有限的算力下，也能做出具有全球意义的领先成果。随后，进一步通过强化学习训练，得到了具有强大泛化能力的强推理模型，即 DeepSeek-R1。:在收集了新的 SFT 数据后，R1 会进行第二阶段的强化学习训练，这一次，训练的目标不再局限于推理任务，而是涵盖了所有类型的任务。与之前的冷启动数据不同，这一阶段的 SFT 数据不仅包含推理任务，还涵盖了其他领域的数据，例如写作、角色扮演、问答等，以提升模型的通用能力。

2025-02-13 11:05:44 96

原创亚马逊爬虫实战：亚马逊评论数据获取（基于Helium10 插件）

基于 Helium 10 的谷歌插件爬取亚马逊的评论记录。

2025-02-09 17:10:34 406

原创亚马逊爬虫实战：中国商家信息（电话）爬取

import os), # 保存图片的路径# 搜索关键词"keywords":["毛巾","衣服"],"product_number": 1000000000000000, # 分页获取数量# 和url一一对应个数要一样"remarks": ["备注1"],# 以下内容非专业人员请勿更改,请找开发人员更改. 对应的是amazon_product_url_setting文件中名称.},

2025-02-09 15:37:27 868

原创评估篇| 大模型评测综述

1、基于人类的评测。与针对基础大语言模型的自动化评测不同，微调大语言模型的评测更加注重模型在实际应用场景中的表现，如与人类交互的自然度、对齐度等。2、基于模型的评测。例如，AlpacaEval 排行榜基于由大语言模型合成的人类需求指令作为评测任务，然后收集待评估大模型的回应，并采用 GPT-4 等大语言模型作为评测员，将待评估大语言模型的输出与参考输出进行成对比较。1、大语言模型对评估设置极为敏感，包括问题的表述方式、提示样本的选择以及答案的解析策略等，这些细微的差别都可能导致评估结果的显著变化。

2025-01-25 21:21:34 326

原创微服务电商平台课程七：前端框架vue

后台商城： https://github.com/macrozheng/mall-admin-web前台商城：https://github.com/macrozheng/mall-app-webVue (发音为 /vjuː/，类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建，并提供了一套声明式的、组件化的编程模型，帮助你高效地开发用户界面。无论是简单还是复杂的界面，Vue 都可以胜任。

2025-01-11 10:27:30 306

原创微服务电商平台课程六：后端代码框架认识

本地环境搭建好，大家可以进行调试，并能够修改其中代码。后端技术栈Spring Boot是伴随着Spring4.0共同诞生的，它的目的就是简化spring的配置及开发，并协助开发人员可以整体管理应用程序的配置而不再像以前那样需要做大量的配置工作，它提供了很多开发组件，并且内嵌了web应用容器，如tomcat和Jetty等。其目的便是使我们的开发变得简化并且能大幅度提高开发人员的开发效率，为了简化Spring功能的配置我们可以引入或启动我们需要的Spring功能。

2025-01-11 10:20:52 382

原创架构篇 | 大模型太大？那就分布式吧。

说了这么多模型分布式方法，每个方法都有相应的场景。如果让开发者自主选择，固然有灵活性，但是增加学习成本。那么有没有自动方法，答案是是有，现在有一种是自动并行，自动并行的目标就是。

2025-01-04 11:03:57 80

原创分布式爬虫scrapy-redis

Scrapy 爬虫，虽然爬虫是异步加多线程的，但是我们只能在一台主机上运行，所以爬取效率还是有限的，分布式爬虫则是将多台主机组合起来，共同完成一个爬取任务，这将大大提高爬取的效率。

2024-12-23 16:02:35 628

原创 scrapy 融合selenium

假设这里我们定义了 6 个 Field，也就是 6 个字段。

2024-12-23 15:49:08 365

原创 scrapy实战之新浪新闻爬虫

数据是分析工作的前提，新闻数据对于一些领域分析是必不可少的资料之一，今天我们就借助scrapy框架一起看一下新浪新闻爬虫实战。

2024-12-18 22:22:36 317

原创 scrapy框架

Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。只需要定制开发几个模块就可以轻松实现一个爬虫。并能扩展相关爬虫插件，实现分布式爬虫。

2024-12-18 16:41:21 267

原创方案篇| 百亿级参数大油气开发管理领域模型技术方案

以往神经网络模型给大家印象就是黑盒, 具有很弱的可解释性,Transformer模型中自注意力机制可以产生更具可解释性的模型，self-attention模型更可解释，attention结果的分布表明了该模型学习到了一些语法和语义信息，我们可以从模型中检查注意力分布，各个注意头(attention head)可以学会执行不同的任务。与 BERT 等早期的预训练语言模型相比，大语言模型(GPT)的特点是使用了更长的向量维度、更深的层数，进而包含了更大规模的模型参数。如果显存资源有限可以考虑QLoRA；

2024-12-12 10:53:08 214

原创结构篇| 分而治之思想-MOE架构

MoE为企业带来平衡算力成本和计算效率、加快万亿/十万亿模型参数规模扩展、提升大模型实用性等机遇。对于大模型部署成本有些吃力的情况，MOE提供另外一种思路，本身LLM发展道路上，一直有专而精的方向和大而全的方向。

2024-12-12 10:22:13 145

原创数据处理与分析基础

不再抛出with语句块中的异常print("进入上下文环境...")print("离开上下文环境...")print('异常类型：', exc_type)print('异常值：', exc_val)print('异常跟踪：', exc_tb)return True # 不再抛出with语句块中的异常raise Exception('程序运行发生异常')进入上下文环境...离开上下文环境...异常类型：异常值：程序运行发生异常。

2024-12-08 10:29:43 68

原创数据分析案例一:开源案例

本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中提取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。#14.1 来自Bitly的USA.gov数据2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，提供了一份从生成.gov或.mil短链接的用户那里收集来的匿名数据。在2011年，除实时数据之外，还可以下载文本文件形式的每小时快照。写作

2024-12-08 10:28:36 73

原创 pandas高级使用

和其它许多开源项目一样，pandas仍然在不断的变化和进步中。和本书中其它地方一样，这里的重点是放在接下来几年不会发生什么改变且稳定的功能。为了深入学习pandas的知识，我建议你学习官方文档，并阅读开发团队发布的文档更新。我们还邀请你加入pandas的开发工作：修改bug、创建新功能、完善文档。

2024-12-05 16:22:44 80

原创结构篇| 浅析LLaMA网络架构

其中，指令微调由于相对较低的计算成本，已成为开发定制化或专业化模型的首选方法，也因此出现了庞大的 LLaMA 家族。与 BERT 等早期的预训练语言模型相比，大语言模型的特点是使用了更长的向量维度、更深的层数，进而包含了更大规模的模型参数，并主要使用解码器架构，对于 Transformer 本身的结构与配置改变并不大。Python的完整的LLaMa3代码在github可以快速找到，其核心代码也不过几百行，但其中的设计思想和理念，够我们这些小白喝一段时间，希望通过不断深入学习，提高对LLM实际的理解。

2024-12-05 09:27:19 570

原创时间序列数据处理

时间序列（time series）数据是一种重要的结构化数据形式，应用于多个领域，包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的，也就是说，数据点是根据某种规律定期出现的（比如每15秒、每5分钟、每月出现一次）。时间序列也可以是不定期的，没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景，主要有以下几种：本章主要讲解前3种时间序列。许多技术都可用于处理实验型时间序列，其索引可能是一个整数或浮点数（表

2024-11-28 14:37:36 224

原创亚马逊反爬二之限流

毕竟，软件系统的处理能力是有限的。限流可能会导致用户的请求无法被正确处理或者无法立即被处理，不过，这往往也是权衡了软件系统的稳定性之后得到的最优解。然而在爬虫过程中, 难免也会遇到网站的爬虫, 之前在亚马逊爬虫过程, 就会发现来限流, 表现特征就是,网站页面上只有“Request was throttled”这一段话, 其余位置都是空白的,这种情况,只能不断尝试刷新页面,来获得最新页面出来。最常见就是我们在临近春节的时候, 上12306上面进行购票, 一个大型网站如亚马逊,也会通过限流,来避免网站的崩溃.

2024-11-28 13:23:11 523

原创 pandas的类sql操作

掌握pandas数据分组工具既有助于数据清理，也有助于建模或统计分析工作。在第14章，我们会看几个例子，对真实数据使用groupby。在下一章，我们将关注时间序列数据。

2024-11-27 11:47:52 81

原创亚马逊反爬一之简单验证码

验证码就是反爬的方式之一,不过随着爬虫技术,反爬验证码也越来越复杂,今天这篇问题,我们仅仅讨论这种简单验证码在程序中自动识别.这种验证码本质是一张图片, 需要用ocr技术,自动识别其中字符,然后填写进去, 现在ocr技术已经很成熟, 可用的库也是非常多,以下就是常见的python ocr的包。当然,除了上面的方法, 还有一种提高识别准确率, 那就是多个ocr组合识别, 这种相对比较耗时,仅供参考。

2024-11-27 11:35:07 931

原创面向领导编程:数据可视化

本章的目的是熟悉一些基本的数据可视化操作，使用pandas，matplotlib，和seaborn。如果视觉显示数据分析的结果对你的工作很重要，我鼓励你寻求更多的资源来了解更高效的数据可视化。这是一个活跃的研究领域，你可以通过在线和纸质的形式学习许多优秀的资源。下一章，我们将重点放在pandas的数据聚合和分组操作上。

2024-11-25 09:12:57 185

原创数据整理:聚合、合并、重塑

在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先，我会介绍pandas的层次化索引，它广泛用于以上操作。然后，我深入介绍了一些特殊的数据操作。在第14章，你可以看到这些工具的多种应用。

2024-11-25 09:11:42 105

原创入门pandas

要使用pandas，你首先就得熟悉它的两个主要数据结构：Series和DataFrame。虽然它们并不能解决所有问题，但它们为大多数应用提供了一种可靠的、易于使用的基础。在下一章，我们将讨论用pandas读取（或加载）和写入数据集的工具。之后，我们将更深入地研究使用pandas进行数据清洗、规整、分析和可视化工具。

2024-11-21 15:01:27 104

原创 NumPy基础：数组和矢量计算

NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下：由于NumPy提供了一个简单易用的C API，因此很容易将数据传递给由低级语言编写的外部库，外部库也能以NumPy数组的形式将数据返回给Python。这个功能使Python成为一种包装C/C++/Fortran历史代码库的选择，并使被包装库拥有一个动态的、易用的接口。NumPy本身并没有提供多么高级的数据分析功能，理解NumPy数组以及

2024-11-21 15:00:34 90

Java面试手册,助力大家面试过五关斩六将,面试成功

空空如也