Kimi直接爆了,新模型冲上第一。

你好,我是郭震

Kimi重磅发布视觉思考模型K1,冲上第一,如下图所示:

af4a82664bb49b6f6e050501540a2d88.png

在初级数理化、高级数理化,全面压倒O1和Claude3.5 Sonnet模型。

在几何图形基准能力测试中,无论入门、初级,还是高级集合图形测试,Kimi都超越了O1和Claude模型,取得第一名。

2ef0fd68b6e4ca787b092eef7713801a.png

Kimi是否有宣传中说的这么强大?

下面我来实测Kimi新发的视觉思考模型K1,专挑了4个难度较高的任务,都是需要很强的视觉+推理能力才能解决好的任务。

第一个实测用例,从LeetCode最高hard级题中,再给它加大难度,选择一道题目描述带有文字和图片的:

c8012bc30c0860be19337898a1f6eb86.png

把上面的截图扔给Kimi,再在文本框输入:请用中文回复此题,并在最后给出Python求解代码:

fe5385c2ddf36f6d7d3087b24ce035e8.png

然后点击箭头所示按钮:

77ebba2f1fd386304ea9755fefb96b8c.png

然后K1秒懂,思考片刻后,便开始解答此题,中间带有详细推理过程,牛逼特拉斯。我录制了一个视频,视频没有任何加速,全部保持自然进度,一共1分30秒左右 ,感兴趣的可以看下:

受限于公众号GIF帧数和内容数限制,这是Kimi思考过程开始部分的GIF动图:

dbba7972c8469852c84640198e66fd43.gif

复制如下所示K1生成的代码到LeetCode里,我们检验下这版代码是否能够一次性通过:

class TreeNode:
    def __init__(self, x):
        self.val = x
        self.left = None
        self.right = None


class Solution:
    def minCameraCover(self, root: TreeNode) -> int:
        self.cameraCount = 0


        def minCamera(node):
            if not node:
                return 2  # 0: No camera, 1: Camera, 2: Covered


            left = minCamera(node.left)
            right = minCamera(node.right)


            if left == 0 or right == 0:
                self.cameraCount += 1
                return 1  # Place camera here
            elif left == 1 or right == 1:
                return 2  # Covered by child camera
            else:
                return 0  # No camera needed


        if minCamera(root) == 0:
            self.cameraCount += 1


        return self.cameraCount

这是复制到LeetCode后截图,然后提交submit这版代码:

ea223e949652e42625637f880b688f17.png

这版代码不仅一次被通过(红框Accepted所示),而且击败了100%的代码:这真是用实力碾压了一众全球程序员,还真是蛮惊艳:

409e5b0815cdb66b5a450782d6de4fa1.png

K1思考模型是如何做到的?我们再回到它的回答过程中,可以看到推理过程极其详细,它会自我反思,自我修正,自动调整。

第二个实测用例:一张Web截图直接转代码

前端设计看起来容易,但是真正设计过的朋友都懂,做出一个协调美观的还是需要来回调整。最简单的一个方法就是模仿别人的设计界面。有了K1视觉思考模型,截取下面这张图,放到Kimi里,直接得到对应html代码:

5d8b0585bbe9715f2e851bbd3e226170.png

下面是Kimi根据Web界面截图和一句提示词,生成界面代码的推理过程,视频无加速推理思考时长大约50秒:

我拿着生成的html代码,运行后得到如下图所示的Web界面,和输入界面虽然没有达到与输入Web界面一模一样,但是基本的页面风格比较相似,缺失的几个图标可以手动补充,肯定比从零开发要快很多了:

0ad32ad16473c1f4b96ba82bfbc5c16a.png

第三个实测用例:一个数据分析图直接转代码

除了能转化页面为代码,我们日常看到的数据分析图,再也不用眼馋他们的了,只需要截取一个图,放到K1里,告诉它生成Python代码,一键生成出来:

2c72cc0ec244f389b240e06fe220bfb4.png

下面是Kimi根据可视化截图和一句提示词,生成界面代码的推理过程,视频无加速推理思考时长大约60秒:

根据生成的代码,我复制过来保存为py脚本,直接运行后得到如下气泡图。看到能够生成与输入相同类型的图形,并且有几分相似,代码一次能够运行通过,我相信已经达到很多人的要求了。

fd8d83227da3c2a107f500d7cf8173c6.png

第四个实测用例:一键解读论文结果图

论文文献里也好,日常看的图片也好,比如下面8幅图,论文作者想要传达什么含义,如果一时没看懂,直接截图一下,扔给K1,

c3ad179c1fbd68a40e090b1418e3b4f3.png

就这个图,如果叫我去解析,没有个二三十分钟是肯定完不成的,但是K1几乎秒懂,推理过程45秒:

建议感兴趣的阅读上面推理过程,K1准确分析了论文6个子图说明的问题,还最后做了如下的详细分析:

12e6b1e0782e5b7220bcb0ae2bdfaedd.png

其他的科学问题,数理化问题,生活问题,截个图,提问K1,就好了。

新发模型K1使用方法

从哪里进入Kimi视觉思考模型?

如下图所示,进入Kimi.ai官网后,点击戴眼镜的Kimi

6ecf58176919062d056c7a57709997ea.png

认准戴眼镜的Kimi图标

然后屏幕中上区域开始出现这样的会话区域:

59ebd1178008eea88856c0beab14d2d8.png

输入图片,再适当写一句提示词,K1瞬间读懂图片中的复杂信息。

最后总结

本文我实测了四个很具挑战性的任务,结果表明眼镜版K1在视觉推理方面的硬核表现,能读取图片里的每一帧,并给出中间详细推理过程,模型表现确实够硬。

希望通过本篇使用教程,让朋友们及时了解到最新大模型,并将它应用到你的日常工作和学习中,用好了,效率指定是提速的。

最后说一句,Kimi新发的这个眼镜版K1模型,免费使用。使用方法如下三种,或者点击文章最后的阅读原文:

网页:kimi.com

APP:Kimi智能助手

小程序:微信搜索“Kimi智能助手”

以上全文2116字,15图,4个录屏视频。如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个⭐️,谢谢你看我的文章,我们下篇再见!

### 如何在 Zotero 中使用 Kimi 插件或工具 #### 配置Kim API密钥 为了使Zotero能够通过Kimi插件访问API服务,需先获取并配置API密钥。登录到[Kimi API密钥申请控制台](https://platform.moonshot.cn/console/info),按照指引完成注册流程后即可获得个人专属的API Key[^1]。 #### 安装与设置Kimi插件 目前并没有直接名为“Kimi”的官方Zotero插件存在;然而,可以通过自定义脚本或是第三方开发的小工具来实现两者的对接功能。对于希望利用Kimi增强版聊天模型能力的研究者来说,可能需要依赖于社区贡献的支持方案或者是探索基于现有框架搭建适合自己的自动化工作流。 #### 使用场景举例 假设研究者想要借助Kimi处理较长对话历史记录中的引用文献管理问题,则可以考虑编写一段Python脚本来调用Kimi API接口,并将其集成至Zotero的工作环境中: ```python import requests def get_kimi_response(prompt, api_key): url = "https://platform.moonshot.cn/api/v1/chat/completions" headers = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {api_key}' } data = {"messages": [{"role": "user", "content": prompt}]} response = requests.post(url, json=data, headers=headers) return response.json() # Example usage within a Zotero context prompt_text = "请帮我整理这份研究报告里提到的所有参考文献..." api_key = "<Your_Kimi_API_Key>" response_data = get_kimi_response(prompt_text, api_key) print(response_data['choices'][0]['message']['content']) ``` 此代码片段展示了如何发送请求给Kimi服务器以获取关于特定主题的帮助建议,实际应用时可以根据具体需求调整输入提示以及解析返回数据的方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值