前言
咱之前不是用ollama部署了MINICPM-V吗?之后还把它集成到了咱的dify里。
现在,我们就要用一些问题,来考验它一下,看看现在的多模态大模型,发展到什么程度了。
这张图片的搞笑之处是什么?
正好我桌面上有这么一张图:
所以我的问题是:
看来大语言模型确实针对幽默这件事儿搞了大量的理论研究,但如何让大模型真正的幽默起来,估计难度不小。
这幅图像的像素值是多少?
不知道为什么会想到这个问题,但感觉这个东西有时候应该蛮有用的。
👆无法确定像素值。
不过这个正好可以通过dify来实现啊,应该还蛮简单的。
Selenium代码编写
代码我没有具体试,但粗略看一下应该是没有问题的。
HTML代码编写
这个框框貌似可以直接渲染html代码,直接显示了所生成html代码的结果!
这倒是一个好功能欸,以后得合理利用一下。
又试了一次,这次它知道把代码放在某种标记中,防止对html代码直接进行渲染了。
它给的代码是:
<html>
<head>
<title>Baidu Baike</title>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<!-- 引入百度百科样式 -->
<link rel="stylesheet" href="https://map.baidu.com/maps/map.css?v=201935">
</head>
<body>
<div class="header">
<a href="#"><img src="path_to_your_logo.jpg" alt="Baidu Baike Logo"></a>
<!-- 搜索栏 -->
<form action="/search">
<input type="text" name="q" placeholder="请输入搜索内容" />
<button type="submit">百度一下</button>
</form>
</div>
<nav class="menu">
<!-- 导航菜单项 -->
<ul>
<li><a href="#">新闻</a></li>
<li><a href="#">hao123</a></li>
<li><a href="#">地图</a></li>
<li><a href="#">贴吧</a></li>
<li><a href="#">视频</a></li>
<li><a href="#">图片</a></li>
<li><a href="#">网盘</a></li>
</ul>
</nav>
<!-- 内容区域 -->
<div class="content">
<!-- 左侧内容区 -->
<section>
<!-- 新闻列表 -->
<h2>新闻</h2>
<article>
<p><img src="path_to_image1.jpg" alt="Image 1"><br />
帮助你快速出海,进一步探索一个全球化的世界。自中国航空回应“拒绝乘客”事件以来...</p>
</article>
</section>
<!-- 右侧内容区 -->
<div class="right">
<!-- 推荐列表 -->
<h2>推荐</h2>
<ul>
<li><a href="#">旅行团欲退一个月后赴泰国机票遭拒,春节后航班如何安排?</a></li>
<li><a href="#">日本核污水排海对世界有何影响?专家解读来了!</a></li>
<!-- 更多推荐列表 -->
</ul>
</div>
</div>
<footer class="footer">
<!-- 底部信息区 -->
<p>© 2019 Baidu Inc. All Rights Reserved.</p>
</footer>
</body>
</html>
👆运行后的效果。
(有点像网速不好时,我们看到的百度,哈哈)
结束语
兄弟们,你们对这个minicpm-v的效果还满意吗?
对多模态大模型的能力又有什么期待呢?