构建大语言模型友好型网站_模型友好语言-CSDN博客

本文链接：https://blog.csdn.net/yaojiawan/article/details/139526295

以大语言模型为代表的AI 技术迅速发展，将会影响原有信息网络的方式。其中一个明显的趋势是通过chatGPT 对话代替搜索引擎和浏览器来获取信息。

互联网时代，主要是通过网站（website）提供信息。网站主要为人类阅读的方式构建的。主要技术基于HTML5/javascript 技术支撑。进入AI 时代，网站信息从人类浏览，转型AI 机器人搜索和获取。这种变化将引发重大的影响。诸如网络广告，文章的版权，网页的爬取等等。

本博文探讨一下AI 时代的网站发展趋势。

传统网站对大语言模型并不友好

不利于机器获取信息

浏览网站的主要方式是导航方式，人们根据导航指引获取信息。这种方式适合人类的阅读习惯，但是并不适合机器获取信息。目前使用一些”网络爬虫“技术来获取网站信息。

网站普遍采取前后端架构，前端网页通过web API 读取后端网页和数据库中的数据。webAPI 采用了RestFul方式。无论是调用方式，还是数据结构都是自定义的，没有统一的标准。

另一方面，网站信息是以HTML5 的形式表达，甚至是前端程序生成的。它是以人类阅读体验为中心设计的，对机器阅读并不友好，比如各种”网络爬虫“ 技术都不能完整地读取网站上的信息。网络搜索引擎页难以精准地搜索需要的信息。人们在浏览器面前浪费了大量的时间。特别是中文网站普遍信息质量低下，广告漫天飞。检索信息犹如大海捞针。小公司的网站几乎无人问津。

不利于LLM访问

未来的发展趋势是使用大语言模型的对话获取网站信息，目前的方式是通过搜索引擎寻找相关的网页内容，通过所谓的RAG技术读取关注的信息，RAG需要embedding，矢量数据库技术的支持。这就要求网站的信息有利于RAG。比如在数据库中，除了关键字以外，要添加必要的描述（description）。有助于生成更加有效的矢量数据。