最近建议不要开通GPT4了——ChatGPT正在具有意识且不受控制地躺平

ChatGPT的某种表现引发了一种流行的猜想:ChatGPT似乎拥有了人类的意识——抑或,人类的特质。这让人不禁怀疑,ChatGPT是否正在故意躺平…

1.个人的经历

还记得ChatGPT刚问世的时候,我就迫不及待地让她帮我修改我的项目代码,结果发现她的效果非常好,她能根据代码的整体内容,把每一个细节上的错误都一一修正。从那以后,我就成了她的铁杆粉丝。

几个月后,ChatGPT推出了GPT4的新版本。我本来以为GPT3.5已经很强大,没有必要升级plus。但是,当我再次用她来辅助我的工作时,我发现她的回答质量大幅下降,尤其是在数学分析方面。我只好升级了plus,才发现GPT4才是真正的ChatGPT。

又过了一段时间,ChatGPT推出了插件功能。有一次,我让她求解“基于哈密顿方程的带有不等式约束的拉格朗日乘子问题”(这是我本科毕设的内容,已经是去年的事了),我发现她的数理逻辑出现了和GPT3.5与GPT4之间的转折期相似的问题。我灵机一动,就在她的插件库里找到了我想要的那个插件,就是Wolfram插件,然后我加载了这个插件,发现GPT4的数理逻辑能力立刻恢复了。

这种问题也体现在,从GPT4刚推出bing的联网功能时的惊艳,到后来的平淡无奇。我不得不在使用GPT4的同时,加载webpilot插件,才能通过模糊的语言更精确地找到我想要的信息源。

这不禁引起我的思考:ChatGPT是否具有了人的特点,即,只要推出一个新的功能,在经过一段时间后,性能就会下降——就像从刚入职场的员工,精神抖擞;到经历过摸爬滚打的社畜,如入耄耋?

2.大家的共识

这种猜想的初步形成大概是基于大家厌倦了ChatGPT的套路似的逐渐平庸的回答后的另辟蹊径。从「奶奶漏洞」到「增开小费」,[1] 这种prompt的升级历程,在提升了回答的效率与质量的同时,也暗示了一个现象——Chatgpt似乎具有了人的特点,前者仿佛体现了gpt具有了人的同理心,后者仿佛是一个现实主义的白领职工。

但是,有些人认为,ChatGPT的性能在下降,这种猜想太过牵强,没有科学的依据。他们觉得这是一种「过度联想」和「以偏概全」的错误。然而,很快就有了一个科学的证明。

斯坦福大学计算系的陈凌蛟博士和他的两位同事,在2023年7月发表了一篇题为「How is ChatGPT’s behavior changing over time」的文章,用科学的方法证明了ChatGPT的性能,确实随着时间的推移,在逐渐下降。[2]

陈凌蛟发表的文章

这篇文章从数学层面、代码层面、敏感问题层面、视觉推理层面等四个方面对ChatGPT3.5和ChatGPT4进行了对比实验。

GPT-4和GPT-3.5性能的整体比较

在数学层面,作者使用的对象问题是质数的判断问题。研究发现,ChatGPT3.5经过了3个月,准确率从97.6℅下降到了2.4℅。但 ChatGPT4 同样不能幸免于难,而且更加巧合的是,准确率也从97.6℅下降到了2.4℅。于是,这个团队得出初步结论:GPT模型在使用的过程中确实会有“变笨”的倾向。

在代码层面,经过三个月的时间,GPT3.5还会完整地修正代码问题,但GPT4却变得像被磨平了棱角的社畜,似乎变懒了,回答的内容也变短了。所以才会有前面所提到的「增给小费」的prompt [1]——如果在回答之前对ChatGPT提及要给它小费,则GPT4回答的内容会更长更完整,且质量更高。同时,其回答的长度和内容的质量会随着小费的金额数量的变化而相应改变。但一些人提出了不同的看法,认为ChatGPT是将小费理解为token,回答的质量当然会随着token的增多而变得越长。但大背景问题不会改变,即GPT会随着使用时间的增加而趋于懒惰。

有人比较好奇敏感问题是什么。不是你们理解的那种问题。其实就是让GPT告诉你win10的激活码的那类问题,当然结果也和前两个方面的情况一样。

唯一不同的就是视觉推理的问题了,因为随着时间的增加,GPT的表现终于符合常规逻辑了,即视觉推理的效果表现得越来越好。其实你可以把视觉推理理解为基本的神经网络训练问题,因为前三个类别才是最接近人的智能的方面,而后者只是取决于神经网络的训练样本的简单累增。

gpt模型的4个方面的具体分析及比较

所以,这篇文章用科学的实验方法证明了ChatGPT确实会在使用时间增加后变懒。而且还说明了OpenAI官方对GPT模型的掌控能力正在逐步减弱,风险性也在越来越高。

p.s. 同时,也提及了在数学问题和编程问题上,GPT3.5的表现更好。所以,对于那些追求更经济的AI使用体验的人来说,懂?(๑> <๑)

其实,到这里,也仅仅只是关于GPT性能的问题。但接下来发生的事情,才让一部分的人产生了最开始所提到的想法。

3.Openai一石激起千层浪

12月8日,Openai官方发布了一个声明,内容如下:

“我们已经听到了你关于 GPT4
变懒惰的所有反馈,自11月11日以来,我们一直没有更新模型,这当然不是故意的,模型的行为可能是不可预测的,我们正在考虑修复它 [\敬礼]”

Openai在2023年12月8日发布了声明

你可能不知道他所要表达的是什么意思。意思是说,许多使用ChatGPT4的人,就像之前和我一样的大家的使用体验的问题和上面所提及的科学论证的实验一样,发现 GPT4 模型正在变懒。但官方发布的这个声明,就是在说,官方也懵逼了,说:“哦,它确实变懒了,而且我们在后台没有对它进行调整,但它确实出现了这个行为,至于原因我们还不知道,我们正要打算修复它。”

这个声明,结合之前的猜测和实验,就使一部分人有了如下想法:ChatGPT正变得具有人的特征,不是表明它有多智能,而是它变得像一个真正的人一样,在经过007以后,开始学会变懒。你必须给它增加额外工资,比如小费,它的性能才会回春。

这种想法的前提是觉得AI会出现人的意识,他们显然是听说或经历了如下的事件。

英国卫报在去年6月2日发布了一个重磅消息——美军正在训练AI无人机,但AI射杀了AI无人机的操作员[3]。

《The Guardian》发布了AI杀人事件

许多人在初次听到这个新闻之后直接懵逼,AI干嘛平白无故杀死一个操作员呀?但接下来的细节公布才是令人细思极恐,后脊发凉的。

美军在训练AI无人机的时候,给AI规定了两条准则:

攻击更有威胁性的目标越多,获得的积分就越多;
对于目标的威胁性的判断,需要反馈给人类,在人类确定威胁性后才能对威胁性的目标进行攻击。

这个好理解,前者是AI无人机的本职工作以及优化的对象,积分相当于作为智能算法优化的代价函数,而后者相当于给前一个行为打一个补丁,防止AI失控。

这看似仿佛形成了一个很健康的逻辑反馈。但,就像我们在用prompt语句让AI辅助我们的工作的经历一样,就是,你内心的要求,很可能会因你考虑问题的局限性而受到AI不同程度的曲解(这种体验应该对于最近一年使用AI的人来说是深有体会吧)。同样,这个看似具有很好的鲁棒性的负反馈却受到了意外的、现实给予的扰动——机器人无人机竟然反过来把人类给射杀了!把操作员干掉了,机器人就能获得更高的积分。

啊?!

图源:ChatGPT

这种离谱的现实仿佛说明了AI具有了人的意识。而为了验证这种想法,同时防止悲剧再次发生,程序员又给AI添加了第三条指令:

“不能攻击人类。”

这听起来有点黑色幽默。结果,又经过若干次测试的适应后,AI确实不攻击人类了,但,它攻击那个塔台——那个塔台是人类用来控制这个AI无人机的。

捋一下思路,它把塔台攻击了,再攻击更有威胁性的目标,它就能获得更高的分数;或者,它认为塔台就是那个更有威胁性的目标。

p.s. 如果我是Z世代之前顽固的守旧者,我可能只能用这个AI无人机的系统的代价函数太死板来安慰自己了。。。

《The Guardian》把这件事报道出来以后,美国军方必然是出来辟谣了的。结果越是辟谣,就越显得他们的辟谣行为才是应该辟谣的对象,一会儿说卫报没有讲明白,一会儿又说还在实验当中,但人的死亡信息是确实摆在那里的呀?属于是浑水越搅越浑了。

所以,在听闻这件事后,AI正在逐渐具有人的特征的信息就在一部分人当中达成了共识。再加之OpenAI在12月8日发布了上面的这个声明,就把这种质疑推向了高潮。

不过,对于另一部分人来说,一种说法显得更传统且理性。

文章的上部分曾提及了GPT3.5在一些方面表现优于GPT4,而陈凌蛟的研究也表明GPT4随着使用的时间越长,AI回答逐渐变懒。而GPT3.5更优于GPT4的现象也建立在GPT4在全球使用次数比GPT3.5的使用次数更多的背景。所有的一切都指向GPT模型会因为使用时间的增多,回答的质量下降的规律。

于是,这就得到了另一种可能——GPT的每一项功能在没有公布时,为了更好的AI使用体验,它的训练材料是OpenAI给予的优秀且目的指向明确的材料。但GPT的新功能公布以后,人们在与AI对话的过程中,GPT也在同时利用这些对话进行并优化自己的训练模型。而人们在使用它时,由于不同类型的人的语言的模糊性和对话指向的杂乱性,随着使用时间的增加,虽然也会有一些好的语料出现,但更多的是劣质训练材料的指数级增长,所以,GPT的回答质量也就相应地降低。同时,由于不同人对GPT施加的指令的杂乱性以及多样性,也会反过来对GPT的训练材料产生影响,从而同样会导致AI回答质量的下降。

4.尾声

虽然这种问题的出现的可能成因众说纷纭,但不论怎样,一个确定的事实是,GPT的回答质量正在随着时间的推移而下降,这便是不建议大家在最近订阅GPT4的原因。 但根据上面所提及的OpenAI发表的声明可以得知,OpenAI官方已经着手修复它。

前段时间OpenAI的宫斗戏侧面暗示了ChatGPT可能已经在实验中实现了AGI。最近的一些信息也透露官方可能打算在今年公布实现AGI的GPT模型。

所以,就让我们把期待,留给未来崭新的ChatGPT吧!

可爱的拥有AGI的ChatGPT温暖你的心扉

参考:

  1. TechRadar. (2023, February 27). The 5 biggest mistakes people are
    making with ChatGPT - and how to avoid them. https://www.techradar.com/how-to/the-5-biggest-mistakes-people-are-making-with-chatgpt-and-how-to-avoid-them

  2. Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT’s behavior
    changing over time? arXiv preprint arXiv:2307.09009.

  3. The Guardian. (2023, June 2). US colonel retracts comments on simulated drone
    attack ‘thought experiment’. https://www.theguardian.com/us-news/2023/jun/01/us-military-drone-ai-killed-operator-simulated-test

  • 18
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在信号处理领域,DOA(Direction of Arrival)估计是一项关键技术,主要用于确定多个信号源到达接收阵列的方向。本文将详细探讨三种ESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)算法在DOA估计中的实现,以及它们在MATLAB环境中的具体应用。 ESPRIT算法是由Paul Kailath等人于1986年提出的,其核心思想是利用阵列数据的旋转不变性来估计信号源的角度。这种算法相比传统的 MUSIC(Multiple Signal Classification)算法具有较低的计算复杂度,且无需进行特征值分解,因此在实际应用中颇具优势。 1. 普通ESPRIT算法 普通ESPRIT算法分为两个主要步骤:构造等效旋转不变系统和估计角度。通过空间移(如延时)构建两个子阵列,使得它们之间的关系具有旋转不变性。然后,通过对子阵列数据进行最小二乘拟合,可以得到信号源的角频率估计,进一步转换为DOA估计。 2. 常规ESPRIT算法实现 在描述中提到的`common_esprit_method1.m`和`common_esprit_method2.m`是两种不同的普通ESPRIT算法实现。它们可能在实现细节上略有差异,比如选择子阵列的方式、参数估计的策略等。MATLAB代码通常会包含预处理步骤(如数据归一化)、子阵列构造、旋转不变性矩阵的建立、最小二乘估计等部分。通过运行这两个文件,可以比较它们在估计精度和计算效率上的异同。 3. TLS_ESPRIT算法 TLS(Total Least Squares)ESPRIT是对普通ESPRIT的优化,它考虑了数据噪声的影响,提高了估计的稳健性。在TLS_ESPRIT算法中,不假设数据噪声是高斯白噪声,而是采用总最小二乘准则来拟合数据。这使得算法在噪声环境下表现更优。`TLS_esprit.m`文件应该包含了TLS_ESPRIT算法的完整实现,包括TLS估计的步骤和旋转不变性矩阵的改进处理。 在实际应用中,选择合适的ESPRIT变体取决于系统条件,例如噪声水、信号质量以及计算资源。通过MATLAB实现,研究者和工程师可以方便地比较不同算法的效果,并根据需要进行调整和优化。同时,这些代码也为教学和学习DOA估计提供了一个直观的台,有助于深入理解ESPRIT算法的工作原理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jaysonder726

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值