ChatGPT的5个致命缺点,与解决方法

添加书签

专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!

本文将主要讨论大语言模型的主要问题,以及产生的原因和解决思路。今天的ChatGPT等大语言模型仍然存在认知偏见和错误,需要通过教育和观察来引导其发展,我们也应该合理评估大语言模型的能力和局限性,不过分期望它们能够解决所有问题。

首先我们来看今天的ChatGPT或者说此类大模型仍然存在什么问题:

1. 无法接入互联网

与 Siri 或 Alexa 等其他人工智能助手不同,ChatGPT 不使用互联网来查找答案。ChatGPT的知识是内置的,这意味着ChatGPT无法接触到人类所拥有的大量知识,可能无法回答训练数据之外的问题,无法理解生成单词的上下文语境或含义。只能根据给定的训练数据,根据某些单词或单词序列一起出现的概率生成文本。可能不会每次都回答得完全连贯或与对话的上下文相关联,换句话说,ChatGPT 通过一系列猜测得出答案,这也是它可以将错误答案当成完全正确的原因之一。

2. 缺乏上下文知识(Context)

如果大语言模型在一家企业中应用,就必须了解这家企业既有的规章制度流程,甚至包括企业文化等;如果大语言模型能够和个人用户良好互动,就必须了解一个人的生平情况,教育背景,语言习惯等。由于它目前知识的封闭性,这些问题短期是无法通过OpenAI公司来解决的,属于大数据模型下一阶段重点突破的内容。

3. 知识或事实的缺失

由于无法联网,目前的GPT3的训练数据只是截至到2021年9月份,另外它所学习的知识也不一定是完整的。那么ChatGPT 有时会写出看似合理但不正确或荒谬的答案。如果只是用于个人聊天或娱乐还是可以的,但这种事实和虚构的“幻觉”在涉及医疗建议或了解关键历史的正确事实时,是尤其危险的。

4. 存在可能的偏见

ChatGPT 已可能会产生一些歧视性别、种族和少数群体的可怕答案。在早期ChatGPT版本中,据《独立报》报道,在ChatGPT与用户交流时,出现了侮辱用户、对用户撒谎的情形,称用户“像一个骗子、一个操纵者、虐待狂、魔鬼”。

5. 容易被引诱

外国网络安全平台GBHackers披露了,黑客通过ChatGPT在短时间内生成完整的诈骗套路话术,并把ChatGPT包装成“虚拟角色”,让受害人以为自己“坠入爱河”,最终遭受诈骗。更厉害的黑客已经开始利用ChatGPT批量生成勒索软件与恶意代码。黑客就是利用OpenAI的API接口,把GPT模型引入到一系列外部应用,以此绕开安全监管。

笔者亲身经历的对话问答,如下图:

6. 其他问题

另外,还有些短期技术依赖的问题,比如ChatGPT与用户单次沟通的容量存在限制,网络接入速度和响应速度缓慢,这些问题大多与后端的计算资源有关,伴随着计算成本的降低,应该可以得到缓解。

在更广的领域内,ChatGPT还存在着法律合规,数据隐私,知识产权,问题解答权限等更深层次的问题。这些显然涉及了一个崭新的领域,但是人类不断地被推到一个一个新的领域,去解决一些人类以前从来没解决的问题,而且是全社会各个专业的人来解决,不只是科技界的事情。

再来听听其他专家的反对意见

综上所述,业界很多专家也对ChatGPT持有保留态度。技术分析师本尼迪克特·埃文斯(Benedict Evans)将ChatGPT描述为 “一个自信的扯淡的家伙,可以写出非常有说服力的废话”。将它整合到搜索引擎中几乎肯定会提供虚假信息。虚假信息本来在互联网上俯拾皆是,但它们不是以人工智能的权威性来提供的。最大的危险在于,ChatGPT是错误的或有偏见的,但听起来却像是正确的和权威的。
深度学习和大型语言模型中使用的自监督学习的先驱 Yann LeCun 认为,大模型存在导致幻觉的更根本的缺陷。“大型语言模型不知道语言描述的潜在现实,”他说,并补充说大多数人类知识都是非语言的。“这些系统生成的文本在语法和语义上听起来都不错,但除了满足与提示的统计一致性之外,它们并没有真正的某种目标。”

人类根据许多从未被记录下来的知识进行操作,例如通过观察或经验获得的社区内的习俗、信仰或实践。熟练的工匠可能对他们的手艺有默契的知识,这些知识从未被记录下来。

“语言建立在我们共同拥有的大量背景知识之上,我们称之为常识,”LeCun 说。他认为计算机需要通过观察来学习以获得这种非语言知识。“他们的聪明程度和准确性是有限度的,因为他们没有现实世界的经验,而这实际上是语言的潜在现实。” “我们学到的大部分内容与语言无关。”另一位深度学习先驱杰夫·辛顿 (Geoff Hinton) 说:“我们学习如何投篮球,让它穿过篮筐。” “我们根本不使用语言来学习。我们从反复试验中学习。”

主要原因来自AI幻觉

人工智能幻觉 (Hallucinations),该术语最早用于图像合成等领域,直到后来描述诸如图像检测时检测到虚假或错误目标等现象。在《通过一个故事帮助我们认识大语言模型》一文中已经谈到了导致ChatGPT一本正经的胡说八道或者对事实进行捏造的原因,

一方面,大语言模型中的先验知识都来自于训练语料,用于训练语言模型的大数据语料库在收集时难免会包含一些错误的信息,这些错误知识都会被学习,存储在模型参数中,相关研究表明模型生成文本时会优先考虑自身参数化的知识,即学的知识还不够全,不够新

另一方面,模型训练和推理时的差异,即当大量语言信息被压缩存储后,在复原时,需要补充字和字之间的间距,让文字更加饱满,逻辑更加顺畅,表达更加充分,而同时又让它产生了一定的对事实的捏造和杜撰,即为了回答而刻意回答,为了表达而形成表达

解决AI幻觉的主要思路

让我们先看看ChatGPT评论自己产生幻觉的底层机制,以及人类如何吸取教训,避免产生幻觉的内容:

尽管ChatGPT的幻觉可能不是人类幻觉的完美类比,但它们可以提供一些关于人类可能如何产生幻觉以及如何避免它们的见解。以下是一些观察:

不完整或模糊的信息:面对不完整或模糊的信息时,ChatGPT和人类都可能产生幻觉。大脑倾向于填补空白,有时会导致不准确的结论。为了避免这种情况,可以在做出判断或决策之前寻求更多信息或澄清。

确认偏误:与ChatGPT一样,人类容易受到确认偏误的影响,即倾向于偏爱证实预先存在信念的信息。为了尽量减少这种偏见,关键在于考虑替代解释,寻求多样化的观点,并在面对新证据时保持开放的心态,愿意改变自己的观点。

过度概括:ChatGPT可能会根据其接受的训练信息进行过度概括,这在人类中也是一种常见的认知错误。为了减少过度概括的可能性,重要的是考虑情况的具体细节,避免仅依赖过去的经验或刻板印象。

模式识别:ChatGPT和人类都容易检测到模式,即使它们不存在。这可能导致错误的联系和结论。为了避免这种情况,关键在于批判性地评估支持所感知模式的证据,并考虑替代解释。

上下文的影响:信息呈现的上下文对于如何解释它具有重要影响。ChatGPT和人类都可能受到信息框架的影响,导致偏见或不准确的结论。要减轻这种影响,关键在于了解上下文及其可能对自己的认知产生的影响。

总之,尽管ChatGPT的幻觉不是人类幻觉的直接呈现,但它们可以帮助了解人类可能遇到的一些潜在认知偏见和错误。通过认识到这些偏见并采取措施抵消它们,可以降低产生幻觉或得出不准确结论的可能性。

在业界内认为,解决AI幻觉的问题主要依赖于RLHF(Illustrating Reinforcement Learning from Human Feedback),即基于人工反馈的强化学习方法让其不断完善,俗称“炼丹”过程。

OpenAI 的联合创始人、首席科学家Ilya Sutskever,认为通过 RLHF,加上一些AI工具辅助提高 反馈效率,不断给模型“给我事实,不要胡说”的反馈,,最终可以很大程度解决这个问题。核心方法就是通过反馈改变大语言模型的思维习惯。在从人类反馈的强化学习中,我们关心输出的结果。每当输出结果不合适时或输出结果没有意义时,我们就告诉它不要再这样做了,可惜的是输出结果的水平并不在语言模型预训练过程中体现。他很有信心的认为,通过简单地改进这个后续的来自人类反馈的强化学习步骤,我们可以教会它不要幻想。

事实证明,如果RLHF训练不考虑有害性的话,模型的能力甚至会超过专业人员,所以自己“炼丹”开源模型的效果是可以很快上升的。以上问题,在GPT4中已经得到了明显的进步和解决,只要在RLHF可以取得与结果正确的正相关性,就代表这条路在目前看,仍然是正确的,且远没有走完。

如何解决Yann提到的多模态输入问题,ChatGPT获取领域知识以及联网协作的问题,后续再做专题讨论。


最后做个类比总结

我们把今天大语言模型可以比作父母的孩子(从ChatGPT面世算起,不过5个月大),我们无法改变孩子的基础基因,就好像我们无法直接改变LLM的脑回路一样。我们只能通过不断教育和观察,让自己家的孩子成长。好处是,我们可以让他吸收很多知识,一下子他开窍后,就掌握了语言能力,也形成像大人一样的像模像样的说话模式。

就如同我家四岁半的儿子,经常一套一套的大段讲话,看似有逻辑,其实不然。有次他说:“我姥爷为什么唱歌不好听?因为他在北京,唱北京的歌就不好听,如果他在安徽,他唱安徽的歌就会好听”,另外他也会讲他在幼儿园的事情,自己也会添油加醋一番,我也不确定那些事情是准确发生的。

所以ChatGPT对这个世界仍然缺乏认知,也缺少信仰,需要大人在后期的教育中加以引导。这种引导可以看作是RLHF,我们的学校教育也可以看成是至少连续十二年的 RLHF,才能让他成才。

但有时候太多的RLHF ,孩子对父母或学校教育的反馈过度在意,反而会伤害自己的创造力,是的大语言模型缺乏自己的推理能力。或者某种引导方式是有害,是方向错误的,也会把孩子带到相反的方向,训练出一只“怪物”。如果世界上只有这么一个孩子,且只靠OpenAI公司来教育,确实也是危险的。

另外有评估说,现在ChatGPT等于一个9岁的孩子。而我们却急于让9岁的孩子能够陪自己聊哲学问题,反而怪他不够深入,或者急于让他赶紧去企业打工挣钱,解决那些大人们多少年都无法解决的生产问题和协作问题,那也是我们对他的高估。

END

加入AIGC开放社区交流群

添加微信:13331022201 ,备注“职位信息&名字”

管理员审核后加入讨论群