专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注!
本文整理自7月7日世界人工智能大会“AI生成与垂直大语言模型的无限魅力”论坛上上海市数据科学重点实验室主任,复旦大学教授肖仰华《《面向领域应用的大模型关键技术》》的主题分享。
当ChatGPT之类的生成式大模型呈现出较强的通用智能能力之后,产业界的关注点较多地落在了千行百业。大模型只有在实体型的千行百业落地取得效果才能凸显其价值。ChatGPT之类的大模型均是用通用语料训练而成,具备通识能力。
那么自然就会遇到一些有意思的问题,为何千行百业的垂直领域需要通用大模型?当前的通用大模型是否就已经能够胜任垂直领域的复杂任务?通用大模型需要如何优化才能胜任领域中的复杂任务。本报告对这些问题做初步回答。
首先,通用生成式大模型所带来的开放世界理解能力是至关重要的。这种能力使得大模型能够对各种开放环境中的自然语言问题都有着一定程度的理解,在大多数情况下能够提供准确答案。尽管当前的生成式大模型在生成答案时可能存在一些事实或逻辑上的错误。
但总体而言,其生成的内容不会偏离问题的主题,对于通识问题能够进行准确回答。这种开放世界问题理解能力对于垂域领域认知的实现至关重要。ChatGPT之前的AI实现思路倾向于认为只有让其学会大多数垂域的能力,才能实现开放世界的通识理解能力。
或者说,如果垂域认知都无法实现,实现通用认知则更加困难。然而,ChatGPT出现之后,证明了先炼制通用大模型塑造机器的通识能力,再经垂直领域数据的持续训练练就垂域认知能力,是一条更为可行的落地路径。
事实上,将机器的垂域认知能力建立在通用认知能力基础之上是必然的、是合理的。一个医生如不理解“健康”,怎么可能真正理解 “疾病”。也就是说理解某个概念,不单单要理解这个概念自身的内涵与外延,更要理解概念之外的内涵与外延。
所以,理解领域内,就包括理解领域外,传统所谓的“垂域认知”本质上是个伪命题。这种“先通识、再专识”的智能实现路径与人类的教育过程极为相似。我们人类的教育,首先是侧重通识教育的基础教育,才是侧重专业知识的高等教育。生成式大模型的发展刷新了我们对领域认知智能实现路径的认识,这是大模型技术发展带来的重要启发之一。
大模型除了开放世界的理解能力之外,还具有很多其他能力特性,在领域应用中尤为值得关注:
通过在训练阶段引导大模型学习多个不同任务,从而可以让大模型组合创造出解决更多复合任务的能力。例如,我们可以让大模型根据李清照的诗词风格写一个Python代码的注释,这要求它既具备写诗的能力,又具备编写代码的能力。大模型通过对指令学习的结果进行组合泛化,模拟了人类举一反三的能力,从而让机器能够胜任一些从未学习过的新任务。
通用大模型具有出色的。具有一定规模的大模型(特别是百亿以上的大模型)在常见的文本任务结果评估方面具有优良性能。传统的文本任务,其结果评估工作往往需要人工参与,耗费昂贵的人力成本。而现在,我们可以利用大模型进行很多评估任务。例如,我们可以让大模型扮演一个翻译专家的角色,对翻译质量进行评估。通过设计合理的评价标准、给出有效的评分示例、给出翻译专家评价过程思维链,巨型大模型(比如GPT4)是能够出色的完成诸如习语翻译这类非常专业的评价工作。大模型的评价能力能够显著领域任务中的人工评价的成本,从而显著降低领域智能化解决的方案的落地成本。
复杂指令理解及其执行能力是大模型的核心特点之一。只需给予大模型详细的指令,清晰表达任务约束或规范,超大模型就能够按指令要求地完成任务。这种忠实于指令要求的能力与大模型的情境化生成能力高度相关。给定合理提示,且提示越是丰富、细致,大模型往往越能生成高质量内容。大模型的情景化生成能力刷新了我们对智能本质的认识,传统关联认为智能是人类的知识发现和应用能力。这类定义是从人类视角出发,知识是人类认知世界的产物。而从大模型的角度来看,只要在给予的情境提示做出合理生成,就是一种智能。这种情景化生成能力本质上体现了一种建模世界的能力,且无关于人类对于世界的认知方式。
复杂任务的分解能力和规划能力是大模型的另一项优势。它可以将复杂任务分解为多个步骤,并合理规划任务的执行顺序。这为垂域应用提供了重要的机会,使得大模型能够与传统信息系统协同工作,将传统IT系统中数据库、知识库、办公自动化系统、代码库等众多系统高效协同,完成以往传统智能系统难以胜任的复杂决策任务,从而提升整个信息系统的智能水平。
此外,大模型还具备符号推理能力,可以进行常识推理、以及一定程度的逻辑推理、数值推理。虽然这些推理能力在面对复杂的领域文本任务时仍需进一步提升其专业水平。此外,价值观对齐能力也是大模型落地的重要特性,以确保大模型的输出与我们人类谁的伦理道德、意识形态、价值观念相一致。
总而言之,通用大模型作具备开放世界的理解能力、组合创新能力、评估能力、忠实的指令理解和执行能力、复杂任务的分解和规划能力、符号推理能力以及与价值观对齐能力性。这些优点使得大模型成为了为人工智能的新基座。
也就是说任何应用接入大模型,均可以享受其所到来的智能能力。大模型也日益成为智能化应用生态中的核心部件,控制与协调各个传统信息系统,带动信息系统智能水平的整体性提升。
对于通用大模型是否已经能够胜任垂域任务,需要审慎评估。目前的判断是,大模型还无法直接胜任各领域复杂决策任务。因此,在企业服务市场,我们既要重视大模型给我们带来的重大机遇,也要保持冷静,对ChatGPT能做什么不能做什么保持谨慎态度。要意识到,我们仍需开展大量研究工作才能将ChatGPT应用落地。
ChatGPT这类大模型在开放环境下的人机对话或闲聊已经取得显著效果,但其解决实际工作中的复杂决策任务存在差距。我们在垂直领域的大部分任务是复杂决策任务。例如,设备故障排查、疾病诊断、投资决策……等任务都属于严肃的复杂决策场景。所谓“严肃”是指这些任务对于错误有着较低的容忍度。上述场景的任一错误都会带来巨大损失与难以接受的代价。这些任务也是“复杂”的,需要丰富的专业知识、复杂的决策逻辑、宏观态势的判断能力(例如股票市场的宏观态势)。还需要拥有综合任务的拆解与规划能力,比如将故障排查分解成若干步骤;需要复杂约束下做出取舍的能力,例如投资决策往往要多众多约束进行权衡与取舍。还需要具备未见事物的预见能力和在不确定场景下进行推理和推断的能力,因为我们现实环境发展快速往往超出我们预期,我们往往要在对信息不完全的情况下就要做出及时的决策。
复杂决策任务
举个例子来说,让机器“调研知识工场实验室最近发表的大模型持续学习的论文”,这看似一个简单的任务,实则需要使用上述各类复杂决策能力。例如,要了解知识工场实验室是一个什么样的团队、有哪些成员,需要了解大模型持续学习的内涵,需要具备AI领域的专业知识。同时,还需要知道如何查找论文资源(比如我们都知道计算机领域的前沿论文往往可以从Arxiv网站上下载),下载论文时可能会遇到一些未预料到的问题(例如网络访问出现404、出现验证码等情况)。我自己实验室的本科生、硕士生显然能够完成上述任务。但是,当前的大模型还难以完成整套流程中的工作,还需要针对性地提升大模型自身的能力,还需要从外围不足大模型的先天不足。
总体而言,大模型在领域知识方面仍然相对匮乏。通用大模型具备宽广的知识底座,具有宽度有余但深度不足。然而,在解决实际问题时,例如运维问题,如果没有设备相关的知识,是无法胜任运维任务的。因此,大模型需要具备专业知识的深度和长程推理的能力,才能在垂直领域落地应用。
宽广的知识底座
另一个无法回避的问题是大模型的”幻觉”问题,即一本正经地胡说八道问题。当我们询问复旦大学的校训时,大模型可能会很有条理地编造出看似严谨的回答。但仔细查证,你会发现在一些基本事实(比如它编造了复旦校训的出处),大模型的回答容易出错。大模型以“一本正经”的文字风格编造答案的现象,将会为其应用带来巨大困扰。因为看似严谨的回答往往藏着一些基本事实错误,我们在应用时仍然要付诸极大的代价进行信息真伪的判断。这实质上反而带来了大模型应用的额外成本。大模型的幻觉问题,其自身经过优化之后能够解决么?比如使用更多的训练数据,更充分算力的训练。理论上ChatGPT这类大模型是概率化的生成式大模型,仍然会以一定概率犯错。某种意义上,幻觉是大模型的创造力所必须付出的代价,鱼和熊掌难以兼得。因此,幻觉问题是大模型落地垂域应用不可避免的问题。
大模型的”幻觉”问题
此外,大模型缺乏对于给定信息的”忠实度”。在领域任务中,我们需要大模型遵循特定领域的规范、制度、流程和知识进行回答。然而,如果没有进行适当的调优,大模型往往会抛开给定的文档或信息,而倾向于利用已习得的通用知识进行自由发挥。飘逸的创造发挥与忠实的事实陈述是一对难以调和的矛盾。对于一个给定的问题,是用通识回答还是用专识回答。我们人类对于问题的知识适配,往往是直觉方式完成的,但是要让机器在通识和专识之间的灵活协同是十分困难的。虽然巨型大模型(比如GPT4)能在一定程度上缓解大模型忠实度缺乏的问题,但是即便进行过微调和优化,大模型的答案仍然有可能超越给定的范围,从而产生错误。这是当前通用大模型面临的一个重大问题。
信息的”忠实度”
因此,我的基本判断是仅仅依靠现有的通用大模型是不足以解决各行业领域的许多问题的。我们需要发展垂域大模型,并积极发展外围插件,实施大模型和知识图谱、传统知识库相结合的策略,缓解大模型的自身问题,提升大模型的落地效果。
通用大模型向特定领域应用,仍需大量优化,才能从“不作诗、只做事”,才能从一个知识容器变成解决问题的利器,才能释放大模型的巨大潜力。我相信达观数据的”曹植”模型也在做类似优化。我将以我实验室自己的大模型KW-CuteGPT面向领域优化过程作为例子,向大家介绍大模型胜任垂域任务的路径。存在两个基本优化的路径,一是大模型自身的优化,二是大模型与外围技术的协同。
先讨论大模型自身能力如何优化。首先是提升大模型对长文本的理解能力。比如,用大模型做对客服通话记录进行总结是一个很常见的应用场景,很多客户经常花了五六分钟,通过冗长对话记录,才能表达自己的意图。而其中可能只包含一两个重要的信息点。用大模型进行对话的摘要,需要支持长文本的理解能力。
当前已经商用的一些大模型,如GPT-4,已经能够支持最长32K的输入长度,相当于上万字,是非常了不起的能力。然而,大多数开源模型只支持2-4K的输入长度,在长文本的理解能力方面仍存在不足。因此,在发展垂域大模型的过程中,首要的任务就是提升长文本输入的理解与处理能力。长文本之所以具有挑战性,是因为其中存在全局语义约束,许多语义约束涉及多个句子甚至多个段落,让大模型理解这种全局上下文仍是巨大挑战。
提升长文本理解能力
其次,我们需要进一步提升大模型求解复杂任务的规划和协同能力。这里同样给出一个问答系统中的真实案例,我们常常面临一个困惑:对于某个自然语言问题,是应该调用知识图谱的知识来回答,还是让大模型来回答?我们希望大模型能够自主决策、规划,判断是否需要使用外部知识,并决定需要使用哪些外部知识。对于不同来源或不同类型的知识,可以通过API调用获取其知识。这就进一步需要让大模型理解API以及相应的使用规则、调用关系、参数配置以及输入输出格式等,从而实现达模型其与外部知识库工具的协同。然而,客观来说,大模型的外部工具林林种种,工具所处的环境也是非常复杂,必须不断进行优化大模型的规模与协同能力,才能确保大模型在协同各种工具完成复杂任务是取得理想效果。
复杂任务的规划和协同能力
第三,还需要进一步优化文本的结构化解释和风格样式。在实际应用中,用户对样式有特定要求,需要大模型能够理解并及时响应对输出格式的调整。行业复杂抽取仍然面临着很大的需求。过去,我们通常需要在提示中提供行业背景信息(比如领域Schema),大模型才能够抽取出关键要素。经过优化之后,大模型在各个领域的背景理解能力大幅提升,可以自适应地对各个领域的背景进行理解,而无需依赖于特定的行业背景提示,能够将专业性较强的文本进行结构化分析和拆解。
优化文本的结构化解释和风格样式
第四,要持续提升大模型的问答领域问题的能力,包括不兜圈子直接回答、忠实于给定文档的回答以及坚定正确信念等能力。通用大模型在问答过程中容易出现绕圈子、和稀泥式样的回答。在与大模型对话的过程中,它很可能会回复“我是一个大模型,我的回答仅供参考……”,不愿意给出具有明确判断性质的答案(主要是通用模型出于安全、免责的初衷),让你困惑了半天却无法获得想要的答案。垂域应用中,我们不希望它绕圈子,我们希望它能直接给出答案,才能辅助我们实现决策。同时,我们要求大模型在给定文档的基础上生成答案时,不要超出给定的内容范围。
它必须结合给定的内容和自身的语言生成能力,给出一个合理的答案,而不是自行发挥。在垂域应用中,我们不希望大模型随意发挥,它需要忠实于所涉领域。另外,要提升大模型对于正确信念的坚持能力。信念不坚定的模型会出现“墙头草”式的回答,即没有明确立场,你告诉它”你错了”,它立即改口,你说”2+2=4″是错误的,它会说”是的,我错了,2+2应该等于5″。信念过于坚定的大模型又会出现“死鸭子嘴硬”的问题,即明确提示它回答错误了,但它仍然坚持不改。这两种情况都是错误的。在垂域的应用中,我们希望大模型能够意识到自己的错误,既不动摇自己的正确信念,又能够避免死鸭子嘴硬式的知错不改问题。
提升大模型的问答领域问题的能力
从大模型与外围技术的协同角度来看,首先还需要进一步优化大模型的诊断和应用评测。知识工场实验室最近发布了几个跨学科的评测体系,这些评测体系旨在从大模型训练过程的诊断以及大模型的应用效果两个角度进行评测。目前许多评测都是以应用效果为导向,但实际上,面向诊断的评测也十分重要。我们需要建立训练大模型所需的数据集的评测基准,需要通过评测建立大模型训练过程中的关键参数、模型架构、数据配比的最佳实践体系。此外,大模型的评测应该从当前最求标准评测数据集上的“高分”的单一目标发展到兼顾解决实际问题的“高能”的双重目标。这意味着评测不仅仅关注各类侧重考察知识点掌握能力的考题评测,更要关注大模型解决实际复杂的决策问题的能力。面向“高分高能”的大模型评测体系,是大模型评测主要发展方向。
优化大模型的诊断和应用评测
另外,还要进一步提升大模型的数据治理能力。大模型在实际应用中表现出的很多问题,比如答案偏见、隐私泄露、版权侵犯、内容违规、错误观念等等,最终均可以归结到数据源头的问题。当前的主流思路仍然是大模型能力炼制之后的事后优化。这里需要指出的是,事后优化难以从源头上解决大模型的上述问题。比如大模型的隐私泄露、版权侵犯、意识形态错误,我们无法在结果层面百分百地保证其相应安全性。大模型仍然存在一定的犯错概率,或者是难以预料的犯错情形,从而造成违背相关法律规范,带来难以弥补的影响。因此,必须从数据源头加强数据治理,开展数据清洗、隐私识别、样本纠偏、违规内容清洗等的工作。有关部门应积极推动大模型训练数据集的标准与规范,进行大模型训练数据集的合规性认证,从数据源头保障大模型产业的健康发展。
提升大模型的数据治理能力
总而言之,目前国产大模型研发中的主要问题仍然在于缺乏数据治理系统与能力、评测偏离应用需求。加大这两个方面的研究力度,推动这两个问题的解决,是近期推动我国大模型产业向好发展的关键举措。
最后,仍然强调一下,通用大模型绝不能停留在类ChatGPT的开放式聊天阶段,必须尽快提升其解决实际问题的能力,引导大模型发展成为助力我国各行业高质量发展与数字化转型的先进生产力。
肖仰华,上海市数据科学重点实验室主任,复旦大学教授、博导,复旦大学知识工场实验室负责人、复旦-爱数认知智能联合研究中心主任。
本文来源达观数据,如有侵权请联系删除
END