共议ChatGPT数据安全与解决之道,多位专家给出意见

添加书签

专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!

南方新闻网消息,“数据安全,是否ChatGPT的阿喀琉斯之踵?”主题论坛在广州举办,专家学者围绕人工智能发展新时期的数据安全问题、挑战与对策展开了深入探讨。

华南师范大学计算机学院教授郝天永、中山大学智能工程学院副教授沈颖、广州熠数信息技术有限公司首席运营官蓝靖分别作了引导报告;华南农业大学数学与信息学院院长黄琼,华南师范大学教授郝天永,YOCSEF广州候任AC委员、广汽研究院张天豫,YOCSEF广州委员、华南理工大学副教授陈俊颖,广州大学网络空间安全学院教授苏申,YOCSEF广州候任主席龙锦益,YOCSEF广州往届主席谭台哲等专家学者展开了深度思辨。

抄袭创意、写木马病毒……ChatGPT带来新的安全挑战

ChatGPT是人工智能领域的一个新突破,给人们带来了诸多便利的同时,其数据安全问题也引起了社会关切。目前,ChatGPT产生了哪些数据安全问题?其根源又在何处?

黄琼教授认为,ChatGPT带来的数据安全问题有多个方面,一是数据内容安全,ChatGPT在一些问题的回答上可能带有双标性,针对不同主体(或国家)的同一个问题却可能生成不同的答案内容,对提问者可能产生误导。二是数据投毒攻击,如果提供给ChatGPT的训练数据带有倾向性,则其提供的答案也可能带有倾向性。三是数据泄露问题,当越来越多的企业和单位接入GPT服务,员工可能误用或滥用GPT服务,甚至将单位内部数据和敏感数据输入到人工智能平台,而当平台截留这些数据作为算法模型的语料时,就产生了数据泄露的风险。

郝天永教授指出,当算法模型的复杂性大到一定程度、数据的相互连通达到一定规模时,就会出现所谓的“智慧涌现”效应,从而使ChatGPT在诸多功能上呈现爆发式的增长和增强。但是,涌现会产生何种数据连接,以及与之伴生的知识产权问题,仍是一个广受关注的前沿新问题。黄栋也指出,ChatGPT可以说是海量数据的集大成者,但也可能成为海量数据的大抄手。对于音乐作品,模仿一段旋律可能就涉及抄袭,而对于人工智能模型所生成的文章、图像,其生成的作品要素可能来自于不同创作者的原创作品,人工智能内容生成模型可能也会带来无声无息的“创意窃取”问题,此时涉及的作品版权怎样判断、怎样规范也是新的挑战。

“ChatGPT等聊天机器人还会带来数据越狱等新问题,例如通过提示语注入等方式,引导人工智能模型去绕过其已有的伦理、道德或开发锁定的模式,甚至绕过相关政策法规的限制,将训练集核心数据和关键文档‘套取’出来。”蓝靖强调,此外,数据窃取问题也是一个新问题。当前一些小模型可能通过数据窃取技术从大模型中偷取数据,例如斯坦福大学发布的Alpaca模型,可通过175个种子任务,将其与ChatGPT等大模型平台互动过程得到的回答内容来构建其训练所需的数据集,以解决训练数据集这一人工智能模型的核心问题。

张天豫提出,数据霸权加剧的问题也是ChatGPT等人工智能大模型带来的“新症”。少数大公司拥有海量数据,享有数据霸权,在其产品抢占先机、与大量用户交互过程中产生了更为庞大的问答数据,则又加剧其数据霸权;虽然我国有不少企业拥有大量数据,但是距离微软、谷歌等世界级数据拥有者仍有很大差距。在当前数据基础条件及国际环境因素之下,国内企业如何突破这些限制,是一个值得深入探讨的新问题。

值得警醒的是,ChatGPT甚至可能成为网络黑客。YOCSEF广州委员、华南理工大学陈俊颖副教授指出,ChatGPT是数据生成者,甚至也可能成为工具生成者。ChatGPT已经可以写代码,以其迭代速度,或许在不远的将来,发钓鱼邮件、写木马病毒也将在(未来)ChatGPT能力范围内。网易公司开发工程师江东林也认为,现有ChatGPT功能已非常强大,若其发起网络攻击、发布虚假信息,如何界定法律责任将成为一大难题。

解决之道在何处?

ChatGPT的数据安全问题,解决之道在何处?ChatGPT与数据安全如何同行?

苏申教授认为,ChatGPT作为新生事物,与许多以前的新技术(互联网、移动电话)类似,其本身还有很多弱点。在新技术诞生之初,人们往往更关注其性能问题,然后才逐渐转向其安全问题。河源广工大协同创新研究院常务副院长谭台哲表示,对于ChatGPT应适当监管与推动发展两者并重。当新技术刚出现、新情况尚未摸透之时,政府部门可以用好现有的政策、技术工具,对新技术、新情况分门别类地进行监管。

龙锦益指出,人工智能的数据安全问题一直存在,政策、法律和法规常常跟不上技术的发展;而由于技术的快速发展,从特定阶段“跟不上”到逐步“跟上去”一定程度也是其必然发展规律。除了政策法律法规之外,个人和企业也应遵守基本道德和底线,对于高校人才培养来说,加强工程伦理教育以及更具体的人工智能伦理教育,也非常有必要。

蓝靖也认为,人工智能模型的数据安全问题由来已久,而ChatGPT的迅速兴起则将一些既有问题放大、暴露出来。数据安全问题,可能是人工智能发展过程遇到的绊路石之一。政府、企业、个人等各方都应提高数据安全意识,筑好数据安全屏障,这样才能更好地避免其对人工智能产业发展的阻碍。

“除了数据安全问题,ChatGPT等人工智能模型还有很多其他问题。我们不可将之扼杀,而是要做好监管,在适当监管下推动其发展。”谭台哲表示,对于ChatGPT的数据安全问题,以至于数据霸权和自主可控等问题,我国应该高度重视并制定相应对策。同时,应加强对“人”的事前宣传教育和事后可追责,并加强人工智能新技术的专业人才培养。

广州熠数信息技术有限公司首席执行官陈杨轲指出,“ChatGPT等人工智能模型归根到底是一个工具,可以用,但需要监管。当前已有《数据安全法》《个人信息保护法》,近期国家也建立了国家数据局,表明国家在机构设置与法律法规等方面已有布局,正在紧跟新技术的发展。ChatGPT与数据安全未来可以同行,也必然同行。”

黄栋强调,ChatGPT的数据安全问题,一方面应在人工智能技术发展与安全之间找到平衡之处,监管过紧可能限制甚至扼杀新技术的发展,监管过松则可能使得新技术被滥用;另一方面也涉及个人、企业、政府的三方博弈,而在此过程中,个人端与企业端都有其自发性,政府及政策法规则是非常重要的调节力量。“怎样找到人工智能发展与数据安全的平衡区域,找好个人、企业、政府的角色与定位,亦非常考验监管智慧。”

针对人工智能模型的不可解释性和数据投毒(数据带有倾向性)问题,现场专家认为,我国应着重提高技术的自主可控性。华南农业大学数学与信息学院李宏博博士指出,ChatGPT的不少数据安全风险(数据投毒、数据出境)一定程度因其源自国外、不可控。中国企业也应发展自己的“ChatGPT”, 模型规模可以小一些,亦可针对特定应用领域,不一定在性能上相匹敌,但要有、可用。除技术自主可控之外,谭台哲进一步提出“数据自主可控”问题,具体涉及模型训练数据和用户交互数据的本地化。

本文来源南方新闻网,如有侵权请联系删除

END

加入AIGC开放社区交流群

添加微信:13331022201 ,备注“职位信息&名字”

管理员审核后加入讨论群