【前言】
ChatGPT热度持续飙升,它的出现刷新了公众对聊天机器人的认知,也再次引发了人类对人工智能的无限遐想和担忧:科幻电影中的人工智能即将走入现实了吗?AI技术的进一步普及将会给哪些行业带来颠覆?
在此背景下,南方都市报推出了“上岗了!AI”系列专题,以线上沙龙、人物访谈、案例解读、智库报告等形式展开报道,聚焦于人工智能技术在经济和社会领域的创新应用。本期沙龙聚焦探讨ChatGPT在全球火爆背后的原因,有哪些技术积累和创新之处?这款产品引发上亿消费者试用的同时,又会掀起怎么样的风险?(观看沙龙回放)
(资料图片)
【本期嘉宾】
李志飞:“出门问问”创始人兼CEO,美国约翰霍普金斯大学计算机系博士,前Google总部科学家
金小刚:浙江大学计算机科学与技术学院教授
彭煦潭:英国谢菲尔德大学博士
ChatGPT:美国OpenAI研发的聊天机器人
技术的厚积薄发:并非技术角度突破
帮助大学生写出高分论文、编写代码、通过Google程序员考试,过去两个多月里ChatGPT创造的“传奇”在全球引发前所未有的关注度。
据瑞士银行集团分析师团队发布的报告,自去年11月底发布以来,ChatGPT上线仅5天注册用户数就突破100万,今年2月的月活跃用户已经突破了1亿,速度远快于TikTok或Instagram。“在互联网领域发展的20年里,我们想象不到有哪个互联网应用发展得(比ChatGPT)更快。”
谈及ChatGPT的爆火,专注自然语言处理研究的彭煦潭博士认为,从技术角度来说,ChatGPT本身使用到的技术在过去5年已被业界反复验证,并不存在非常大的突破,“只能说OpenAI五年的厚积为现在的爆火打下了基础,OpenAI在非常早期就开始在生成式AI或者说AIGC上面投入了大量的精力,它所积累的模型规模已经把竞争对手甩在身后。”
资料显示,OpenAI是一家由Sam Altman 、Greg Brockman、Ilya Sutskever、Wojciech Zaremba和Elon Musk等人在2015年联合创办的人工智能研究机构,其出发点是为了防止Google垄断AI技术。2018 年,马斯克辞去了OpenAI 董事会的职务,原因是他与正在开发人工智能技术的公司 Tesla 和 SpaceX 未来可能发生(利益)冲突。2019 年 7 月,重组后的 OpenAI 新公司获得了微软的10亿美元投资。
回顾2018年OpenAI宣布1.17亿参数的GPT-1的诞生,标志着OpenAI与Google之间AI竞赛的正式开始。2018年-2020年间,面对Google 2018年推出的3亿参数的BERT(Bidirectional Encoder Representation from Transformers)和2019年10月发布的110亿参数的T5(Transfer Text-to-Text Transformer)等创新模型,OpenAI不断坚持GPT(Generative Pre-trained Transformer ,生成式预训练变换器) 模型进化,直至2020年1750亿参数的GPT-3的发布,引发学术圈的热议。
ChatGPT是在GPT -3.5大规模语言模型的基础上诞生,被视为在GPT-4正式推出前的演练。
“ChatGPT 是一个基于统计的语言模型,通过千亿级参数的训练,拥有可以快速学会各种任务的能力。ChatGPT 不仅在语言表达、回答知识性的问题、多轮对话的上下文逻辑等方面表现超出所有人的期望,还可以编程、做算术题、写诗,甚至比真人做得都要好。ChatGPT的技术创新点包括基于人类反馈的强化学习(RLHF)、指令微调(Instruction Tuning)、代码训练(Codex)。”出门问问创始人兼CEO李志飞称,从2017年Transformer的诞生,使训练大模型成为可能;到2020年OpenAI发布GPT-3,让人们看到通往更加通用的人工智能的可能性;再到2022年性能更加强大的ChatGPT的出现,生成式AI愈加成熟。
李志飞,出门问问创始人兼CEO。图片受访者提供
落地模式创新:“赔钱赚吆喝”
从GPT1.0到GOT3.0,再到目前ChatGPT所使用的的GPT3.5 , 在过去5年的时间,OpenAI投入了大量的人力、财力、算力,将其模型规模积累壮大。
但模型的积累并不是ChatGPT爆火的关键原因。彭煦潭博士和金小刚教授均强调,ChatGPT“成功落地的商业模式”在其全球火爆中的重要性,而出圈的ChatGPT与未出圈的GPT3.0是最好的对比例子。
为何2020年推出的GPT3.0没有像ChatGPT一般在社会公众圈引发热议?彭煦潭将其原因归为两点:对话的交互形式和免费提供的服务。
英国谢菲尔德大学博士彭煦潭。图片受访者提供
“对比GPT3.0以可接入API的形式发布,OpenAI在ChatGPT上选择让产品落地化,以对话这种最符合人类直觉的交互方式,这降低了使用门槛使得普通大众也能够参与体验。”彭煦潭称,同时,ChatGPT以“赔钱赚吆喝”的模式,将这项成本极高的服务免费开放给公众使用。“不火简直没有天理”,彭煦潭感叹道。
李志飞同样指出,ChatGPT凸显了AIGC的商业模式创新,“在AIGC之前,绝大多数AI公司的商业模式都是偏ToB项目制,难以复制和规模化,人力成本高,且商业壁垒低。而AIGC让AI公司为更多中小型企业甚至个人提供一种工具,可规模化地降本增效,为AI行业带来一种全新的可能性和商业模式。从AI绘画爆火到ChatGPT横空出世,全世界看到了AIGC 的强大。”
新型风险涌现:高科技剽窃、虚构答案等
在迅速走红的两个月里,ChatGPT也带来了诸多风险。首先是学术界和教育界对于ChatGPT可能带来的“学术不端”现象表示关注与担忧。ChatGPT超强的知识聚合能力一定程度上跟抄袭、洗稿、作弊问题挂钩,会给现有的学术诚信体系造成混乱,未来学术不端现象可能频发。
如美国语言学家诺姆·乔姆斯基认为,ChatGPT是一个高科技剽窃系统,从海量数据中发现规律,并依照规则将数据串连在一起,形成像人写的文章和内容。在教育界,已经引发了“ChatGPT让剽窃变得更加容易”的担忧。
同时,多家著名学术期刊也加强了对ChatGPT等人工智能技术的使用限制。《科学》明确禁止将ChatGPT列为合著者,且不允许在论文中使用ChatGPT所生产的文本;《自然》则表示,可以在论文中使用大型语言模型生成的文本,其中也包含ChatGPT,但不能将其列为论文合著者;2月10日,《暨南学报(哲学社会科学版)》发布声明,表示暂不接受任何大型语言模型工具(例如:ChatGPT)单独或联合署名的文章,如有使用相关工具或引用其创作的文章,需要进行详细解释;2月11日,《天津师范大学学报(基础教育版)》发布的声明提出,建议对使用人工智能写作工具的情况予以说明。
其次是ChatGPT生成的内容在真实性方面无法保障。如在与南都记者的对话中,ChatGPT声称自己开放接口和API的提供,“OpenAI为ChatGPT提供了开放的API接口,方便开发者进行二次开发,从而更好的实现其在实际应用中的价值。”事实上,OpenAI并没有向开发者开放提供官方的API接口。
“ChatGPT目前存在着一个很大的局限性,就是会把一些不符合事实的内容,以一本正经的方式告诉你”,彭煦潭称,原因在于ChatGPT本身是一个固态的语言模型,在它的训练数据确定的一刹那,它所拥有的知识边界就已经划分和确定下来了。
能力的缺陷也会带来一定的道德风险。金小刚教授在沙龙中指出ChatGPT在数据训练过程中可能会带来隐私问题和人为偏见问题,尤其是在接受数据训练时人类自带的无意识偏见会对AI造成较大影响,而这种影响也会体现在它为人类提供的指导方案中。“ChatGPT在理解力和整个知识面上无疑是超越了现有的对话机器人,但它的缺点是对知识的真伪不做区分,也没法区分。什么是智能?综合知识的能力只是一方面,还有一部分是超越现有框架去探索未知的能力,而这些ChatGPT并不具备。”金小刚在沙龙中表示。
李志飞则指出ChatGPT目前更像是一款高科技玩具,而非工具。“就OpenAI的ChatGPT来说,目前还没有太清晰的商业模式,更像一个玩具,而非工具。首先,在技术层面,ChatGPT本身并非基于真正的基础数据库、知识结构,ChatGPT依旧会无中生有,虚构或编造答案。另外,在道德伦理和法规层面,它最大的弱点是会生成虚假的、有害的、不存在的回答,这些都蕴含着巨大的风险问题。”李志飞同样指出。
对于自身的短板和风险,ChatGPT也颇有“自知之明”,在与南都记者的对话中,ChatGPT列出四个自身的局限性,“准确性方面:ChatGPT 在生成的内容中可能存在错误,尤其是当内容涉及到敏感或复杂的领域时。真实性方面:ChatGPT 生成的内容可能不够真实,因为它只是通过预先学习的数据生成的,不能代表真实的人类意见。创造性方面:ChatGPT 无法创造新的想法和思想,只能根据学习的数据生成内容。道德和法律方面:ChatGPT 生成的内容可能存在道德和法律问题,因此使用者需要对其进行审查和负责。因此,在使用 ChatGPT 时,需要谨慎评估它的适用性,并对生成的内容进行适当的审查和处理。”
南都记者追问具体有哪些法律风险时,ChatGPT 的回答为,“知识产权侵权:ChatGPT 生成的内容可能侵犯他人的知识产权,例如版权、商标、专利等。不当恶评:ChatGPT 生成的内容可能存在不当恶评或诽谤他人的情况,与当事人的名誉权等利益相抵触。不正当竞争:ChatGPT 生成的内容可能存在不正当竞争行为,例如误导消费者等。信息安全:使用 ChatGPT 的过程中,可能涉及到个人信息的处理,这可能存在信息泄露等安全风险。因此,在使用 ChatGPT 时,使用者需要对其使用范围和方式进行适当限制,以防止可能存在的法律风险。”
此外,彭煦潭更加关注ChatGPT生成代码所带来的系统风险,“如果对ChatGPT生成代码中插入无关内容则可能对计算机系统造成伤害,而黑客们可以利用这一点进行攻击”。
事实上,已有攻击者已开始利用ChatGPT编写恶意代码。在一篇题为 “ChatGPT —恶意软件的好处”的帖子中,作者说他们正在用 ChatGPT 进行实验,以重新创建常见的恶意软件和技术。虽然目前所展示的还比较初级,但这只是一个时间问题。
“如同其他人工智能模型一样,ChatGPT是把双刃剑,既可以是提升效率的工具,解答人们的各种问题、创造出大学水平论文,甚至编写代码。同时也可能被绕过安全机制,用于实施有害的活动。比如,对网络安全行业来说,既可以用来编写网络钓鱼、生成恶意软件、开展社工攻击,也成为网络防御者的有力工具。”虎符智库研究员李建平回复南都记者称,目前网络犯罪分子使用 ChatGPT 造成的“最紧迫和常见的威胁”主要包括网络钓鱼、社会工程和恶意软件开发。
出品:南都政商数据新闻部
采写:南都记者 马宁宁 实习生 张海若