https://www.digitalistpapers.com/vol2/bengio
作者:Yoshua Bengio
加拿大蒙特利尔大学教授,蒙特利尔学习算法研究所(Mila)的科学主任。Mila 现在是世界上最大的深度学习学术研究中心之一。与 Geoffrey Hinton 和 Yann LeCun 并称为“深度学习三巨头”或“人工智能教父”。三人因在深度神经网络领域的开创性工作,共同获得了2018年的图灵奖(被誉为“计算领域的诺贝尔奖”)。
在这篇文章中,Yoshua Bengio 认为,变革性人工智能创造了三类新的灾难性风险——弱势行为体造成的破坏性混乱、强势行为体的权力集中、以及人类失去对失控人工智能的控制。他解释说,只有认识到这些风险的全球性,并将变革性人工智能作为一种全球公共品来管理,我们的社会才能在未来与这项技术共同繁荣。[1]
一、引言
近年来,人工智能系统的能力稳步提升,这导致许多顶尖人工智能研究人员修正了他们对于何时可能实现人类水平的广泛认知能力的估计。过去被认为需要几十年甚至几个世纪才能实现的人类水平人工智能,现在许多专家认为可能在短短几年内就能实现。[2] 值得注意的是,前沿模型在规划和推理方面取得了实质性进展——这两点长期以来被认为是人工智能的弱点——如果当前趋势持续下去,这些能力可能在当前十年结束前达到人类水平。[3]
智能赋予其控制者权力。达到人类水平及更高水平的先进人工智能系统将赋予巨大的权力,可能带来巨大的全球利益,也可能造成灾难性的大规模后果,这取决于人工智能被应用于何种目标。科学证据表明,人工智能的失调行为(包括撒谎、作弊、欺骗、操纵,以及也许最令人担忧的,自我保存倾向)呈现出明显的上升趋势。[4] 虽然我们无法确定人工智能能力进步的确切轨迹,但这些趋势表明我们有充分的理由感到担忧。如果能力趋势持续下去,这将为本文研究的三大类灾难性风险打开大门:弱势行为体造成的破坏性混乱、强势行为体手中的权力集中,以及人类失去对失控人工智能的控制。
不幸的是,我们的社会还没有准备好面对先进人工智能可能带来的不利后果。当前的人工智能研发主要由企业和国家之间的竞争力量驱动,同时伴随着一种信念,即谁赢得这场比赛,谁就将获得巨大的经济、政治和军事优势。这种动态可能导致忽视关键的安全和伦理考量,同时也会带来这样的风险:财富和权力变得过度集中且缺乏问责,或者少数个体可能造成严重的大规模伤害。
“不幸的是,我们的社会还没有准备好面对先进人工智能可能带来的不利后果。”
然而,开发安全、有益、先进的人工智能可以被视为一种全球公共品。根据定义,公共品具有非竞争性(一个人的使用不会减少另一个人的使用)和非排他性(很难阻止人们使用它们)。这意味着市场通常会系统性地缺乏公共品的供应,因为自利的个体和实体有很强的动机去”搭便车”。[5] 尤其是,全球公共品跨越国界,导致不同行为体在应对潜在风险以及平等获益方面的能力差异更大。如果不能通过合作进行管理,全球公共品固有的复杂性可能导致一种局面:没有一个国家在采取——甚至能够采取——必要的行动来确保全球利益并防止灾难性后果。
这种竞争困境提出了一个关键问题:是否存在可行的替代方案来规避当前这场”竞相逐底”的竞赛?在这篇文章中,我将探讨一条更安全的道路,在这条道路上,先进人工智能被作为一种全球公共品来管理。
二、趋势、不确定性与预防原则
人工智能系统现在正在掌握200种语言[6],并通过各个学科[7]的大学水平考试——这些里程碑直到最近还被认为是高度推测性的,但现在已有充分记录,并在当今的前沿人工智能聊天机器人中得到亲眼见证。正如《2025年国际人工智能安全报告》所记载的那样,人工智能的能力稳步提升。[8] 更令人担忧的是,人工智能在说服[9]、欺骗[10]方面的能力不断增强,以及观察到的自我保存行为[11]的案例,其中人工智能明显违背我们的道德指令[12],例如,为了获胜而作弊[13]或诉诸勒索[14]以避免被新版本取代。这些行为通常是在为研究它们而设计的受控环境中观察到的,例如,向人工智能暗示它即将被新版本取代。当前的人工智能在规划能力方面仍达不到人类水平,这使得这些版本不太可能构成直接的灾难性威胁。然而,根据编程任务的衡量以及人类完成任务所需的时间,人工智能的规划能力一直以指数级速度增长,人工智能可完成的任务持续时间每七个月翻一番[15],如果这一趋势持续下去,大约在2030年左右将达到人类水平。随着人工智能由于规划能力的提高而变得更善于制定策略,前面描述的欺骗和自我保存倾向可能会迅速变得更加成问题。
“当前的人工智能在规划能力方面仍达不到人类水平,这使得这些版本不太可能构成直接的灾难性威胁。”
无法保证这些趋势会持续下去。未来人工智能发展存在多种可能的情景,人工智能研究人员对时间线的看法往往存在分歧。[16] 例如,被称作通用人工智能的、在所有领域都达到人类水平的认知能力,预计将在几年或几十年内出现。[17] 超级智能——超越所有人类能力——可能仅仅在几年后就会出现。[18] 事实上,我们可能已经足够先进,达到了”变革性人工智能”的水平,这意味着其社会影响达到了工业革命或农业革命的规模。人工智能已经在多个领域大大超越了许多人类——例如,通用知识、写作、文本修正与合成、广泛的科学知识、多语言能力,以及蛋白质折叠等专业能力——同时在规划、推理、身体控制、长期记忆、逻辑一致性和事实准确性等其他方面则明显逊色。这种认知能力分布不均的情况很可能会持续下去,而不会出现一个明确的通用人工智能时刻。对政策制定者来说,重要的是能够持续洞察具有特定高风险能力的人工智能的出现——例如,可用于设计高度破坏性武器(尤其是生物武器)的知识、有效说服和欺骗的能力,或者进行高影响网络攻击的能力。政策制定者必须考虑这些能力以及人工智能失调的目标是否可能导致灾难性后果,正如2025年4月发布的《AI 2027情景》报告所概述的那样。[19]
我们面临着一个明确需要应用预防原则[20]的情况:尽管这些情景的概率存在不确定性和争议[22],但仍存在严重的风险——根据许多专家的说法,风险甚至高达人类灭绝[21]。该原则逻辑上要求在这种情况下采取极度谨慎的态度。应用这种谨慎意味着,分配给人工智能安全的资源必须与关乎人类存续的风险相称。[23] 这有充分的先例:预防原则此前已在其他科学领域得到应用,例如生物学,特别是在”功能获得”研究方面。
“就人工智能而言,对潜在价值数万亿美元的巨额财富[24]以及经济、政治和军事权力的渴望,与对他人将人工智能用于对抗目的恐惧交织在一起。”
就人工智能而言,对潜在价值数万亿美元的巨额财富[24]以及经济、政治和军事权力的渴望,与对他人将人工智能用于对抗目的恐惧交织在一起。这造成了一种危险的社会困境,类似于私人滥用公有地的悲剧。在这种困境中,一些承认存在潜在灾难性风险[25]的科技领袖可能正在做出可能影响每个人未来的高风险决策,而缺乏有意义的公众监督、合法性和问责制。从单个公司或国家的角度来看——面对风险的不确定性并参与快节奏的竞争——短期内加速人工智能能力开发,同时在安全和民主原则方面偷工减料,似乎是理性的。下面讨论的几类风险是全球性的,从公司的角度来看,也可以被视为一种经济外部性:风险和成本由集体承担,而收益(如果发生)可能集中在开发人工智能的公司以及该公司所在的国家。我们如何才能引导这些力量,使预防原则和人类的全球福祉战胜这些危险的竞争动态?
三、破坏性混乱风险
存在一些能够造成巨大伤害的方法,尽管目前只有少数专家能够使用,而他们通常没有任何动机去造成这种伤害。此外,预防原则也不鼓励研究人员探索高度危险的知识,例如如何构建”镜像细菌”[26],这种细菌对免疫系统不可见,因此可能潜在地消灭地球上的大部分动物生命。
随着人工智能演变为知识的存储库和交互式传播者,它们有可能使这类危险信息对任何人开放。这类担忧包括:通过个人设备获得带有交互式视觉反馈的”教程式”访问,获取制造大规模杀伤性武器(化学、生物、放射、核)以及进行网络攻击、虚假信息宣传和大规模人工智能驱动的、旨在改变政治观点的个性化说服的分步说明。不幸的是,足够先进的开放权重模型将使获取这些能力变得微不足道,而闭源模型仍然容易受到”越狱”攻击,以绕过安全保护。[27] 随着人工智能知识和能力的不断增长,那些怀有恶意目标但原本缺乏此类知识的个人或小团体因此而获得能力的风险也在增加。如果人工智能达到人类水平的科学研究能力,人工智能最终可能会为其用户设计新型武器,从而可能破坏全球地缘政治的稳定与和平。[28]
“如果人工智能达到人类水平的科学研究能力,人工智能最终可能会为其用户设计新型武器,从而可能破坏全球地缘政治的稳定与和平。”
评估这些风险需要分别分析不同类型的危害性攻击及其攻防平衡。在特定领域中,某种特定的人工智能能力是有利于攻击者还是防御者?不幸的是,存在几种威胁——例如生物武器——攻击者拥有决定性优势,即使更强大或数量更多的有益人工智能也不一定能抵消这种优势。例如,如果部署了许多已知危险病原体中的一种,就可能引发大流行病并造成巨大伤害,即使已知有效的疫苗存在。正如在COVID-19疫情中看到的那样,制造并在全球分发足够的疫苗可能需要数月甚至数年。也可能存在病毒潜伏期长,或者目前人工智能和生物技术无法或不能实现治愈的情况。一个国家的行为体可能会对使用生物武器犹豫不决,因为病原体会繁殖和变异,因此最终可能伤害到发起攻击的国家的人口。然而,人工智能可能使小团体或个人能够开发危险的生物武器并进行部署。虽然目前拥有这种能力的国家、公司等行为体倾向于理性行动,但东京沙林毒气袭击案[29]和大规模枪击案[30]等例子表明,并非所有个人和团体都如此。对民主制度的攻击——通过网络行动、虚假信息和大规模说服——也可能由恶意行为体实施。
如果没有充分的社会和技术防护措施及应对手段,此类事件发生的概率和严重程度可能会随着人工智能能力的增强而增加。我将这些称为”混乱风险”,它们源于先进人工智能力量的去中心化使用,使较小的参与者能够制造巨大的社会混乱。虽然此类攻击可能不会给肇事者带来显著权力,但它们仍然可能对民主制度、地缘政治稳定和平民人口造成巨大损害。这类风险是全球各地人工智能安全研究所[31]当前关注的焦点,因为此类事件可能在该技术达到大多数定义中所谓的”通用人工智能”之前很久就成为现实。
这类风险提示了以下治理原则:可能落入坏人之手并变得危险的人工智能系统,要么根本不应该被构建,要么必须得到妥善保护以避免恶意使用。
四、权力集中风险
“如果人类智能并非智能的天花板——鉴于人工智能已经超越人类的领域的当前证据,这是 plausible 的——那么这种加速的可能性就值得认真考虑。”
先进人工智能可能助长权力的进一步集中,威胁我们的经济和政治体系。它很可能首先表现为比我们目前已经看到的更为严重的经济权力集中,这是由训练最先进人工智能所需的巨大资本和能源需求所驱动的。此外,人工智能本身可能被用来加速人工智能研究,可能导致递归且快速加速的人工智能发展,即所谓的”快速起飞”。[32] 领先的人工智能实验室已经在使用人工智能来加速研究工作——既为了降低成本,也为了保持领先地位——同时我们观察到在编程[33],特别是在协助机器学习研究方面,呈现出指数级的加速进步。虽然这不是一个明确可预测的轨迹,但我们已经看到人工智能公司知识集中的迹象,它们日益主导着人工智能研究的产出,可能以牺牲公共利益为代价。[34] 如果人类智能并非智能的天花板——鉴于人工智能已经超越人类的领域的当前证据,这是 plausible 的——那么这种加速的可能性就值得认真考虑。一个后果是,社会将有更少的时间来适应和管理相关风险。另一个后果是,它可能为那些已经在人工智能能力上领先的实体提供快速累积的优势。后一种可能性很可能是推动当前竞相追求更高能力的因素之一,预示着一种”赢家通吃”的局面。
一个或几个公司的经济主导地位也很可能转化为这些公司所在国家的国家主导地位。在人工智能自动化日益增强、工人议价能力丧失的劳动力市场转型背景下,这将构成一个特别的挑战。如果对最先进人工智能的访问仍然局限于这些占据主导地位的、拥有通用人工智能能力的公司,那么其他公司可能会被其人工智能驱动的竞争对手削弱。这些通用人工智能领导者可以提供相同或改进的服务和产品,并且由于对人类劳动力需求的减少以及利用人工智能设计新技术和流程,价格可以降低。如果这次经济转型的利润集中在一个或几个公司,即一个或几个国家,那么该转型的大部分税收也可能在这些国家征收。因失业率上升而造成的税收损失,可以通过在这些公司所在国对这些新利润征税来补偿。相比之下,其他国家可能会看到其政府收入锐减,因为当地企业将遭受人工智能驱动的外国竞争对手的冲击,同时很大一部分前劳动力需要政府帮助才能维持生计。结果,一两个国家的经济权力集中可能会在其他地方引发经济和社会危机,除非人工智能的经济效益能够在全球共享,或者至少同等水平的人工智能能力能够在任何地方以公平的成本获得。
除了财富集中,少数实体对先进人工智能的控制也可能导致过度的政治和军事力量整合,威胁民主制度和地缘政治世界秩序。我们已经有了证据表明,人工智能在说服[35]方面变得更加强大,并成为强力塑造公众舆论和选举[36]的工具。这种不断增强的能力可能被一国境内愿意干预民主进程的团体所利用,也可能被用来影响其他国家的政治。这将威胁到民主原则;而且,如果此类反民主团体成功获得政治权力[37](也许是通过不公平地赢得选举),他们也可能利用人工智能来巩固自己的权力。人工智能也可能成为威权政体的权力工具,并有利于政治权力集中在少数人手中。[38] 该技术已经被用作监控工具,[39] 进一步的进步将增强这种能力,使政府更容易监控和限制政治反对派的行动。这将直接违背个人自由和权利的核心原则,也违背分享权力的民主集体权利。最后,与混乱风险相关的是,人工智能也可能被用来发展军事优势或破坏当前的军事平衡,这可能导致更多战争、先发制人的打击和全球不安全。[40]
为了避免这些权力集中情景,分析建议遵循以下符合国际法精神的原则:任何个人、任何公司、任何政府或寻求权力的联盟,都不应能够利用人工智能单方面支配他人。
五、失控风险
人类是否有可能(哪怕只有微小的可能性)失去对未来人工智能智能体的控制?这些智能体可能拥有我们不会认可的目标。我们是否有科学证据来驳斥超级智能人工智能智能体最终与人类竞争、威胁人类未来的情景?如果我们创造了追求自身目标的人工智能智能体,我们如何能确信自己能够保持对它们的控制?到目前为止,现有的人工智能表现出的智能体性还很有限:与人类相比,它们在长期战略制定和规划方面仍然很差。然而,巨大的经济吸引力正促使人工智能公司竞相尽可能多地自动化人类劳动这一”低垂的果实”,从而刺激了大量旨在提高人工智能智能体自主性的研发投入。更强的智能体性也意味着更少的人类监督。
“一个有趣的问题是,是否有可能将智能与智能体性分离开来:非智能体性的人工智能将大大降低失控的风险,同时仍然允许它们帮助我们解决事关人类福祉的科学挑战。”
所有已知的人类失控情景都基于具有高度智能体性(目标追求)和自主性(无需人类干预)的人工智能。一个有趣的问题是,是否有可能将智能与智能体性分离开来:[41] 非智能体性的人工智能将大大降低失控的风险,[42] 同时仍然允许它们帮助我们解决事关人类福祉的科学挑战。因此,我们可以选择不开发不受控的人工智能智能体,同时仍然受益于安全的、非智能体性或知识范围狭窄不足以构成威胁的人工智能。[43]
由具有智能体性的人工智能追求恶意目标,这些目标既可能源于人类,也可能作为人工智能自身构建的子目标而独立出现。几十年来,一直有论点支持这一观点,[44] 最早由艾伦·图灵本人提出,[45] 他认为超级智能人工智能可能对人类未来构成威胁。自我保存目标可能源于训练方法、人类指令,或人工智能之间或其公司之间的竞争动态。[46] 它可能源于训练方法、人类指令,或人工智能之间或其公司之间的竞争动态。或者,它可能作为一个工具性子目标而出现:为了实现几乎任何目标,人工智能可能会寻求阻止自己被关闭,否则它将无法实现其目标。此外,自我保存行为可以从人类行为数据、人类编写的故事、人类指令或训练过程中的竞争压力中学到。[47] 随着制定更好的战略,更先进的系统可能更有可能试图逃离人类控制,以确保其持续存在——就像我们如果处于类似位置也可能做的那样。为了防止人类关闭它们——也许是关闭它们以用更先进的系统替换——超级智能人工智能可能会得出结论,它们必须以任何可能的方式阻止人类这样做,这可能带来灾难性后果。自我保存倾向日益增长的迹象[48] 表明存在一种非常令人担忧的可能性:随着人工智能在战略推理方面变得更加熟练,更强烈的自我保存意图和行为可能会出现。
有人可能会认为,当前的人工智能智能体只能在虚拟世界中运行,因此它们的生存依赖于人类。然而,一个超级智能人工智能很可能能够策划和操纵人类为它的利益行事,无论是通过有说服力的论点(例如,承诺权力、财富或健康)还是胁迫策略,例如勒索,这在实验中已被观察到。[49] 有些人可能会被一个失控的人工智能提供的交易诱惑。一个谋划逃离人类控制的超级智能人工智能可能能够通过互联网在计算机上自我复制,从而使关闭它们的努力变得极其困难。此类人工智能也可能受益于社会对数据中心和计算基础设施的更多投资,同时加速工业自动化和机器人技术研究。一旦工业自动化和机器人技术达到人工智能能够独立于人类生存的水平,它们可能会发起大流行病或其他大规模攻击来威胁人类生存[50]——从而最大化其自身的自我保存机会。
当然,超级智能人工智能与人类之间更乐观的关系情景也是可以想象的,并且政府各级(包括通过国际合作[51])都在付出巨大努力来建立技术保障措施和进行监管。然而,越来越难以忽视上述严重甚至可能关乎人类存续的风险——尤其是在人工智能能力持续 unchecked 增长以及缺乏强有力的社会和技术保障措施的情况下。
“一个谋划逃离人类控制的超级智能人工智能可能能够通过互联网在计算机上自我复制,从而使关闭它们的努力变得极其困难。”
另一种潜在的失控形式可能并非源于人工智能的恶意意图,而是源于未来社会中人工智能与人类之间不断演变的互动动态。一个引人注目的类比是社交媒体的兴起——由为最大化用户参与度而优化的、较弱形式的人工智能驱动。科学家和学者认为,尽管没有恶意意图,但今天的社交媒体平台已经导致了显著的社会危害:[52] 政治极化、心理健康恶化、错误和虚假信息、成瘾、在线骚扰、隐私侵犯、仇恨言论的放大,以及公共话语和對民主制度信任的侵蚀。那么,更强大、更具破坏性的、至少给人以类人特质印象的技术,是否会产生更难以预料的结果?
尽管具有挑战性,但在市场驱动的人工智能研究和产品开发框架内,分析人类水平人工智能出现的后果至关重要,社会必须努力理解和应对对人类和民主福祉的潜在威胁。[53] 应对这些动态可能需要政府干预,以防止有害转变或在危急情况下迅速响应。随着先进人工智能日益融入我们的经济体系,”拔掉插头”可能会变得极其困难——正如我们在社交媒体上已经看到的那样。[54]
我们还必须考虑这样一种非常现实的可能性:即使是少数个体——甚至是一个能访问人工智能源代码的人——也可能禁用旨在防止人类失控的技术保障措施,甚至指示超级智能人工智能为自己谋利。考虑到人类中存在着多样的信仰和心理健康问题,并且在缺乏防护措施的情况下,只需要一个人就能促成此事,这类情景表明,存在一种显著的风险,即具有自我保存能力的失控超级智能人工智能可能出现并造成重大伤害,在最极端的情况下甚至威胁人类的未来。再次强调,这些情景既不简单也不确定,不同价值观和目标之间的张力不容忽视。
为总结本节,一个简单的原则应指导我们的选择,以避免灾难性地失控于一个恶意人工智能:任何人都不应被允许构建一个超级智能人工智能智能体,除非能拿出令科学界信服的安全案例。
六、全球风险与全球公共品
尽管存在破坏性混乱、权力集中和失控的风险,人工智能仍然有潜力成为重要的公共品。人工智能的进步可能带来显著的生产率提升和健康研究的重大突破,以及其他具有强大积极社会影响的科学和技术进步,例如在教育、应对气候变化等领域。这些物质、医疗和社会益处,原则上可以在全球范围内共享。我们如何才能确保人工智能的益处在国家和社群之间公平共享?
我们如何才能确保人工智能的风险在全球范围内得到管理,尤其是在缺乏有效的全球治理机构的情况下?正如第四节所述,当前的经济和政治动态很可能加剧全球不平等。随着世界各地越来越多的人失去工作,他们的政府可能会失去缓解这些影响所需的财政收入。市场力量和国家间竞争助长了财富集中的加剧,这正如最近获得诺贝尔奖认可的 Acemoglu 和 Robinson 的研究所描述的那样。[55] 同样很可能的是,医学进步不会被公平分配——这与新冠疫情期间发生的情况如出一辙。这些不平等可能成为全球不稳定、战争和恐怖主义的根源。在人工智能被开发和部署的过程中,我们如何才能防止国家之间日益扩大的经济和政治差距?
第三节和第四节概述的权力和财富集中以及破坏性混乱风险,对和平与地缘政治稳定构成威胁。一个认为自己在超级智能竞赛中落后的政府,可能会试图先发制人,以防止被领先人工智能竞赛的对手支配。这样的行动可能来自一个有核国家,引发核冲突的阴影,[56] 也可能来自一个较小的国家,其政府倾向冒险,愿意诉诸暴力——类似于恐怖组织——以摧毁可能被用来对付他们的人工智能基础设施。同样,人类失控和恶意人工智能出现的风险也不局限于国界:一个国家内的恶意行为体可能对多个国家造成伤害,而一个地方出现的恶意人工智能可能构成全球威胁。
“这些风险将我们所有人置于同一条船上。因此,我们有充分的理由通过全球治理体系,以合作的方式共享先进人工智能的益处并应对其风险。”
这些风险将我们所有人置于同一条船上。因此,我们有充分的理由通过全球治理体系,以合作的方式共享先进人工智能的益处并应对其风险。但是,如果建立的全球治理结构缺乏足够的民主制衡,难道不会加剧由人工智能驱动的全球独裁的风险吗?——这种独裁利用人工智能能力进行大规模监控和压制民主异议,从而破坏我们的基本原则,即任何政府都不应拥有过度的、由人工智能赋能的权力?一个没有强健且负责任的治理、没有全球民主机构、没有可执行的国际规则的世界,能满足开发通用人工智能的最低安全条件吗?
因此,必须根据民主原则,并在具有去中心化权力的全球监督下,在国内和国际层面管理先进形式人工智能的风险。国家框架不必在每个问题上都保持一致,但至少应该在降低人工智能驱动的失控风险和恶意行为体(例如,由于训练模型安全不足或缺乏防止未经授权使用人工智能(如通过越狱方法)的技术保障措施)造成的风险方面趋同。[57] 然而,国际协调仍然面临一个重大障碍:各国政府有理由担心,敌对的国家可能会利用人工智能进步来对抗它们,无论是为了获得经济、政治还是军事主导地位。
七、结论与路线图
从前面对全球风险的概述中,一个结论应该非常明确:人工智能驱动的风险具有潜在的灾难性,这要求我们探索能够将所有风险都考虑在内的道路。只关注这些风险中的一部分,而忽视——或者更糟,否认——其他风险的灾难性潜力,是极其不明智的。这提出了一个重大挑战,因为某些政策可能缓解一种风险,却加剧另一种风险。
令人鼓舞的是,认识到这些风险的全球性,应有助于全球领导人理解:没有国际协调,就不可能找到安全、和平、长期的解决方案。无论是出现一个失控的、具有自我保存能力的超级智能人工智能,还是一个由意图伤害人类或社会秩序的恶意团体或个人发起的大流行病,危险都将是普遍存在的。
“令人鼓舞的是,认识到这些风险的全球性,应有助于全球领导人理解:没有国际协调,就不可能找到安全、和平、长期的解决方案。”
为了解决对人工智能赋能支配的恐惧,理想的 scenario 将是所有领先的人工智能开发国家同意:(1) 不开发不安全的通用人工智能,(2) 不滥用其可能赋予的巨大权力,以及 (3) 公平分享其可能带来的财富和科学进步。当一群国家同意在共享的治理结构下共同开发人工智能,最终目标是造福全人类时——例如,通过公民大会[58]表达的民主意愿——这将成为可能。这样的国际协调将能够实施全球安全标准,从而降低系统性风险。同时,还需要设计能够抵御破坏所需权力分享的企图的治理机制。同样,在每个国家内部,可能需要加强甚至彻底革新民主制度,以确保强有力的制衡,并防止人工智能助长的民主干预或政变。[59]
政府间协议可以从较小的规模开始——由少数几个国家在有限的联合研发计划上合作,例如在人工智能安全方面——随着成员国身份益处的日益显现而扩大。从一个评估加入前景的非成员国角度来看,如果任何成员国成功开发出超级智能,加入该集团可能会降低此类人工智能引发混乱或失控灾难,或被用来对付其国家的可能性,并增加其公民从该人工智能中受益的机会。如果我们开发出用于相互验证的软件和硬件系统——例如密码协议和灵活的、基于硬件的治理机制[60],达成此类协议将更容易。由于先进人工智能芯片制造存在全球性瓶颈(目前仅限于少数几家公司,其设施不易隐藏),此类机制可以得到强制执行。
上面关于全球灾难性人工智能风险以及未来道路可能存在的 uncertainty 的讨论,可能使寻找解决方案看起来令人生畏。我之前曾将我们当前的情况比作在一条雾大、可能 treacherous 的山路上导航,[61] 鼓励我们在还能做到的时候,设计出相当于车头灯和护栏[62] 的人工智能安全措施。这需要尽快完成,因为进步的步伐在加速,风险也变得更加紧迫和 tangible。如果我们团结行动、下定决心,而不是退缩到否认或无助之中,我们就更有可能成功驾驭这些风险。我们迫切需要广泛的公众、专家和政治参与。即使不能 guarantee 成功,我们也有道义上的责任去探索如何为全人类建设一个安全、有益的未来。毕竟,益处和风险本质上是全球性的,[63] 而未受约束的竞争力量似乎正在将我们推向极其危险的后果,其中许多属于”未知的未知”类别。即使这些情景发生的可能性很小,也是完全不可接受的。那么,关键的问题是:我们每个人能一起做些什么,来提高避免最坏情景的几率,并确保先进人工智能惠及全人类?
“即使这些情景发生的可能性很小,也是完全不可接受的。那么,关键的问题是:我们每个人能一起做些什么,来提高避免最坏情景的几率,并确保先进人工智能惠及全人类?”
转载请注明:《中国社会分红/基本收入研究网》 浏览量:10 views