》系列报告。该系列报告的研究动因是美国空军对人工智能 (AI) 增强作战各个方面的潜力越来越重视,因此兰德公司的研究人员选取了四种特定的作战应用样例开展研究:网络安全、预测性维护、兵棋推演和任务规划。选择这些应用样例是为了代表各种可能的用途,同时强调了AI在各种不同作战样例的局限性。本报告是五卷系列报告中的第一篇,本章总结了所有用例的发现和建议,旨在为政策制定者、采购专业人员,以及那些对人工智能作战应用感兴趣的人提供参考。
近年来,美国空军部(DAF)对人工智能(AI)增强作战不同方面的潜力越来越感兴趣。正如2021年国防部长劳埃德·奥斯汀所说,“人工智能是我们创新议程的核心,帮助我们更快地计算、更好地分享……并更快、更严格地做出决策。”在过去的五年里,兰德公司的研究人员研究了人工智能如何被用于改善指挥和控制、情报分析、操作评估、人力资源管理和许多其他应用。在本研究项目中,美国空军(USAF)要求兰德公司通过分析研究,探究人工智能在战争中的缺陷,以了解人工智能在作战应用中的局限性。
为确保研究的准确性,兰德公司通过对比选择并调查了四种特定的作战应用程序作为潜在的用例:网络安全、预测性维护、兵棋推演和任务规划。这些选择是经与空军物资司令部、战略、计划计划、需求和分析(AFMC/A5/8/9)协商后选择的,以代表DAF中各种可能的人工智能应用。在本报告中,我们描述了使用人工智能来辅助解决不同问题的各种固有限制,特别是数据和算法问题。但在本研究中我们不考虑对抗性攻击破坏人工智能系统的可能性,比如生成性系统。
该报告将人工智能广泛地定义为“使用计算机来执行以前需要人类智能的任务”。为了讨论作战应用,研究重点关注以下六种特定能力:
在这一系列的报告中,我们重点关注使用当前的机器学习(ML)方法—主要是神经网络—来实现这些人工智能能力。机器学习和人工智能不是同义词,尽管他们经常被这样等同看待,因为人工智能能力的快速发展在过去十年在很大程度上是深度学习的,机器学习的一个子领域,已经呈现过时的状态,特别是在计算机视觉和自然语言处理方法的应用上。深度学习是一个松散的术语,指的是神经网络,在输入和输出流之间有许多“隐藏”的“神经元”层的神经网络。
现代机器学习也通常被称为三个子类:监督学习,人工智能系统使用标记数据进行训练;无监督学习,人工智能系统试图揭示未标记数据中的隐藏结构;强化学习,即人工智能系统通过与环境的交互作用最大化预期效用函数。本报告主要关注的是监督学习和强化学习,这虽然不需要比无监督学习更多的数据,但通常需要数据被处理或标记。
我们不考虑人工通用智能或任何其他开创性的新方法的潜力。虽然人工智能没有标准的定义,但它或多或少是一种实现认知的假设能力,即“类人”或 “普通的” ,因为它与特定的任务无关。对于哪些技术可以实现这种能力,目前还没有达成共识,许多专家认为M6米乐APP,首先需要取得根本性的突破。正如最近的一位观察人士所说, 机器可能有一天会和人们一样聪明,甚至可能更聪明,但游戏还远未结束。在制造能够真正理解和推理其周围世界的机器时,仍有大量的工作要做,这就是为什么基础研究仍然至关重要。
然而, 难以预测是突破性研究的本质 。因此,当谈到人工智能在作战应用中的局限性时,只涉及到了我们今天所能够理解的领域的局限性。尽管如此,我们预计这些预测对20年内的时间框架依然有参考价值。
该项目的第一个任务是选择DAF感兴趣的潜在人工智能用例,并可能突出人工智能使用的不同类型的限制。我们首先提出了表中所示的5个选择标准。
随后,我们提出了14个研究领域,从情报、监视和侦察(ISR)应用,到指挥和控制(C2)和操作,再到企业用途,如后勤和人员。这些领域是人工智能工作已经在DAF或兰德活跃的领域,或者我们咨询的主题专家(SMEs)认为有尚未开发的潜力。下表显示了按类别划分的潜在研究领域,以及我们根据五个选择标准进行的粗略排名。
上表显示,结果没有明显突出的领域。随着人工智能的广泛应用,许多领域都已开始研究,而且每个领域也都存在一些问题。最后,我们决定(与赞助商协商)排除整个ISR类别,我们还排除了在任何类别中排名“低”的任何领域。省略的最后一个领域是提高标准选择分析,因为它的“高”评分最少。这样确认留下了四个用例:网络安全、预测性维护、兵器推演和任务规划。这些案例涵盖了各种选择,并提出了不同的研究挑战。
这个用例的研究目的是考虑分布偏移如何影响人工智能在网络安全应用中的有效性。当人工智能系统在现场遇到的数据随着时间的推移与人工智能系统被训练和测试的数据偏离时,就会发生分布偏移。偏移的精确性可能会随着时间的推移而显著降低人工智能系统的性能。我们关注分布偏移,因为最近的研究表明,分布偏移很可能是影响人工智能网络安全应用的一个重要因素。“在真正的网络安全中,黑客经常会改变不同的方式来攻击网络,在这种情况下,可能会发生多个变量的变化。”
在网络安全领域,黑客可以以意想不到的方式进行适应,需要数千个提取的功能来对每个软件程序或事件进行分类。这与传统的人工智能任务不同,比如面部识别,后者有数千个特征需要考虑,但特征中包含的信息不会随着时间的推移而变化。这意味着,直接缓解分布偏移——扩展初始数据集以纳入潜在的未来转移——是完全不可行的。例如,其中一个数据集使用2,000个维度来分类潜在的恶意软件,沿每个维度将搜索空间扩大10%将使搜索空间的总体积增加许多个数量级。
我们证实了研究的网络安全数据集存在分布上的偏移,如果这些数据集反映了现实,人工智能在这些任务中的性能应该会随着时间的推移而下降。这意味着用于网络安全的人工智能系统具有固有的保质期,必须定期进行再培训。有两个主要的发现:
分布偏移是网络安全应用程序的一个重要因素,但时间尺度各不相同(timescales vary)。对于网络入侵检测,两种人工智能模型的准确率每天都下降了约4.5%。对于恶意软件识别,我们发现每年的准确率变化要慢得多,约为1.5%。这些特定的估计仅来自于几个测量周期,而其他数据集可能表现出显著不同的行为。
人工智能系统无法可靠地识别新的网络攻击。研究发现人工智能系统根本无法识别新的攻击,但更先进的超参数,更协调的人工智能模型有可能做得更好。然而,当人工智能系统需要最近的数据,而数据只能以一定的速度生成时,这种优化只能到此为止。这种情况不仅存在于网络安全,还有存在于任何在高维空间中面临不可预测变化的人工智能算法。
从这些发现中,我们得到了一个普遍的建议:数据集分割测试可被用来估计网络安全中的人工智能系统分布偏移的重要性。这种测试会产生衰减率,可以为这个自适应的复杂空间中的任何人工智能系统提供再训练间隔或保质期(shelf life)的估计。它还能够判断人工智能系统是否足够应对问题,或者是否需要人类的监督来应对突然的新威胁。同时也要求人工智能开发人员指定确认所使用的训练和测试数据集——这被广泛推荐为最佳实践。
这个用例的研究目的是考虑人工智能如何改进飞机部件的故障分析,用于帮助确定准备备件包(RSPs)。美国空军中队正在部署的预测性维护项目旨在支持作战部队30天备件保障行动。美国空军目前使用的飞机可持续发展模型(ASM),是一个根据多个因素为每个RSP创建一个采购清单的模型,这些因素包括:当前供应、积压订单历史和部件故障率的估计。ASM使用泊松分布来预测零件失效率。在本研究中,我们使用泊松分布评估了部分失效需求预测的准确性,并使用人工智能作为预测失效率的替代方法进行了评估。值得注意的是,ASM所做的远不止于此:我们只考虑它众多功能中的一个。
柯尔莫戈罗夫·斯米尔诺夫检验发现,超过80%的失败与泊松分布不匹配,这表明一个人工智能模型,或至少一个非泊松分布,有可能做得更好。下图提供了一个散点图的并排比较,显示了ASM模型和AI模型预测部分故障率的能力。米乐m6平台官方版
图1 2007年至2022年A-10C的实际部件故障率与飞机可持续性模型和人工智能模型的预测结果的比较
注意:红色的虚线表示奇偶性:如果所有的预测都是准确的,它们都会落在红色的虚线上。由于两个图表的比例不同,这些线的倾斜程度不同:ASM故障预测率轴的比例大约是AI预测率的4倍。
人工智能可以改善对rsp的需求预测。静态泊松过程对许多部分来说都是一个很差的预测器,而且,可能任何单一的概率分布都会很差。然而,我们只对单一平台和单一概率分布展示了这一点,而且我们没有考虑从仓库分配到基地分配的更大问题。
在AI的任何应用之前,需要在DAF维护数据库上建立一个复杂和劳动密集型的数据操作管道。提取LIMS-EV数据是一个涉及脚本、下拉列表和嵌套菜单的手动过程。它只适用于一个概念证明模型。米乐m6平台官方版此外,需要大量的数据清理来解锁进一步的历史数据(例如,在平台升级之前链接变量)和其他潜在的预测器。
人工智能无法缓解战时数据的稀缺性。还需要额外的假设和政策考虑来考虑这一限制。然而,通过人工智能模型有可能实现的定期再培训和更新政策,可以确保战争到来时的适应性。
AFMC应建立一个数据运营管道,对飞机维修和RSP效率进行回顾性分析。飞机维修项目和数据库能够有效地达到其设计的目的,但它们显然不是为回顾性分析或训练人工智能模型而设计的。除非能够对分析进行适当的调整和提取,否则不能执行以下建议。正如《人工智能获取指南》所述,这是一个常见的问题:收集每一个“数据”并不能解决我们的数据资产危机。数据可以以多种形式出现,这可能不适合手头的具体任务。PM[项目经理]应尽可能多地要求使用通用格式和大小的数据,以促进有效的数据供应管道。一般来说,AI项目的有益格式包括:图像、视频、表格、逗号分隔值(CSV)和/或标签分隔值(TSV)。适当的数据格式将取决于选取的AI算法,并将受到被训练的模型类型的影响。即使使用适当的文件格式,数据也需要在人工智能培训之前对其进行管理和调整。
利用人工智能实验提高rsp的需求预测。将概念验证模型扩展到所有飞机。建模可能需要在平台的基础上完成,但一旦数据操作管道到位将会简单得多。
这个用例的研究目的是了解推演过程中的哪些方面易于使用人工智能系统实现自动化。在2010年左右,人工智能在游戏领域的快速发展(如,国际象棋、围棋、星际争霸等)激发了人们对人工智能的强烈兴趣。人工智能倡导者认为,人工智能可能会使推演更有效,或者将使其不断应用于新型问题成为可能。然而,兰德公司最近的研究表明,人工智能在常规游戏中的成功并不会有助于真正的军事指挥控制问题的解决。此外,人工智能可能适用于许多类型的战争游戏和战争游戏实践的许多部分,我们有理由相信在人工智能应用领域有些游戏更有前途。图 2 显示了我们对按类型(目的)和时间阶段任务开发和部署人工智能的综合技术可行性和成本效益的估计。
这个数字以传统的红绿灯图表示:红色非常昂贵或困难,绿色相对容易或负担得起,介于两者之间。很多领域人工智能开发可行性都非常有限。然而,今天还有投资人工智能的机会,而且适当的技术投资可以将评级从转变为绿色。
1.人工智能应用的资源应该集中在最有前途的领域:研究替代条件或用于的领域评估,有明确的问题和标准;那些已经纳入数字基础设施的,包括HCI技术;以及那些经常重复的。
2.推行数字游戏基础设施和HCI技术的使用,特别是在为系统探索和创新设计的游戏中。战争推演任务的数字化必须先于人工智能在许多战争游戏任务中的应用。HCI技术可以而且应该被用来收集关于话语和决策的数据,以支持人工智能的发展。在人工智能可以从评估类型的兵棋推演中学习的情况下,这可能特别有价值。
3.将人工智能能力应用于战略研究,以更广泛地支持未来的战争游戏工作,使项目从“可能的”变为“可行的”。这些研究包括场景生成和案例识别,以寻找值得游戏注意的具有挑战性的条件,米乐m6平台官方版以及情绪或立场分析,以支持战争游戏的定性研究。
本用例的研究目的是发现人工智能方法如何改进传统任务规划或方法的局限性。任务规划的一般问题包括同时将多个资产分配给按优先级排序的目标,包括在复杂环境条件下到其目的地的动态路由。先前的兰德研究对蓄意的主空中攻击计划(Master Air Attack Plan)过程的研究发现, 低数据可用性和操作风险是本案例中人工智能实现的最具挑战性的限制因素。在该研究中进行的一个实验表明,混合整数程序,作为一种更传统的OR方法,能够实现非常接近最优解,但需要几个小时解决问题,而一个简单的ML方法只用2秒的时间就可以将最优性提高17%。此外,所考虑的情况相对简单:考虑数千项资产后可能出现的组合激增,将使传统方法过时。与此同时,在模拟、集成和建模高级框架(AFSIM)中对人工智能任务规划的更详细的研究显示了这一领域的一些前景,但被测试的众多算法中只有一种能够可靠地生成合理的路由。
在我们的研究结果中,OR方法总是比AI方法更最优。这可能看起来令人惊讶,但在这种情况下,OR方法产生了数学上的最大值,而AI方法本质上是函数逼近器。人工智能有三个明显的优势。首先,它生成的解决方案通常更健壮,这意味着路径可能是次优的,但如果威胁移动,它们仍然可行;其次,它可以考虑动态弹出式目标,而无需再训练;第三,解决方案通常开发得要快得多。从这些结果中,我们提取了以下主要发现:
DAF应投资开发适当的工具,使强化学习模型能够应用于现有的任务规划模型。在AFSIM中应用这种方法也可以帮助进行战术任务规划。
DAF应该考虑人工智能如何为面临意外情况的无人机提供快速反应政策。我们展示了可以在小型无人机上运行的高效小型模型。
在所有用例中,出现了两个共同的主题:(1)训练和测试人工智能系统的数据必须是当前的、可访问的、可用的和高质量的,而这类数据的稀缺性严重限制了人工智能在作战应用中的有效性,特别是在这种稀缺性无法缓解的情况下;(2)人工智能算法的局限性,在如何学习和学习什么内容方面,可能会极大地限制其效用的专用性,特别是在涉及人类洞察力的情况下。人工智能显然有潜力惠及所有四种用例,但由于这些限制,其应用在使用上受到重大限制。要回答人工智能在作战应用中的局限性这个总体问题,还有很多工作要做。人工智能并不是万灵药。它能做很多,但也有很多它做不到的。
缩略语:AFMC 空军物资司令部;AFSIM 仿真、集成、建模的高级框架;OR 运筹学;RSP 准备就绪备件包;TTPs 战术、技术和程序