Gensyn Litepaper

适用于全球深度学习模型的超大规模、经济高效的计算协议

 

发布时间:2022 年 2 月

请注意,此版本的 Litepaper 已过时。Gensyn团队对协议设计进行了多项更改,包括但不限于:

  1.  

    更稳健的审核工作检查策略

  2.  

    引入加密证明系统以动态监控训练

  3.  

    更强的博弈论保证

  4.  

    一种用于证明保证的新型可用性证明系统

  5.  

    可重现的 ML 运行时

这项研究将在不久的将来发表,但请使用这篇 Litepaper 作为问题 + 解向量的介绍。

 
背景

最先进的人工智能 (AI) 系统的计算复杂性每 3 个月翻一番,远远超过计算供应。作为一个创始团队,无论我们是在发表关于深度神经架构演变的研究,还是建立飓风破坏预测模型,我们都亲身体验过这些限制。

GPT-3 175B 是 OpenAI 在 Brown 等人(2020 年)中提出的最大 GPT-3 模型,它使用了 1,000 个 NVIDIA Tesla V100 GPU 的集群进行训练——大致相当于在单个设备上训练 355 年。Ramesh et al. (2021) 的 DALL-E 是 OpenAI 的另一个 Transformer 模型,它有 120 亿个参数,并在超过 4 亿张带字幕的图像上进行了训练。OpenAI 承担了训练 DALL-E 的成本,但有争议地拒绝开源该模型,这意味着除了少数人之外,其他人仍然无法访问最重要的最先进的多模态深度学习模型之一。构建这些基础模型的巨大资源需求为访问造成了重大障碍,如果没有一种方法来汇集资源,同时仍能获取价值,可能会导致人工智能发展停滞不前。许多人认为,这些广义模型是解锁通用人工智能(AGI)的关键,这使得目前在孤立的人工孤岛中进行训练的方法看起来很荒谬。

目前提供计算供应的解决方案要么是寡头垄断且成本高昂的,要么是鉴于大规模人工智能所需的计算复杂性而根本行不通。满足不断膨胀的需求需要一个能够经济高效地利用所有可用计算的系统(与目前 ~40% 的全球处理器利用率相反)。现在使这个问题更加复杂的是,计算供应本身受到微处理器性能的渐近进步的阻碍,以及供应链地缘政治芯片短缺。

我们已经与 150 多位首席技术官、机器学习 (ML) 研究人员和 ML 工程师进行了交谈,他们一致描述了在购买自己的硬件和牺牲可扩展性之间,或者以大幅增加的成本租用可扩展的云资源之间的痛苦权衡。他们认识到,提供商的利润率通常会夸大云成本,并且经常想知道为什么他们的 ML 工作不存在按需、无服务器风格的计算。

SETI@HomeFolding@HomeBOINC 等自愿网格计算服务表明,无需信任、自愿联网的潜在计算可用于解决人类面临的一些最大问题。然而,它们主要解决令人尴尬的并行问题,例如 3D 渲染,其中计算工作由于其状态独立性而可以被琐碎地拆分和验证。机器学习问题(除了超参数优化等利基任务)本质上是依赖于状态的,需要新的并行化和验证方法。志愿者网络也只能通过将参与者塑造为慈善系统中的理性行为者来发挥作用;增加金融交易极大地改变了激励机制,并引入了剥削的幽灵。

去中心化的区块链协议将网格计算的概念扩展到财务激励的无信任环境中。具体来说,以太坊将空间从比特币的交易用例转移到更一般的链上计算工作。这是通过结合图灵完备语言(Solidity)并通过可变的gas费用奖励计算提供商来实现的。

然而,以太坊只能通过极其昂贵的链上复制工作来实现无需信任的共识。这完全不适合深度学习。在一台普通的笔记本电脑上训练一个小型MNIST神经网络(~400M处理器操作)需要~8分钟,但在以太坊上需要~80天,成本约为3200万美元。为了解决这个问题,Truebit展示了可以在链下执行简单的计算工作(因此开销更少),并向链证明它被正确执行。他们通过将参与者建模为财务理性的行为者并仔细构建激励结构来实现这一目标。具体来说,他们通过间歇性地要求工人制作不正确的工作,并在发现验证者时奖励他们大奖,从而解决了验证者的困境

尽管有这些改进,但这项工作仍然必须在链下复制。这不适合计算费用极高的活动(例如深度学习),如果要以无需信任的方式为深度学习工作提供服务,则必须存在具有成本效益的链下计算系统。

 
问题

以经济高效的方式无信任地连接和验证链下深度学习工作的协议有五个主要挑战。

 
工作验证

为了构建一个真正无需信任的计算网络,并具有参与的经济激励,该网络必须有一种方法来验证深度学习计算工作是否确实已按承诺执行。这个问题的核心是深度学习模型的状态依赖性;也就是说,深度学习模型中的每一后续层都将前一层的输出作为输入。因此,要验证工作是否已在特定点完成,必须执行该点之前(包括该点)的所有工作。我们稍后会更详细地介绍这个问题,但这是一个根本问题,直到现在还没有可行的解决方案。

 
市场

计算市场面临着与任何新市场相同的供需问题,也面临着一些独特的挑战。主要存在冷启动问题,即供需流动性需要从一开始就大致匹配才能成功增长。为了捕获潜在的计算供应,必须为参与者提供明确的奖励,以承诺他们的计算时间。必须跟踪计算工作,并及时向供应商按比例付款。对于更传统的市场,这是使用处理管理和入职的中介机构执行的,最低支出以减少开销。不幸的是,这种方法的规模成本很高,并导致了阈值均衡,其中只有一小部分供应可以经济地捕获。

 
事前工作估算

与以太坊类似,ML计算工作也存在停止问题,即有时无法量化定义任务所需的计算工作量,更具体地说,它是否会结束(或停止)。在深度学习的背景下,随着模型和框架从静态图构建转向动态构建和执行,这一点最近变得更加重要。

 
隐私

随着世界各地更严格的个人隐私法规(例如 GDPR、CCPA、LGPD)的增长,注重隐私的设计和开发已成为组织的预期实践。虽然可以在开放数据集上进行大量的机器学习研究,但最终模型微调通常使用专有的用户数据。更具体地说,在我们对机器学习工程师和首席技术官的采访中,他们表示数据隐私比模型隐私重要几个数量级。

 
并行化

最先进的深度学习模型通常在大型硬件集群上并行训练,以便访问单个设备无法实现的规模。通过最近的研究,实现这种并行化所需的技术已经得到了极大的改进,目前最先进的变压器模型,如 Fedus、Zoph 和 Shazeer (2021) 提出的开关变压器,现在本质上是高度并行化的。将 ML 工作的性能要求与计算源的不可信和不可靠特性相结合,意味着高度并行化在任何解决方案中都是必不可少的。

 
溶液

 
Gensyn 协议

Gensyn 协议是一种用于深度学习计算的第 1 层无信任协议,可直接立即奖励供应方参与者将其计算时间承诺给网络并执行 ML 任务。该协议不需要行政监督或法律执行,而是通过智能合约以编程方式促进任务分配和支付。如上所述,构建此网络的根本挑战是验证已完成的 ML 工作。这是一个高度复杂的问题,位于复杂性理论、博弈论、密码学和优化的交叉点。

一个简单的解决方案是通过重新做他们的工作来检查工人的诚实性。至少,这需要将所需的操作增加一倍(“单次复制”);然而,即使有复制,信任问题仍然存在,除非验证方是工作的实际请求者(在这种情况下,他们不会请求工作,因为他们只是自己执行)。因此,确保验证方的诚实可以产生无限的复制链,其中每个新的验证者都需要检查前一个验证者的工作。

我们通过将三个关键概念联锁成一个强大的解决方案来解决这个验证问题,该解决方案是>1,350%比现有的最佳实践复制方法更有效;这样一来,它就解决了无限链问题。关键概念包括:

 
概率学习证明

Jia et al. (2021)之后,我们使用来自基于梯度的优化过程的元数据来构建所执行工作的证书,这些证书可以通过复制某些阶段来快速验证。

 
基于图形的精确定位协议

Zheng 等人 (2021) 之后,我们使用多粒度、基于图形的精确定位协议和交叉评估器一致执行,以允许重新运行和比较验证工作的一致性,并最终由链本身确认。

 
Truebit风格的激励游戏

Teutsch 和 Reitwießner (2019) 之后,我们使用质押和削减来构建激励游戏,确保每个财务理性的参与者诚实行事并执行他们的预期任务。

 
参与者

这些概念用于构建一个包含四个主要参与者的系统:提交者、求解者、验证者和举报者。

 
提交者

提交者是系统的最终用户,提供将要计算的任务并为完成的工作单位付费。

 
解决

求解器是系统的主要工作者,执行模型训练并生成要由验证者检查的证明。

 
验证者

验证器是将非确定性训练过程与确定性线性计算联系起来的关键,可以复制求解器的部分证明,并将距离与预期阈值进行比较。

 
举报人

举报人是最后一道防线,他们检查验证者的工作并提出挑战,希望获得大奖。

 
用法

典型的协议使用将经历八个阶段,上述角色执行特定任务。

 
任务提交

任务采用三条特定信息的形式:

  1.  

    描述任务和超参数的元数据;

  2.  

    模型二进制(或骨架架构);和

  3.  

    可公开访问的预处理训练数据。

为了提交任务,提交者以机器可读的格式指定任务的详细信息,并将这些详细信息与模型二进制(或机器可读架构)和预处理的训练数据的可公开访问位置一起提交到链中。公开可用的数据可以存储在一个简单的对象存储中,如亚马逊的 S3 或去中心化的存储,如 IPFSArweaveSubspace

为了保护隐私,可以使用 Lan、Liu 和 Li (2020) 提出的安全映射层(一种功能加密形式)构建模型,并将可公开访问的训练数据加密。通过这种方式,可以在密文上训练模型,而精度损失很小(<0.5%).

提交任务时,通过构建计算图并将其展开到所需操作中来生成所需工时的估计值。这些操作使用类似于以太坊的 Opcode gas 值的值进行加权,以计算要执行的计算功的粗略总和。然后,提交者支付的交易费用可以使用此估计值,任何超出的部分(例如由于悲观的分析)在计算后返还给提交者。至关重要的是,展开图形需要对逻辑设置限制,这可能会触发停止问题。

任务是可以推送到协议的最小数量的 ML 工作。使用并行化,可以将较大的计算工作负载拆分为任务集,并异步推送到网络。使用这种方法,可以构建大规模语言模型和其他最先进的模型,正如 Diskin 等人 (2021) 通过志愿者计算所展示的那样。

 
分析

分析过程为学习证明验证建立基线距离阈值。验证者将定期获取分析任务,并生成用于学习证明比较的变异阈值。为了生成阈值,验证者将使用不同的随机种子确定性地运行和重新运行训练部分,生成并检查自己的证明。在执行此操作时,验证器将建立一个聚合的预期距离阈值,该阈值稍后可以用作验证求解器的非确定性工作的阈值。

为了确保验证者在生成距离阈值时的诚实性,举报人应重新运行分析工作,并在适当的情况下使用与下面描述的基于图形的精确定位挑战和合同仲裁机制相同的方式向验证者提出质疑。

 
训练

分析后,任务进入公共任务池(类似于以太坊内存池)。选择单个求解器来执行任务,并将该任务从任务池中删除。求解器根据提交者提交的元数据并使用提供的模型和训练数据来执行任务。在执行训练任务时,求解器还通过按计划的时间间隔检查点并存储来自训练过程的元数据(包括参数)来生成学习证明,以便验证器可以尽可能准确地复制以下优化步骤。

 
证明生成

证明生成遵循 Jia 等人 (2021) 中概述的过程,其中求解器定期存储模型权重或更新以及来自训练数据集的相应索引,以识别用于生成权重更新的样本。可以调整检查点频率以提供更强的保证或节省存储空间。证明可以是“堆叠的”,这意味着证明可以从用于初始化权重的随机分布开始,也可以从用自己的证明生成的预训练权重开始。这允许协议建立一组已经验证的、预先训练的基础模型(即基础模型),这些模型可以针对更具体的任务进行微调。

 
验证证据

任务完成后,求解器在链上注册任务的完成情况,并在可公开访问的位置展示他们的学习证明,供验证者访问。验证者从公共任务池(同样类似于以太坊内存池)中获取验证任务,并执行计算工作以重新运行部分证明并执行距离计算。然后,链使用生成的距离(以及在分析阶段计算的阈值)来确定验证是否与证明匹配。

 
基于图形的精确定位挑战

在验证学习证明后,举报人可以复制验证者的工作,以检查验证工作本身是否正确执行。如果举报人认为验证执行不正确(恶意或非恶意),他们可以向验证者提出合同仲裁要求,以获得奖励。如果是真阳性,则此奖励可以来自求解器和验证器存款,如果是假阳性,则可以来自头奖金库。质疑过程遵循 Zheng et al. (2021) 中概述的程序,并使用链本身来执行仲裁。

根据 Teutsch 和 Reitwießner (2019) 的说法,举报人(在他们的情况下是验证者)只有在他们希望获得适当补偿的情况下才能验证并随后对工作提出质疑。在实践中,这意味着举报人应该根据其他活跃(即有实时存款和具有挑战性的)举报人的数量加入和离开网络。因此,任何举报人的预期默认策略都是在其他举报人数量较少时加入网络,发布存款,随机选择一个活动任务,然后开始他们的验证过程。在第一个任务结束后,他们会抓住另一个随机的活动任务并重复,直到举报人的数量增加到他们确定的支付门槛以上,然后他们将离开网络(或者更有可能的是,切换到网络中的另一个角色 - 验证者或求解者 - 取决于他们的硬件能力),直到情况再次逆转。

 
合同仲裁

当验证者受到举报人的挑战时,他们会与链一起进入一个过程,以减少有争议的操作或输入的位置,最终导致链执行最终的基本操作并确定挑战是否合理。为了保持举报人的诚实并克服验证者的困境,该协议引入了头奖支付的周期性强制错误,正如 Teutsch 和 Reitwießner (2019) 所提议的那样。

 
殖民地

在结算过程中,参与者根据概率和确定性检查的结论获得报酬。根据先前验证和挑战的结果,在不同的场景中进行不同的付款。

如果认为工作已正确执行并且所有检查都已通过,则求解器和验证器都会根据执行的操作获得奖励。

 
规模和成本效益

将市场构建为 Web3 协议消除了扩展的集中开销,并降低了新供应参与者的进入门槛,使网络有可能涵盖世界上所有计算设备。通过单个去中心化网络连接所有设备,可提供目前任何现有提供商都无法实现的可扩展性水平,从而提供前所未有的按需访问全球整个计算供应。对于最终用户来说,这完全消除了成本与规模的困境,并为潜在的无限可扩展性(最高可达全球物理硬件限制)提供了透明、低成本的成本。

创建一个价格由市场动态决定的市场,并且市场对所有参与者开放,可以使ML计算的单位成本达到公平平衡。这避开了大型供应商通常享有的护城河,大大降低了价格,并在资源层面促进了真正的全球竞争。虽然目前最终用户的计算成本为其寡头垄断供应商带来了巨大的利润,但Gensyn协议将确保每个参与者按比例获得因公平竞争而减少的剩余利润。

随着以太坊在 Eth2 中从工作量证明转向权益证明,许多拥有强大 GPU(例如 NVIDIA V100)的矿工将没有收益。这些矿工目前可以预期每小时的回报率约为 0.20 至 0.35 美元,即使是现在,当减去摊销资本购买和电力成本时,这也提供了微薄的边际回报。这些拥有ML硬件的矿工预期的当前收益与主要提供商相同硬件的平均每小时成本之间的差值,以及Eth挖矿的可能消失,为Gensyn协议提供了巨大的机会;它还允许硬件在有用的处理器周期上生成回报,而不仅仅是在工作量证明系统中计算哈希值。捕获这种挖矿供应以及其他一般的潜在计算来源,预计每小时在 Gensyn 协议上进行 NVIDIA V100 等效计算的成本约为每小时 0.40 USD,比 AWS 按需计算便宜 80%。

 
供应商 ML 训练工作的每小时成本(相当于 V100) 可扩展性

以太坊

15,700美元

Truebit(+以太坊)

12美元

GCP 按需

2.50美元

中等

AWS 按需

2美元

中等

傀儡网络

$1.20

Vast.ai

$1.10

AWS Spot 实例(不可靠)

0.90美元

中等

GCP Spot 实例(不可靠)

0.75美元

中等

Gensyn (预计)

0.40美元

数据中心中的单个 GPU

0.40美元

没有

单个个人 GPU

0.28美元

没有

 
协议评估

我们通过 Python 模拟来评估我们的解决方案,以评估 Gensyn 协议带来的性能提升幅度。在本例中,我们将性能衡量为在小型MNIST图像分类模型上完成100个epoch训练作业所花费的总时间(以秒为单位)。我们在 6 核 Intel Core i7 处理器上对此进行了测试。

我们将该协议与 3 种替代方法进行了比较:在本地运行模型(而不是使用任何协议),使用 Truebit 启发的复制(有 7 个验证器)运行模型,以及在以太坊上运行模型。

尽管代码缺乏生产级优化,但结果表明,Gensyn 协议为模型训练增加了 ~46% 的时间开销,与 Truebit 风格的复制相比,性能提高了 1,350%,与以太坊相比提高了 2,522,477%。

 
 
 
权力下放和治理

 
统辖

Gensyn Limited 是开发协议、雇用团队和管理 IP(在开源发布之前)的初始实体。Gensyn Limited 是一家完全远程的公司,从世界各地招聘人才。在代币生成事件(TGE)之后,Gensyn Limited将负责技术开发,Gensyn基金会将代表协议的利益。

代币将由Gensyn基金会在TGE发行,该基金会将由民选理事会以去中心化的方式进行管理,并根据链上的提案和公投做出决定。最初,理事会成员将与Gensyn Limited的核心成员和早期社区紧密结合,以便快速开发协议。随着时间的流逝,理事会将变得更加分散。

Gensyn基金会还将控制一个金库,该金库将由提案指导,通过资助协议本身和整个生态系统的持续发展来促进协议的目标。财政部将主要通过从每项任务费用中抽取很小的比例来提供资金。

 
未来发展

 
研究

我们将继续研究三个主要领域来改进协议:使用优化过程中的元数据对 ML 训练进行概率验证,对确定性 ML 工作进行链上验证的精确验证,以及在具有延迟约束的异构硬件上并行化 ML 模型。

本研究将加强工作验证保证,并扩展协议的效用,以包括更多的模型原语和更广泛的模型类型。

 
发展

Gensyn协议的开发将遵循三个高级阶段:测试网、金丝雀网、主网。

 
测试网

最初的开发将侧重于构建核心技术的测试网实现。测试网使用的代币将是非永久性的,测试网的用户将是社区的早期采用者和核心成员,他们将在TGE上获得奖励。

 
金丝雀网

在测试网迭代成功后,该协议将作为 Kusama 中继链上的金丝雀网络平行链启动。这一阶段将涉及推出具有实际经济价值的金丝雀实用代币。金丝雀网络可以看作是该协议的测试版,可以访问最新功能以及与其使用相关的一些风险。从长远来看,金丝雀网络通常提供略低的价格和最先进的研发功能,以换取这种轻微的风险。

 
主网

在 Kusama 中继链上成功启动平行链后,下一阶段将是在 Polkadot 中继链上启动最后一条实时平行链。此阶段将包括启动主网实用代币,该代币将成为协议的主要实用代币。主网将是强化的实时协议,供任何组织或个人充分利用。在主网上启动之前,功能或更改将经过测试网和金丝雀网迭代。

 
生态系统

Gensyn 协议将成为 ML 计算的基础层,类似于用于智能合约执行的以太坊。展望未来,我们希望其他人能够在协议之上构建,在众多利基市场中提供丰富的用户体验和特定功能。我们预计这个蓬勃发展的生态系统将从基于专家知识的应用程序开始,允许非专家使用类似于现有 Web2 解决方案(如亚马逊的 SageMakerDataRobot)的抽象来构建和部署 ML 解决方案。

除了人类在模型设计方面的知识之外,还有三个基本问题减缓了应用机器学习的进展:

  1.  

    获得计算能力;

  2.  

    访问数据;和

  3.  

    获取知识(真实标签)。

Gensyn 通过以公平的市场价格提供对全球可扩展计算的按需访问来解决第一个问题。Gensyn 基金会将寻求通过研究、资助和与其他协议的合作来鼓励解决两个和三个问题。

 
长远眼光

Gensyn协议将使任何人都能够使用自组织网络为任何任务训练ML模型,该网络涵盖了现有的所有计算能力来源。

随着 Web3 Dapp 复杂性和基础设施要求的增加,它们被迫退回到不存在 Web3 资源的 Web2 上。通过去中心化 ML 计算,Gensyn 协议原生为 Web3 带来了一个关键的基础设施组件——减少对 Web2 的依赖,并进一步加强和去中心化整个生态系统。

深度学习已经显示出令人难以置信的泛化能力,并且看起来将在ML的未来中发挥巨大作用。 在Gensyn协议上训练的基础模型将是去中心化的和全球拥有的 - 使人类能够平等地从协作ML开发和训练中受益。使用微调在这些基础模型的基础上进行构建,就像定义任务并为微调工作支付公平的市场价格一样简单——消除当前存在的障碍。

几十年来,机器学习一直在学术界和工业界的孤岛中发展。Gensyn 协议通过具有去中心化所有权的通用基础设施将这些孤岛连接起来,使全人类能够作为平等的先驱快速、集体地探索人工智能的未来。将这个网络与分层训练和集体拥有的基础模型相结合,为真正实现AGI提供了一条途径--人类的下一步。

 
参与其中

您可以在 Twitter 上关注我们的进展。如果您有兴趣贡献计算资源、使用网络执行 ML 任务或加入我们,请给我们留言。我们很想聊聊。