您当前所在位置: > 爆料站 > 有深度

你的算法耗尽全球GPU算力都实现不了,DeepMind阿尔法系列被华为怒怼

时间:2019-11-21 16:28:26  来源:  作者:网络

原标题:你的算法耗尽全球GPU算力都实现不了,DeepMind阿尔法系列被华为怒怼

参与:一鸣、杜伟

DeepMind 在强化学习领域具有很高的学术声誉。从 AlphaGo 到 AlphaStar,每一项研究都取得了举世瞩目的成就,但就在最近,DeepMind 的一篇有关多智能体强化学习的论文被华为英国研究中心「打脸」。华为论文指出,DeepMind 的这项研究存在多个问题。

研究者认为,如果要复现近日 DeepMind 登上《Nature》子刊的论文,需要动用高达一万亿美元的算力,这是全球所有算力加起来都不可能实现的。

那么,DeepMind 的这份研究是什么,按照华为论文的说法,存在的问题是什么呢?

  • 华为英国研发机构论文:https://arxiv.org/abs/1909.11628
  • DeepMind 论文:https://arxiv.org/pdf/1903.01373.pdf

被怼的 DeepMind 论文

作为 DeepMind「阿尔法」家族的一名新成员,α-Rank 于今年 7 月登上了自然子刊《Nature Scientific Reports》。研究人员称,α-Rank 是一种全新的动态博弈论解决方法,这种方法已在 AlphaGo、AlphaZero、MuJoCo Soccer 和 Poker 等场景上进行了验证,并获得了很好的结果。

华为论文计算的花销成本(以美元计)如下图 2 所示,其中考虑到了英伟达 Tesla K80 GPU 能够以每秒 0.9 美元、最高 5.6 GFlop/s 的单精度下运行。

图 2:计算α-Rank 时构造转换矩阵 T 的花销成本。

这里请注意,当前全球计算机的总算力约为 1 万亿美元(红色平面)。投影轮廓线表明,由于α-Rank「输入」的算力需求呈指数级增长,用 10 个以上的智能体进行多智能体评估是根本不可能的。

最后,在论文中,华为研究人员提出了一个对α-Rank 的解决方法,名为:α^α-Rank。该方法使用了随机优化策略,能够大大降低计算复杂度。

α-Rank 原理

α-Rank 是 DeepMind 提出的一项强化学习研究,主要针对的是多智能体强化学习的场景。强化学习是一种利用智能体在搜索空间进行探索,并根据其选择的策略给予恰当奖励,使其逐渐收敛到最佳策略上的方法。和一般的强化学习不同,多智能体强化学习中有多个智能体,多个智能体和环境进行交互时就会带来比单个智能体复杂得多的情况。

在多智能体系统中,每个智能体都会通过与所在环境的交互来获取奖励值(reward),进而学习改善自己的策略,并获得该环境下行动的最优策略。在单智能体强化学习中,智能体所在的环境是稳定不变的。但是,在多智能体强化学习中,环境是复杂、动态的,因此不可避免地会给学习过程带来诸多困难。

MARL 最简单的形式是独立强化学习(independent RL,InRL),每个学习器不理会其他智能体,将所有互动作为自己(「局部」)环境的一部分。此外,还有许多智能体和环境以及彼此之间进行交互的研究,智能体彼此之间需要协作,形成联合策略(joint strategy)。要评估智能体选择的策略,就需要对联合策略进行评价。

因此,在可扩展的多智能体强化学习策略评估和学习中存在两个主要的困难。首先,联合策略空间(即所有智能体的策略总和)会随着智能体数量的增加而快速增长。其次,这种多智能体的游戏很可能会演变成一种「石头剪刀布」的循环行为,使得评价策略的好坏变得很困难。为了解决第二个问题,很多多智能体强化学习研究只能将智能体研究转换为博弈论的方法,按照最终博弈结果所得到的的固定分数进行评价。

最近,在解决多智能强化学习这一任务上,DeepMind 又提出了一个名为α-Rank 的方法。这是一个基于图和博弈论的多智能体协作评估解决方案。α-Rank 采用了马尔科夫-康利链(Markov Conley Chains),用于表示游戏动态过程,并尝试计算一个固定的分布。对联合策略的排名按照分布产生。

具体而言,DeepMind 的这篇论文将评估多智能体的问题转换为一个马尔科夫链的固定分布。假设有 N 个智能体,每个智能体有 k 个策略,则该马尔科夫链可被定义为一个联合策略图,有着的转移矩阵。而要被计算的固定概率分布 ν∈R^k^N,用于解 Tν=ν。v 的质量函数就是联合策略的排名分数。这一方法的亮点在于将多智能体的联合策略作为一个固定分布,以便进行排名和评估。

图 1:有 3 个智能体。a)每个智能体有 3 个策略(用颜色区分)和 5 个副本。每个智能体集群有一个 Pi 值,用于衡量其选择的策略;b)当一个突变策略(红色星星)发生的时候;c)每个群体选择维持原有策略,或者选择突变策略。

在 α-Rank 中,N 个智能体的策略会通过突变和选择进行评价。开始时,智能体集群会构建多个学习器的副本,并假设每个集群中的所有智能体都会执行同一个固定策略。这样一来,α-Rank 会通过随机采样每个集群中的学习器,用于模拟多智能体的博弈环境。在游戏结束时,每个参与的智能体的可以获得一个收益,这个收益可以用于策略突变和选择。在这里,智能体面临一个概率选择——换成突变策略、维持原有策略,或者随机选择一个和前两个不一样的新策略。这一过程持续,目标是决定一个主要的进化方法,并在所有集群的智能体中传播。

反驳理由

华为论文的反驳理由主要是根据α*-*Rank 的计算复杂度进行批判的。α-Rank 声称能够根据智能体的数量在多项式时间内解出问题,但华为论文认为实际的复杂度会随着智能体数量呈几何级别的增长,实际上是一个 NP 困难问题。

α-Rank 的计算复杂度太高

原始的α-Rank 研究声称其算法可解,因为随着联合策略的数量增加,其算法可在多项式时间内完成。根据这一定义,如果α-Rank 有多项式的复杂度,则计算时间应当和公式:O (N × k)^d,(d 和 N(智能体数量)、K(策略数量)独立)相称。而如果算法要求计算一个固定概率分布,有着一个 k^N 行和列的转移矩阵,则时间复杂度应该是 O(k^N)。很显然,这个结果是几何级的,因此不可解。华为论文的研究者认为,α -Rank 中计算最高的联合策略过程是一个 NP 困难问题。

从以上的计算复杂度研究可以得出一个结论,如果按照α-Rank 的方法计算一个固定概率分布,有着ε个固定策略,且精确度参数ε大于 0,可以有多种算法进行计算,计算复杂度如下表 1 所示。而任何一种现有的计算这个固定概率分布的方法都会因智能体的数量增长呈现几何级的复杂度增长。

表 1:以 N(智能体数量)×K(策略数量)表作为输入时的时间和空间复杂度比较。

α-Rank 的输入定义不清

除了计算复杂度问题,华为论文对α-Rank 的输入进行了讨论。DeepMind 的论文给出了这些智能体的复杂度计算结果,并声明了它们的可解性。但是,华为论文想要阐明的一点是,在没有正式定义输入的情况下,此类定义并不能反映真正的底层时间复杂度,因此很难声称这些智能体的可解性。

为此,华为论文举了解决旅行推销员问题的例子,这位旅行推销员需要造访一系列城市,同时又要按照最短的路线返回最初的城市。尽管大家都知道旅行推销员问题属于一种 NP 困难问题,但按照α-Rank 的思路,这一问题可以简化为「元城市」规模的多项式时间(线性,如可解决)问题,这并不是一种有效的声明。

华为论文指出,即使可以说排列数量确定的情况下可以在多项式复杂度中解决旅行推销员问题,这并不能说明任何类似的算法都是可解的。即使算法可以在多项式时间内解决问题,但其空间是几何级规模的,这并不能说明它是可解决的。因此,要说解决了复杂度的问题,就需要对输入进行调整。

一万亿算力都打不住

在以上问题都没有清楚解决的情况下,华为论文只能按照推测,将α-Rank 的输入考虑作为指数级的收益矩阵。接着,他们进行了一项实验,对仅执行算法 1 中第 3 行的扩展性评估花销进行了计算,同时也考虑到了 DeepMind 本篇论文《α-Rank: Multi-Agent Evaluation by Evolution》中的任务。

华为论文计算了α-Rank 算法 1 中第 3 行的扩展性评估的花销成本。

此外,构建公式 2 中 T 所需的浮点运算总量为。

公式 2。

而就构建上述公式 2 中的 T 而言,华为论文计算的花销成本(以美元计)如下图 2 所示,其中考虑到了英伟达 Tesla K80 GPU 能够以每秒 0.9 美元、最高 5.6 GFlop/s 的单精度下运行。

图 2:计算α-Rank 时构造转换矩阵 T 的花销成本。

这里请注意,当前全球计算机的总算力约为 1 万亿美元(红色平面)。投影轮廓线表明,由于α-Rank「输入」的算力需求呈指数级增长,用十个以上的智能体进行多智能体评估是根本不可能的。

同样值得注意的是,华为论文的分析没有考虑存储 T 或计算平稳分布的花销,因而他们的分析是乐观的。

此外,如果将α-Rank 的输入加入收益矩阵并按照 DeepMind 论文的实验跑 AlphaZero,即使用上全球所有算力,也得花上超过 5200 年。

其他的算法也都不可行——在华为研究人员估算下,即使将收益矩阵加入α-Rank 跑 DeepMind 几个著名算法需要用到的资金花费和时间都是天文数字。注意:在这里预设使用全球所有的算力。

华为提出改进方法α^α-Rank

华为在其论文中采用了一种随机优化方法,该方法通过对收益矩阵的随机采样而获得解决方案,同时无需存储指数大小的输入。与上表 1 中的内存需求相反,这一方法的复杂度为 O(Nk),每次迭代的复杂度为线性。值得注意的是,在启动任何数字指令之前,大多数其他方法需要存储指数大小的矩阵。尽管在理论上没有导致时间复杂度的减弱,但华为论文利用 double-oracle 启发式来扩展其算法,进而实现了联合策略下的空间减小。事实上,华为论文中的实验表明,α^α-Rank 可以在大型策略空间的数百次迭代下收敛至正确的顶级策略。

华为提出的改进方法。

华为论文表明其α^α-Rank 具有可扩展性,能够成功地在无人驾驶汽车模拟和伊辛模型(Ising model,一种具有数千万可能策略的设置)获得最优策略。他们注意到,当前 SOTA 方法的性能远远无法满足此等规模的需求。α-Rank 认为 4 个智能体最多可以采用 4 种策略。华为论文中的所有实验仅仅是在 64GB 内存和 10 核心英特尔 i9 CPU 的单机上运行的。

图 5:大规模多智能体评估。(a)无人驾驶模拟中最优联合策略组合的收敛性;(b)伊辛模型的平衡状态。

「WAIC 开发者·临港人工智能开发者大会」将于 2019 年 12 月 6 日-7 日上海临港举办。本次大会设有主题演讲、开发者工作坊、开发者挑战赛、技术和产业闭门研讨会等环节。邀请全球AI开发者在现场:听前沿理论+学实战干货+动手挑战赛。点击阅读原文,立即报名。游戏网

相关下载

玩家评论

你们倒是提问啊,比如阿尔勒咋么样?

非常好,不错,挺好的,详情>>

阅读: 2
日期: 2020-03-08
阿尔及利亚累计确诊17例,16例被首例传染

原标题:阿尔及利亚累计确诊17例,16例被首例传染 原标题:阿尔及利亚累计确诊17例,16例被首例传染 据阿尔及利亚卫生、人口和医疗改革部3月4日消息,阿尔详情>>

阅读: 2
日期: 2020-03-06
安家:给阿尔法做绝育手术,徐姑姑良心过不去,化身为戏精太搞笑_张乘

《安家》张在热播,徐姑姑、张乘乘与房似锦之间的关系,也是备受关注的。这样的三个人,徐姑姑算是一个绝世好男人,张乘乘则是渣女的典型代表,至于房似锦,因为家庭的原详情>>

阅读: 6
日期: 2020-03-04
《魔兽世界》资料片最终九大尾王实力排名阿尔萨斯只排第六?

《魔兽世界》每一个团本的尾王都是玩家热议的角色,而其中资料片的最终BOSS更是如此,诸如悲情王子阿尔萨斯、野心酋长地狱咆哮、死亡之翼耐萨里奥等等详情>>

阅读: 7
日期: 2020-02-24
体验二战谍战!冒险新游《越过阿尔卑斯》上架Steam

根据Steam商城的消息,谍战冒险游戏《越过阿尔卑斯 (Over the Alps)》预计将于2020年4月1日在Steam平台发售,游戏支持简体中文,玩家将体验希区柯克式令人详情>>

阅读: 7
日期: 2020-02-21
【阳光100阿尔勒】73平的还有特价房吗?

您好有的哦,可以咨询我,有的,有的,可以加微信聊!详情>>

阅读: 10
日期: 2020-02-19
魔兽世界:希女王和大王都没错只是方式不同?阿尔萨斯则只能堕落

在魔兽世界打的剧情中,洛丹伦不是主战国只是联盟的主导者,而一战的主战国是暴风城。二战时期联盟已经形成,部落从南奔袭到北没有哪个国家是主战国大家详情>>

阅读: 17
日期: 2020-02-13
格库铁路实现最长“穿越”阿尔金山隧道正式贯通

原标题:格库铁路实现最长“穿越” 阿尔金山隧道正式贯通 央广网若羌11月20日消息(记者吴卓胜 通讯员吴奇 徐多雄)19日11时30分,伴随一声炮响,在群山中跋涉的格详情>>

阅读: 11
日期: 2020-02-12
魔兽世界:阿尔萨斯黑化成巫妖王以后,有三个线索证明他还活着!

魔兽世界斯坦索姆是北方粮食的枢纽,斯坦索姆马上就要变成一座亡灵的大本营,如果不去尽早救援,联盟面对的就是亡灵大军的进攻。从结果上看,官方在动画里详情>>

阅读: 4
日期: 2020-02-10
Epic独占结束!《创世纪阿尔法一号》2月25日登Steam

Roguelike类太空冒险FPS游戏《创世纪:阿尔法一号》发行商Team17日前宣布,本作PC版Epic限时独占期限已过,将于2月25日登陆Steam和GOG平台。 官方介详情>>

阅读: 9
日期: 2020-02-09
斗鱼魔兽世界首杀赛:阿尔法暂列世界第五,Method在蓄力_战队

原标题:斗鱼魔兽世界首杀赛:阿尔法暂列世界第五,Method在蓄力 《魔兽世界》它是多少人逝去的青春,但如今,魔兽世界电竞界又开始处于风暴中心,因为斗鱼详情>>

阅读: 9
日期: 2020-02-04
斗鱼魔兽世界首杀赛:阿尔法暂列世界第五,Method在蓄力

《魔兽世界》它是多少人逝去的青春,但如今,魔兽世界电竞界又开始处于风暴中心,因为斗鱼直播平台在1月28日强势开启了《魔兽世界》8.3版本最新团队副本"尼奥罗萨详情>>

阅读: 7
日期: 2020-02-03
机动都市阿尔法云雀玩法攻略机动都市阿尔法云雀使用技巧分享

今天小编为大家带来的是机动都市阿尔法游戏中云雀的玩法攻略,下面我们一起来看一下游戏中云雀有哪些使用技巧吧。我们可以看到云雀的 猎 有大幅度的增强不过相比于更高的伤害详情>>

阅读: 10
日期: 2020-02-03
机动都市阿尔法亚瑟攻略大全亚瑟玩法及模组推荐

机动都市阿尔法中亚瑟十分强力,亚瑟玩法是什么呢?亚瑟模组选什么好呢?今天小编就带来一篇机动都市阿尔法亚瑟攻略大全 亚瑟玩法及模组推荐,一起来看看吧:亚瑟攻略大全玩法1.武器&详情>>

阅读: 10
日期: 2020-02-03
机动都市阿尔法亚瑟玩法攻略机动都市阿尔法亚瑟使用技巧

今天小编为大家介绍一下机动都市阿尔法游戏中的亚瑟的玩法介绍吧,在这个游戏中亚瑟是一个非常快乐的角色,下面我们一起来看看亚瑟的使用技巧吧。剑能是自动恢复的,虽然上限为六详情>>

阅读: 6
日期: 2020-02-03
魔兽世界:伊利丹已被暴雪成功洗白!那阿尔萨斯的翻身之路还远吗

魔兽世界中当阿尔萨斯拔出霜之哀伤杀完恐惧魔王之后,他就天天被巫妖王开了精神链接最后疯了,当然这个也要赖他意志不坚定,讲道理风行者也天天被虚空碎详情>>

阅读: 11
日期: 2020-01-31
《魔兽争霸》高清重制战役归来阿尔萨斯变帅100倍

《魔兽争霸III》除了 Solo和RPG好玩之外,还有其战役也是一大玩点,玩家能够通过每一集的剧情,深入了解各个人物的诞生灭亡、荣辱始末,感受不一样的人物详情>>

阅读: 10
日期: 2020-01-30
魔兽争霸重制版战役剧情来了!全新4KHDR阿尔萨斯行孝现场

一款游戏能把整个故事剧情做的不输电影是很不容易的,《魔兽争霸III:重制版》就给了我们这样一种体验。1月29日全面开放战役剧情中,小编就被人族阿尔详情>>

阅读: 23
日期: 2020-01-30
还记得童星阿尔法吗?19岁谢顶被争议,21岁的他植发后颜值回春_观众

原标题:还记得童星阿尔法吗?19岁谢顶被争议,21岁的他植发后颜值回春 新生代的童星陆续走红,比起曾经的杨紫、张一山等完美转身,也有不少人逐渐淡出记忆详情>>

阅读: 7
日期: 2020-01-20
《魔兽争霸3重制版》内容曝光 阿尔萨斯率领亡灵大军地狱归来

今日(1月16日),暴雪中国官网发布了《魔兽争霸3:重制版(Warcraft III: Reforged)》新开发日志,介绍了重制版中不死族背后的开发故事。 开发日志原文: 燃烧军团的恶魔大军或许详情>>

阅读: 18
日期: 2020-01-16
《FGO》新宿阿尔托莉雅(Alter)手办买车送老婆!

【导读】阿尔托莉雅·潘德拉贡Alter是TYPE-MOON旗下《Fate系列》及其衍生作品的登场角色。可简称为Saber Alter。-->   GSC《Fat详情>>

阅读: 8
日期: 2020-01-14
石泰峰:走好以生态优先绿色发展为导向的高质量发展新路子_阿尔山市

原标题:石泰峰:走好以生态优先绿色发展为导向的高质量发展新路子 石泰峰在阿尔山市调研时强调 立足实际 发挥优势 走好以生态优先绿色发展为导向的详情>>

阅读: 3
日期: 2020-01-01
中国原创治疗阿尔茨海默病新药正式上市;神州优车HR当面宣读裁员通知;罗永浩回应被鲨纹科技解约:会写一个澄清稿

原标题:中国原创治疗阿尔茨海默病新药正式上市;神州优车 HR 当面宣读裁员通知;罗永浩回应被鲨纹科技解约:会写一个澄清稿 中国原创治疗阿尔茨海默病新详情>>

阅读: 5
日期: 2019-12-30
HyperXCloudAlphaS阿尔法加强版游戏耳机在2019五星奖中荣获:优秀产品奖_科技

原标题:HyperX Cloud Alpha S阿尔法加强版游戏耳机在2019五星奖中荣获:优秀产品奖 2019年科技行业钜变,数千款产品被精心雕琢成行业精品,等待着最终的详情>>

阅读: 5
日期: 2019-12-24
快讯!阿尔及利亚人民军总参谋长艾哈迈德•盖德•萨拉赫去世_国家电视台

原标题:快讯!阿尔及利亚人民军总参谋长艾哈迈德•盖德•萨拉赫去世 【环球网快讯】据法新社23日最新消息,阿尔及利亚国家电视台透露,该国人民军总参谋长详情>>

阅读: 7
日期: 2019-12-23
阿尔山首次举办冰雪国际马拉松千余名运动员激情开跑

原标题:阿尔山首次举办冰雪国际马拉松 千余名运动员激情开跑 图为阿尔山国际马拉松开跑。 阿尔山市融媒体中心供图 中新网阿尔山12月22日电 (张玮详情>>

阅读: 9
日期: 2019-12-22
这位拯救了型月的少女,开始疯狂增殖了!_阿尔托莉雅

原标题:这位拯救了型月的少女,开始疯狂增殖了! (资源已经搜集好啦,大家回复“fate”就能看啦) 随着外传小说《阿瓦隆之庭》的面世,《Fate Stay Night》原详情>>

阅读: 7
日期: 2019-12-17
【魔兽世界】为什么说阿尔萨斯自始至终都是一个病态的角色_兰吉

原标题:【魔兽世界】为什么说阿尔萨斯自始至终都是一个病态的角色 阿尔萨斯就算没有受到巫妖王和天灾军团的蛊惑,按照他接触到“霜之哀伤”之前的详情>>

阅读: 7
日期: 2019-12-04
阿尔巴尼亚发生强烈地震已致22人死亡600多人受伤

原标题:阿尔巴尼亚发生强烈地震 已致22人死亡600多人受伤 人民网讯 据法新社报道,阿尔巴尼亚26日发生数十年来最强烈地震,首都地拉那和国内西部、北部天摇地详情>>

阅读: 9
日期: 2019-12-03
用AI启迪未来新人类,阿尔法蛋三款新品齐发

原标题:用AI启迪未来新人类,阿尔法蛋三款新品齐发 11月26日,阿尔法蛋2019新品媒体沟通会在北京中华航天博物馆召开,此次媒体沟通会以“上星啦!阿尔法详情>>

阅读: 3
日期: 2019-11-26
阿尔巴尼亚发生6.4级地震,已致6死300伤

原标题:阿尔巴尼亚发生6.4级地震,已致6死300伤 新京报快讯(记者 谢莲 实习生 钱雅卓)据美联社报道,当地时间26日凌晨4点左右,阿尔巴尼亚发生里氏6.4级地详情>>

阅读: 6
日期: 2019-11-26
AI如何赋能产业,阿尔法狗Wooldridge、王坚、傅盛等会给出什么答案?|T-EDGE倒计时11天

原标题:AI如何赋能产业,阿尔法狗Wooldridge、王坚、傅盛等会给出什么答案? | T-EDGE 倒计时11天 图片来源@视觉中国 自从阿法狗(AlphaGo)战胜世界最好详情>>

阅读: 9
日期: 2019-11-26
双生视界阿尔忒弥斯攻略阿尔忒弥斯属性与使用点评

双生视界中的阿尔忒弥斯是很多玩家喜欢的武器,本次就为大家带来了双生视界阿尔忒弥斯攻略,包括阿尔忒弥斯属性与使用点评,非常全面的内容,想了解的朋友可以参考,希望能帮到大家。详情>>

阅读: 4
日期: 2019-11-25
旅行物语阿尔邦挑战玩法指南旅行物语阿尔邦打法攻略

旅行物语中的阿尔邦怎么打呢?打阿尔邦该使用什么角色呢?下面小编就给大家带来了旅行物语阿尔邦挑战玩法指南及阵容角色推荐攻略,一起来看看吧。阿尔邦为地属性,对水属性队长伤详情>>

阅读: 8
日期: 2019-11-22
格库铁路实现“最长穿越”阿尔金山隧道贯通

原标题:格库铁路实现“最长穿越” 阿尔金山隧道贯通 中新社乌鲁木齐11月19日电 (吴奇 徐多雄)格库铁路(青海格尔木—新疆库尔勒)完成了历时3年零6详情>>

阅读: 10
日期: 2019-11-19
阿尔萨斯VS伊利丹谁更悲情?《魔兽世界》中让人潸然泪下的十大感人剧情TOP10!

【导读】《魔兽世界(World of Warcraft)》中有着无数感人的剧情故事,小编今天为大家来盘点一下《魔兽世界》中让人潸然泪下的十大感人剧情TOP10,一起来看看吧! 详情>>

阅读: 8
日期: 2019-11-17
精彩推荐