<kbd id='VEIFuRPsaaB6lAO'></kbd><address id='VEIFuRPsaaB6lAO'><style id='VEIFuRPsaaB6lAO'></style></address><button id='VEIFuRPsaaB6lAO'></button>

        查看内容

        谋略机架构顶会ISCA 2018论文:清华大学。提出AI谋略芯片_恒峰娱乐提现

        ISCA 是谋略机架构领域的顶会,本年[jīnnián]的 ISCA 之前[zhīqián]在洛杉矶落幕。本次大会。共收到 378 篇投稿。,收录 64 篇论文,而华大学。的一篇研究论文是本年[jīnnián]大会。被收录的签名完成。单元的论文。据了解,论文作者[zuòzhě]均为华大学。微纳系师生。,清华大学。微纳系尹首一副传授为本文通信作者[zuòzhě],涂锋斌为本文作者[zuòzhě],论文互助者[zuòzhě]还包罗清华大学。微纳系魏少军传授、刘雷波传授和吴薇薇同砚。呆板之心对来自清华的这篇论文举行了编译介绍。


        卷积神经收集今朝已经于任务中,但由于其参数数目与储存[chǔcún]的特性图数据,它很难布置到端中。尤其是当输入图像的辨别率增添,收集储存[chǔcún]的特性图将大大增添,这会增添对谋略资源的需求。


        今朝 CNN 加快器 [7-11] 已经在为设计更高能效的 CNN 处置而做起劲,可是芯片面积小则限定了片上缓存巨细。片上缓存巨细不高出 500KB,面积开销为 3 16mm^2(归一化为 65nm)。当处置器谋略 VGG 和 ResNet 等深度模子时,它们必要分外的片外存储。会见。


        盘算机架构顶会ISCA 2018论文:清华大学。。提出AI盘算芯片

        表 2:SRAM 与 eDRAM 的特点比拟。(32KB,在 65nm 手艺结点中)。


        嵌入式 DRAM(eDRAM)以其高密度, CNN 加快器接纳它提供的片上内存[nèicún]能力 [12-15]。如表 2 所示,eDRAM 的面积本钱。在 65nm 手艺节点中是 SRAM 的 26%(用 Destiny [16] 模仿)。然而,因为 eDRAM 单位将数据存储。为电容上的电荷,因此电荷会跟着时间的推移而泄露并造成数据。因此,eDRAM 必要革新[shuāxīn]以维持数据性。革新[shuāxīn]距离凡是即是最弱单位的保存时间([6] 中为 45μs)。我们哄骗[shǐyòng] eDRAM 缓存在。我们的评估平台。上模仿 ResNet[4],并发明 eDRAM 的革新[shuāxīn]能耗如图 1 所示在体系总能耗中占了很大的比重。尽量 eDRAM 缓存解决了的片外存取题目,但革新[shuāxīn]能耗成为。了我们忽视。的新题目。 


        盘算机架构顶会ISCA 2018论文:清华大学。。提出AI盘算芯片

        图 1:ResNet 在评估平台。上的能耗细节。


        我们发明假如 eDRAM 缓存中的数据生涯时间短于 eDRAM 单位的保存时间,那么就不必要革新[shuāxīn]。在本论文中,研究者们提出了一种基于保存时间的神经加快(RANA)框架,它通过优化了革新[shuāxīn]的 eDRAM 加强 CNN 加快器的结果,并节减体系总能耗。该框架解决了两个题目,即导致。片上内存[nèicún]能力限定的缓存存储。题目和由 eDRAM 革新[shuāxīn]发生的数据保存题目。RANA 包括三个级其余优化手艺:


        训练阶段:提出了一种基于保存期的训练方式以提拔 eDRAM 的答应保存时间,且不会[búhuì]造成度丧失。训练时注入比的保存缝隙,因此能提高收集对保存失败的容忍度。更高的容错率导致。更长的容忍保存时间,以是更多的革新[shuāxīn]就去除了。

        调剂阶段:思量谋略能耗、片上缓存存取能耗、革新[shuāxīn]能耗和片外内存[nèicún]存取能耗来构建体系能耗模子。RANA 调剂收集基于这一模子的混算模式。每一个神经收集层级城市分派有最低能耗的谋略模式。

        架构阶段:RANA 基于存储。数据的寿命。地禁用 eDRAM banks 的革新[shuāxīn],以节减更多的革新[shuāxīn]能耗。研究者们哄骗[shǐyòng]了可编程的 eDRAM 节制器以容许[yǔnxǔ]细粒度的革新[shuāxīn]节制。


        本论文部门的主题[zhǔtí]如下,第二节劈头介绍了 CNN、CNN 加快器以及 eDRAM。第三节构建了一个能耗分解的评估平台。,并指出[zhǐchū]优化体系能耗的方面。第四节提出了 RANA 框架,包罗三个级其余优化手艺。第五节介绍了 RANA 在评估平台。上的试验后果,而第六节则总结。了该论文。


        CNN 的卷积层取 NxHxL 的特性图作为[zuòwéi]输入,并有 M 个 3D 卷积核(NxKxK)。每个卷积查对输入特性图执行。卷积运算(步幅为 S),天生 RxC 尺寸。的输出特性图。


        盘算机架构顶会ISCA 2018论文:清华大学。。提出AI盘算芯片

        图 2:卷积层图示。

        图 3(a)展示。了在硬件 CNN 实现。中哄骗[shǐyòng]的 CNN 加快器架构。在 CNN 加快器中,,有节制器、权重/输入/输出缓存以及谋略焦点。图 3(b)中展示。了一种的谋略模式,即卷积层运算怎样在 CNN 加快器中执行。。


        盘算机架构顶会ISCA 2018论文:清华大学。。提出AI盘算芯片

        图 3:CNN 加快器的图示。


        嵌入式 DRAM(eDRAM)的密度比 SRAM 高,被用于 CNN 加快器中来提供大芯片容量。 [12-15]。图 4 展示。了 eDRAM 的布局。每个 eDRAM 单位由一个存取晶体管和一个存储。电容器组成。


        盘算机架构顶会ISCA 2018论文:清华大学。。提出AI盘算芯片

        图 4:嵌入式 DRAM(eDRAM)的布局。


        IV. RANA 框架


        当然 eDRAM 的高密度增大了芯片缓存容量。,当收集过大的时刻,缓存存储。题目仍旧存在。。,由 eDRAM 导致。的数据保存题目将发生很大的革新[shuāxīn]能耗。在这一部门,研究者提出了基于保存期的神经加快(Retention-Aware Neural Acceleration,RANA)框架,以革新[shuāxīn]优化的 eDRAM 来强化。 CNN 加快器,从而节减体系总能耗。图 6 是框架的概览。RANA 取 CNN 加快器和方针 CNN 模子的参数作为[zuòwéi]输入,然后天生 3 阶段的事情流。前两个阶段处于编译阶段,用于为加快器天生设置。一个阶段处于执行。阶段,个中加快器基于设置以优化的能耗执行。。


        盘算机架构顶会ISCA 2018论文:清华大学。。提出AI盘算芯片

        图 6:RANA 框架:优化被引入训练阶段、调剂阶段和架构阶段中。