A case for Intelligent RAM/DISK

IRAM/IDISK是UC伯克利大学计算机学院的一个科研项目。文中数据来源与写作时行业发展状况。

IRAM

Intro

Intelligent RAM，IRAM将处理器和内存融合到一块chip上以降低内存延迟、增加内存带宽以及提高能耗利用率。IRAM提供灵活的内存大小、组织选择，可以节约板上面积。文本回顾了微处理器以及DRAM在当时的发展状况，探讨了IRAM面对的机遇以及挑战，最后预估了三种IRAM设计的性能和能耗。

Why there is a problem

半导体行业划分成微处理器和存储两个阵营带来了诸多好处。

首先，生产商可以为特定设备定制生产线微处理器生产线提供了快速晶体管、快速逻辑和许多金属层，以加速通信和简化电力分配。另一方面，DRAM晶圆厂提供了许多多晶硅层，以实现较小的DRAM电池和低漏电流，以降低DRAM的刷新率。其次，单独的芯片也意味着单独的包装，计算机设计者可以不依赖于处理器的数量，扩展存储芯片的数量。

但是两大阵营的划分也有缺点，主要就是处理器和内存之间的性能差距越来越大。系统架构层面人们尝试引入越来越深的cache、memory架构来减小这一差距，但是随着存储层级的增加，最坏情况下的访存延迟也在增加。访问主内存的长延迟和受限带宽约束了某些应用的性能。

Why IRAM is a potential solution

把处理器嵌入在DRAM中而不是提升处理器上的SRAM，因为实际上DRAM的密度是微处理器上cache内存的25到50倍，因为DRAM用到了3D结构来降低存储单元的尺寸。IRAM在目前看来是具有吸引力的。首先，处理器和DRAM的性能差距逐年增大，虽然从架构、编译器、应用开发的角度可以缓解，但是内存速度在当下限制者更多应用的性能。其次，Dbit DRAM其有能力讲整个程序和数据集装入单个芯片（chip），最后，DRAM模具每一代增长了约50%，并使用了更多的金属层，以加速与更大尺寸相伴而来的更长的生产线。

Potential advantages

Higher bandwidth 更高的带宽
Lower latency 更低的延迟
Energy efficency 能源利用率更加高效
Memory size and width 可调整的大小与片上DRAM宽度
Board space 节省板上空间

Potential disadvantages

Area and power impact of increasing bandwidth to the DRAM core
Retention time of DRAM core when operating at high temperatures
Scaling a system beyond a single IRAM
Matching IRAM to the commodity focus of the DRAM industry
Testing IRAM

然而，在这样的革命发生之前，该领域需要对这些问题提供更准确的答案：

What are the speed, area, power, cost, and yield of logic in a DRAM process?
DRAM 工艺中逻辑的速度、面积、功率、成本和良率是多少？
What are the speed, area, power, and yield of cachelike memory in a DRAM process?
DRAM 工艺中类似高速缓存的内存的速度、面积、功率和产量是多少？
How does DRAM change if it targets low latency?
如果 DRAM 以低延迟为目标，DRAM 会如何变化？
How does DRAM change if it targets large internal bandwidth?
如果 DRAM 以较大的内部带宽为目标，DRAM 会如何变化？
How do we balance DRAM’s requirement for low power to keep refresh rates low with microprocessors ‘ requirement for high power for high performance?
我们如何平衡 DRAM 对低功率以保持低刷新率的要求与微处理器对高功率以实现高性能的要求？
Can the microprocessor portion of an IRAM have redundant components so as to achieve the same yields that DRAM achieves using redundancy?
IRAM 的微处理器部分能否具有冗余组件，以实现与使用冗余的 DRAM 相同的产量？
Can built-in-self-test bring down the potentially much higher costs of IRAM testing?
内置自检能否降低 IRAM 测试的潜在更高成本？
What is the right way to connect up to 1,000 memory modules to a single CPU on a single-chip IRAM?
将多达 1,000 个内存模块连接到单芯片 IRAM 上的单个 CPU 的正确方法是什么？
What computer architectures and compiler optimizations turn the high bandwidth of IRAM into high performance?
哪些计算机架构和编译器优化将 IRAM 的高带宽转化为高性能？
What is the right memory hierarchy for an IRAM, and how is that hierarchy managed?
IRAM 的正确内存层次结构是什么，该层次结构是如何管理的？
What is the architectural and operating system solution for IRAM when applications need more memory than an IRAM provides on chip?
当应用程序需要比 IRAM 提供的更多内存时，IRAM 的架构和操作系统解决方案是什么？
Given the changes in technology and applications since the early 1980s, when RISC research was developed, is it time to investigate new instruction set architectures?
鉴于自 1980 年代初期以来技术和应用的变化，当 RISC 研究得到发展时，是时候研究新的指令集架构了吗？

IDISK

决策支持系统和数据仓库负载在当下（本文写作时）的数据市场中的占比逐渐上升。DSS系统所需的I/O性能以及相关的处理需求正在高速增长，为了应对持续增长的存储与计算需求，本文为决策支持的数据服务提供了一种架构，可以利用IDISKs。IDISKs利用低成本嵌入式通用处理器、主存、高速串行通信连接。通过将计算从昂贵的台式处理器中卸载，IDISK系统可以提高系统的性能。更重要的是IDISK架构允许系统的处理能力随着增加的存储需求一起扩展。

无共享集群有许多工作站组成。集群主要的优势在于其增长的可扩展能力，以及并行无共享数据算法发展带来的高性能。但是无共享集群也有一些缺点，例如节点的I/O总线性能瓶颈、分布式系统管理带来的挑战、低效的封装、桌面微处理器对于数据应用的不适用性。本文提出了一选择，将集群服务器中的标准节点替换成IDISK，每一个IDISK都是一块硬盘，包含了嵌入式处理器，几十到几百MB的内存，以及每秒GBits的网络连接。

基于IDISK的结构提供了性能优势，首先通过将计算任务从昂贵的中央台式处理器卸载到廉价的嵌入式硬盘处理器中，IDISK系统将比传统系统产生更小的花费。其次，IDISK将计算放置在近数据端，降低了I/O系统中的数据迁移。另外，IDISK架构允许系统的处理能力随着增长的存储需求扩展。最后，通过在IDISKs之间利用交换机，这个结构提供一个真正可扩展的I/O子系统，克服传统的基于主线的系统的I/O瓶颈。

我们看到有五种趋势使得IDISK方案可行：

商品磁盘包括嵌入式处理器和内存。
嵌入式cpu的成本要低得多，其整数性能在桌面cpu的2倍以内。
磁盘已开始包括高速串行链接。
高速链接和交换机是经济的。
结合嵌入式处理器、内存和串行线的集成设备正在开发中，以满足磁盘制造商的要求。