Not your Grandpa's SSD:The Era of Co-Designed Storage Devices
本文是弗里堡大学Alberto Lerner和哥本哈根大学Philippe Bonnet在SIGMOD 2021发表的一篇综述。固态驱动器 (SSD) 只是硬盘驱动器 (HDD) 快速替代品的时代已一去不复返。 得益于 NVMe 生态系统,如今SSD 可以通过特定接口和现代 I/O 框架进行访问。 随着时间的推移,SSD 用途越来越广泛,现在可以支持从冷的高密度存储到热的低延迟存储的各种用例。找出哪种设备变体可以更好地支持给定的工作负载需要深厚的领域知识。本文第一个目标在于探讨不同SSD设计可以较好地支持哪些工作负载。
近来一种新型 SSD 在后摩尔时代计算机系统中起着至关重要的作用。 这些设备除了存储数据之外还可以运行应用程序逻辑,人们可以对SSD内部进行设计使其满足特定工作负载地需求。 因此,它们可以随存储数据量优雅地扩展处理能力。 本教程的第二个目标是为这种新型 SSD 建立设计空间,并为硬件、系统以及数据库研究人员提供探索新型SSD设计空间的工具。
IntroductionInitial SSDs:SSD与HDD相比具有很大的差异。HDD允许原地更新SSDs不允许。HDDs顺序 ...
YourSQL:A High-Performance Database System Leveraging In-Storage Computing(2016 VLDB)
ABSTRACTYourSQL数据库系统利用额外的存内计算对数据密集型查询进行了加速。通过将查询的数据扫描卸载到用户可编程的SSD中,YourSQL实现了早期过滤(early filtering)操作。YourSQL是基于MariaDB部署实现的,通过对不同复杂程度的SQL查询进行实验,YourSQL在TPC-H查询上实现了3.6x的时间加速,同时实验也表明YourSQL也具有随数据集扩展的能耗节省。研究表明,YourSQL结合早期过滤和端到端数据路径优化,可以以更低的能耗加速大规模分析查询。
INTRODUCTIONYOURSQLMotivation Example:Early FilteringOur ApproachDESIGN AND IMPLEMENTIONBasic DesignOptimizationEVALUATION
Query Processing on Smart SSDs :Opportunities and Challenges(SIGMOD 2013)
ABSTRACT数据存储设备越来越智能,智能Flash存储设备(SmartSSD)将CPU处理器与DRAM存储打包到Smart SSD内部,使得用户程序可以在SmartSSD内部运行。本文致力于探索SmartSSD在关系型分析查询处理领域的机会与挑战。文章在三星Smart SSD上部署了基于微软SQL服务器的原型。实验结果表明通过将选择查询处理下推到Smart SSDs中可以获得显著的性能以及能耗收益。本文同时表明了SSD制造商可以采用哪些改变来增加使用SmartSSD用于数据处理应用的收益,同时给出了未来可能的研究机会。
Introduction以往针对数据密集型应用优化的手段本质上还是将数据从存储端移动到Hos端(CPU)并且系统的硬件边界比较明显。随着现在永久存储、易失性存储、以及处理器之间的边界正在逐渐变得模糊,例如如今的手机在单个芯片上集成了诸多部件(Soc趋势)。本文聚焦处理器与非易失性存储在Smart SSD上的集成。SmartSSD是Flash存储设备,不同的是其在SSD中集成了存储与计算。本文探讨在SmartSSD中执行数据库操作的机会与挑战,机会主要为三方面:
与 ...
Dark Silicon and the End of Multicore Scaling
暗硅 Dark Silicon:由于功耗的限制,一个很高端的多核处理器同时只能有很少一部分电路可以同时工作,其余处于非工作状态的门电路叫做”暗硅“;
Dennard Scaling:单位面积功耗保持不变的条件下,半导体工艺制成每前进一代,频率能提高40%,即CPU越来越快,该定律忽视了leakage current和threshold voltage两个因素。之后CPU走向多核时代。
自2005年以来,处理器设计者增加了核心数量来达到摩尔定律预测的性能增长,而不是专注于单核性能的提升。处理器架构转向多核也是对Dennard定律的失败一种响应,然而多核的性能快也会像单核一样收到限制。本文通过结合设备缩放、单核缩放和多核缩放来建模多核缩放的限制,以此衡量未来五代技术一系列并行工作负载的加速潜能。对于设备缩放,我们同时使用ITRS和一组更保守的设备缩放参数。为了模拟单核缩放,我们结合了来自超过150个处理器的测量值,以推导出面积/性能和功率/性能的帕累托最优边界。最后,为了建立多核尺度模型,我们建立了一个详细的上限性能和下限核心功率的性能模型。我们研究的多核设计包括单线程cpu和具有对称、 ...
Active Storage For Large-Scale Data Mining and Multimedia
这篇发表在VLDB上的文章较早地提出利用DISK上计算资源实现数据预处理达到计算加速;
Abstract处理器、存储器性能的提升以及成本的下降使得系统智能从CPU向外围设备迁移。存储系统的设计者们正在利用这些额外的计算资源在存储设备内部实现更加复杂的处理和优化。文章提出了Active Disks系统,该系统可以利用单个磁盘上的处理能力来运行应用层级的代码。将应用程序的处理需求部分迁移到磁盘驱动器上执行可以极大减少数据搬运,同时可以利用大多数系统中存储系统的并行性。
文中随后探讨了数据库、数据挖掘、多媒体领域可以受益于该系统的一些应用。提出一个分析模型用来分析基于该系统的扫描密集型应用可能的性能提升。在数据量足够大的前提下,该模型在数百个磁盘组成的阵列中可以实现线性加速。
Introduction本文评估了利用嵌入式单存储设备处理器运行在数据挖掘、多媒体数据库领域比较常见的数据密集型应用的性能优势。应用程序的发展呈现出生成大量复杂数据集,且通常通过扫描操作处理。很快众多商用存储设备将具备处理并行计算以及高选择性过滤(high-selectivity)的能力,从而减少许多应用程序的执行时间 ...
storage_dictory
在论文阅读时经常会遇到一些专有名词,之前在一本计算机网络书中看到里边有一个专有名词字典,感觉对学习很有帮助,最近在看存储方面的论文,想着应该整理一下遇到的一些专有名词背后的含义,希望对以后的学习能起到促进作用。
HDDSSDRAMSRAMDRAMROM
A case for Intelligent RAM/DISK
IRAM/IDISK是UC伯克利大学计算机学院的一个科研项目。文中数据来源与写作时行业发展状况。
IRAMIntroIntelligent RAM,IRAM将处理器和内存融合到一块chip上以降低内存延迟、增加内存带宽以及提高能耗利用率。IRAM提供灵活的内存大小、组织选择,可以节约板上面积。文本回顾了微处理器以及DRAM在当时的发展状况,探讨了IRAM面对的机遇以及挑战,最后预估了三种IRAM设计的性能和能耗。
Why there is a problem半导体行业划分成微处理器和存储两个阵营带来了诸多好处。
首先,生产商可以为特定设备定制生产线微处理器生产线提供了快速晶体管、快速逻辑和许多金属层,以加速通信和简化电力分配。另一方面,DRAM晶圆厂提供了许多多晶硅层,以实现较小的DRAM电池和低漏电流,以降低DRAM的刷新率。其次,单独的芯片也意味着单独的包装,计算机设计者可以不依赖于处理器的数量,扩展存储芯片的数量。
但是两大阵营的划分也有缺点,主要就是处理器和内存之间的性能差距越来越大。系统架构层面人们尝试引入越来越深的cache、memory架构来减小这一差距,但是随着存储层级 ...
nKV Near-Data Processing with KV-Stores on Native Computational Storage
ABSTRACT现代KV存储中大量的数据迁移来源于低效的data-locality(the process of moving computation to the node where that data resides, instead of vice versa),此外data-to-code系统设计(Data as Code is an approach that gives data teams the ability to process, manage, consume, and share data in the same way we do for code during software development. Data as Code empowers end users to take control of their data to accelerate iterations and increase collaboration)也降低了数据迁移的性能以及可扩展性。NDP的出现可能提供新的解决方法。
这篇论文提出了nKV,其利用了native computa ...
PIM_and_CSD
如今的商用和消费类电子设备都是朝向智能、轻量、便携化的设计路线,但是随之密集的大数据流和算法处理的挑战相对于冯氏架构瓶颈就成为了矛盾;以及器件尺寸微缩带来的功耗与可靠性要求也加剧了这种矛盾。因此近年来才演进出了存算一体需求,进而演变到PIM、未来内存构型以及新计算体系结构的问题,应用场景覆盖不论IDC还是端边侧AIoT。
在经典冯结构中,数据需要在存储、内存、缓存、多个核的计算单元之间不断搬运,且器件彼此的距离相加,导致大量的时间、带宽、缓存空间、功耗都消耗在了搬运上,而非计算上,因此才有了内存墙的问题。为了突破冯结构瓶颈,降低数据搬运的开销,传统技法包括增加数据总线带宽和时钟频率,但随之带来了更大的功耗与硬件成本开销,且扩展性也更加受限。
存算一体的设计宗旨,就是旨在把传统以计算为中心的架构转变成以数据为中心的架构,把以主处理器为单一计算核心的架构转变成由近至远的包括存储/网卡在内的分布式多计算核心的架构;直接利用存储器承担大部分数据处理/计算任务,两种设备融合在同一芯片当中就大幅规避了冯结构影响,尤适用于DL神经网络计算这种大数据流、大规模并行的场景。此外,与亚阈值的digital ...