Highlight



Session


Data


   Paper Name    Author

Noria: Dynamic, Partially-stateful Data-flow For High-performance Web Applications

作者介绍了部分状态数据流,这是一种新的流数据流模型,支持按需驱逐和重建数据流状态。

Jon Gjengset;Malte Schwarzkopf;Jonathan Behrens;Lara Araujo;Martin Ek;Eddie Kohler;M. Frans Kaashoek;Robert Morris;

Deconstructing RDMA-enabled Transaction Processing: Hybrid Is Better!

目前关于哪种RDMA原语(即单侧或双侧)对于分布式事务是最佳的存在争论。在本文中,作者对不同RDMA原语与各种组合进行了系统比较。使用代表性OLTP工作负载进行优化。

Xingda Wei;Zhiyuan Dong;Rong Chen;Haibo Chen;

Dynamic Query Re-Planning Using QOOP

现代数据处理集群具有高度动态性。为了提高工作绩效,最近的工作重点是优化集群调度程序和作业的查询计划程序,重点是选择正确的查询执行计划(QEP)。本文主张动态查询重新规划,其中我们重新评估和在执行期间重新规划工作的QEP。

Kshiteej Mahajan;Mosharaf Chowdhury;Aditya Akella;Shuchi Chawla;

Focus: Querying Large Video Datasets With Low Latency And Low Cost

作者提出了Focus,这是一个在大型视频数据集上提供低成本和低延迟查询的系统。

Kevin Hsieh;Ganesh Ananthanarayanan;Peter Bodik;Shivaram Venkataraman;Paramvir Bahl;Matthai Philipose;Phillip B. Gibbons;Onur Mutlu;


Debugging


   Paper Name    Author

Orca: Differential Bug Localization In Large-Scale Services

今天,我们依赖于电子邮件等基本操作的大规模服务。这些服务非常动态,因为开发人员不断提交代码并引入新功能,修复和新错误。作者已经构建了Orca,一个定制的代码搜索引擎实现差异bug本地化。

Ranjita Bhagwan;Rahul Kumar;Chandra Sekhar Maddila;Adithya Abraham Philip;

Differential Energy Profiling: Energy Optimization Via Diffing Similar Apps

Abhilash Jindal;Y. Charlie Hu;

WPerf: Generic Off-CPU Analysis To Identify Bottleneck Waiting Events

本文试图识别限制多线程应用程序最大吞吐量的等待事件。

Fang Zhou;Yifan Gan;Sixiang Ma;Yang Wang;

Sledgehammer: Cluster-Fueled Debugging

当前的调​​试工具迫使开发人员在功能和交互性之间做出选择。在本文中,他的作者提出了集群驱动的调试,它通过在集群中的多个核心上并行化他们的工作来为强大的调试工具提供交互性。

Andrew Quinn;Jason Flinn;Michael J Cafarella;


File Systems


   Paper Name    Author

Pocket: Ephemeral Storage For Serverless Analytics

无服务器计算正变得越来越流行。然而,在分析工作的执行阶段之间交换中间数据是一项关键挑战,因为无服务器任务之间的直接通信很困难。作者介绍Pocket,一种弹性的分布式数据存储,可自动扩展以提供应用程序具有低成本的理想性能。

Ana Klimovic;Yawen Wang;Christos Kozyrakis;Patrick Stuedi;Animesh Trivedi;Jonas Pfefferle;Christos Kozyrakis;

Sharding The Shards: Managing Datastore Locality At Scale With Akkio

Akkio是一种位于客户端应用程序和分布式数据存储系统之间的位置管理服务。它确定如何以及何时迁移数据以减少响应时间和资源使用。

Muthukaruppan Annamalai;Kaushik Ravichandran;Harish Srinivas;Igor Zinkovsky;Luning Pan;Tony Savor;David Nagle;Michael Stumm;

Write-Optimized And High-Performance Hashing Index Scheme For Persistent Memory

非易失性存储器(NVM)作为持久性存储器有望替代或补充存储器层次结构中的DRAM。然而,由于NVM的数据一致性和硬件限制的要求,最初为DRAM设计的传统索引技术在持久存储器中变得低效。本文提出了一种写优化和高性能的散列索引方案,称为级别散列,具有低开销一致性保证和经济高效的大小调整。

Pengfei Zuo;Yu Hua;Jie Wu;

FlashShare: Punching Through Server Storage Stack From Kernel To Firmware For Ultra-Low Latency SSDs

在本文中,作者提出FlashShare可以帮助ULL SSD满足不同协同运行应用程序的不同级别的I / O服务延迟要求。

Jie Zhang;Miryeong Kwon;Donghyun Gouk;Changlim Lee;Mohammad Alian;Myoungjun Chun;Mahmut Kandemir;Nam Sung Kim;Jihong Kim;Myoungsoo Jung;


Graphs and Data


   Paper Name    Author

ASAP: Fast, Approximate Pattern Mining At Scale

本文介绍了ASAP,一种用于图形模式挖掘的快速近似计算引擎。为了使用户能够在结果准确性和延迟之间进行权衡,作者提出了一种新的方法来构建错误 - 延迟概况(ELP) )对于给定的计算。

Anand Padmanabha Iyer;Zaoxing Liu;Xin Jin;Shivaram Venkataraman;Vladimir Braverman;Ion Stoica;

RStream: Marrying Relational Algebra With Streaming For Efficient Graph Mining On A Single Machine

图形挖掘是一种重要的图形算法类型,旨在发现图形中的派系和图案等结构模式。作者构建了RStream,这是第一个利用磁盘支持存储的单机核外挖掘系统中间数据。

Kai Wang;Zhiqiang Zuo;John Thorpe;Tim Nguyen;Guoqing Harry Xu;

Three Steps Is All You Need: Fast, Accurate, Automatic Scaling Decisions For Distributed Streaming Dataflows

流式计算本质上是长期运行的,并且它们的工作负载可能以不可预测的方式发生变化。作者提出了DS2,一种自动缩放控制器,它结合了流数据流的一般性能模型和轻量级仪器,以估计真正的处理和输出速率。个人数据流运营商

Vasiliki Kalavri;John Liagouris;Moritz Hoffmann;Desislava Dimitrova;Matthew Forshaw;Timothy Roscoe;

Flare: Optimizing Apache Spark For Scale-Up Architectures And Medium-Size Data

近年来,Apache Spark已成为大数据处理的事实标准.Spark已经使广大用户能够处理PB级工作负载,因为它具有灵活性和易用性:用户可以混合使用SQL风格使用Scala或Python代码进行关系查询,并将结果程序分布在整个集群中,无需使用低级并行化或网络原语。但是,许多具有实际重要性的工作负载不足以证明分布式,规模化 - 执行,因为数据可能完全驻留在单个功能强大的服务器的主内存中。对于这样的中型工作负载,如果作业计算量大,需要经常在更改数据上运行或与之交互,性能可能仍然至关重要。外部库和系统(例如,TensorFlow用于机器学习)。我们介绍Flare,一个Spark的加速器模块,可在扩展架构上提供数量级的加速适用于大类应用程序。

Gregory Essertel;Ruby Tahboub;James Decker;Kevin Brown;Kunle Olukotun;Tiark Rompf;


Machine Learning


   Paper Name    Author

Ray: A Distributed Framework For Emerging AI Applications

下一代AI应用程序将持续与环境交互并从这些交互中学习。这些应用程序强加了苛刻的系统要求。在本文中,作者考虑了这些要求并提出了Ray - 一个分布式系统来解决它们。

Philipp Moritz;Robert Nishihara;Michael I. Jordan;Robert Nishihara;Stephanie Wang;Alexey Tumanov;Richard Liaw;Eric Liang;Melih Elibol;Zongheng Yang;William Paul;

TVM: An Automated End-to-End Optimizing Compiler For Deep Learning

越来越需要将机器学习引入各种各样的硬件设备。作者提出了TVM,这是一种公开图形级和运营商级优化的编译器,可为不同硬件后端的深度学习工作负载提供性能可移植性。 。

Tianqi Chen;Thierry Moreau;Ziheng Jiang;Lianmin Zheng;Eddie Yan;Haichen Shen;Meghan Cowan;Leyuan Wang;Yuwei Hu;Luis Ceze;Carlos Guestrin;Arvind Krishnamurthy;

Gandiva: Introspective Cluster Scheduling For Deep Learning

作者介绍了Gandiva,这是一种新的集群调度框架,它利用特定领域的知识来提高GPU集群中深度学习模型训练的延迟和效率。

Wencong Xiao;Romil Bhardwaj;Ramachandran Ramjee;Muthian Sivathanu;Nipun Kwatra;Zhenhua Han;Pratyush Patel;Xuan Peng;Hanyu Zhao;Quanlu Zhang;Fan Yang;Lidong Zhou;

PRETZEL: Opening The Black Box Of Machine Learning Prediction Serving Systems

机器学习模型通常由转换管道组成。预测服务有不同的要求。作者介绍了预测服务系统PRETZEL,它引入了一种新颖的白盒体系结构,支持端到端和多模型优化。

Yunseong Lee;Alberto Scolari;Byung-Gon Chun;Marco Domenico Santambrogio;Markus Weimer;Matteo Interlandi;


Networking


   Paper Name    Author

Splinter: Bare-Metal Extensions For Multi-Tenant Low-Latency Storage

作者介绍了Splinter,一个低延迟的键值存储,客户端通过向其推送代码来扩展它。 Splinter专为现代多租户数据中心而设计;它允许相互不信任的租户编写自己的细粒度扩展并在运行时将它们推送到商店。

Chinmay Kulkarni;Sara Moore;Mazhar Naqvi;Tian Zhang;Robert Ricci;Ryan Stutsman;

Neural Adaptive Content-aware Internet Video Delivery

现有视频传输的质量关键取决于带宽资源。作者提出了一个新的视频传输框架,利用客户端计算和深度神经网络(DNN)的最新进展来减少提供高质量视频的依赖性。

Hyunho Yeo;Youngmok Jung;Jaehong Kim;Jinwoo Shin;Dongsu Han;

Floem: Programming System For NIC-Accelerated Network Applications

开发将计算和数据卸载到NIC加速器的服务器应用程序非常费力。作者提出了针对NIC加速应用程序的编程抽象,平衡了开发正确应用程序的难易程度以及重构它以探索不同设计选择的能力。

Phitchaya Mangpo Phothilimthana;Ming Liu;Antoine Kaufmann;Simon Peter;Rastislav Bodik;Thomas Anderson;


Operating Systems


   Paper Name    Author

LegoOS: A Disseminated, Distributed OS For Hardware Resource Disaggregation

服务器是部署,操作和故障单元的单片服务器模型在面对最近的几个硬件和应用程序趋势时达到了极限。使用splitkernel模型,作者构建了LegoOS,一个专为硬件设计的新操作系统资源分解。作者从头开始实施LegoOS并通过使用商用服务器模拟硬件组件来评估它。

Yizhou Shan;Yutong Huang;Yilun Chen;Yiying Zhang;

The Benefits And Costs Of Writing A POSIX Kernel In A High-level Language

本文介绍了使用高级语言(HLL)和垃圾收集来实现单片POSIX样式内核的评估。

Cody Cutler;M. Frans Kaashoek;Robert T. Morris;

Sharing, Protection And Compatibility For Reconfigurable Fabric With AmorphOS

与此同时,3D堆叠,硅通孔(TSV)和FinFET等技术进步大大提高了FPGA密度。与软件不同,资源配置仅限于简单的计算,内存和I / O维度FPGA提供多维资源,称为FPGA架构:逻辑单元,浮点单元,存储器和I / O都可以连接在一起,导致FPGA资源的空间限制。当前堆栈只支持单个将FPGA结构应用或静态划分为固定大小的插槽。为了构建Morphlet,开发人员提供了与AmorphOS接口的参数化硬件设计,以及指定外部资源需求的网格.AmorphOS在空间和时间上复用FPGA上的Morphlet最大化FPGA利用率。我们在Amazon F1和Microsoft Catapult上实现AmorphOS。

Ahmed Khawaja;Rohith Prakash;Michael Wei;Joshua Landgraf;Christopher J. Rossbach;

Adaptive Dynamic Checkpointing For Safe Efficient Intermittent Computing

本文介绍了Chinchilla,这是一个编译器和运行时系统,允许在能量收集设备上有效地运行未修改的C代码,几乎不需要额外的程序员工作,也不需要额外的硬件支持.C

Kiwan Maeng;Brandon Lucia;


Reliability


   Paper Name    Author

The FuzzyLog: A Partially Ordered Shared Log

作者提供了Dapple,它是FuzzyLog抽象的分布式实现,可以紧凑地存储部分顺序,并通过新的排序协议支持有效的附加/回放。

Joshua Lockerman;Jose Faleiro;Juno Kim;Soham Sankaran;Daniel J Abadi;James Aspnes;Siddhartha Sen;Mahesh Balakrishnan;

Maelstrom: Mitigating Datacenter-level Disasters By Draining Interdependent Traffic Safely And Efficiently

作者介绍Maelstrom,一种用于缓解和恢复数据中心级灾难的新系统.Maelstrom利用并行性来有效地排空和恢复独立的流量源。

Kaushik Veeraraghavan;Yee Jiun Song;Justin Meza;Tianyin Xu;

Fault-Tolerance, Fast And Slow: Exploiting Failure Asynchrony In Distributed Systems

作者介绍了情境感知更新和崩溃恢复(SAUCR),这是一种在分布式系统中执行复制数据更新的新方法。

Ramnatthan Alagappan;Aishwarya Ganesan;Jing Liu;Andrea Arpaci-Dusseau;Remzi Arpaci-Dusseau;

Taming Performance Variability

计算硬件的性能各不相同:在同一服务器(或具有相同部件的不同服务器)上重复运行的软件可以产生每次执行时不同的性能结果。作者进行了一项大规模研究,从中捕获了近900,000个数据点835台服务器。作者从两个角度检查这些数据:希望提供一致环境的服务提供商,以及必须了解可变性如何影响实验结果的系统研究人员。

Aleksander Maricq and Dmitry Duplyakin;Ivo Jimenez;Carlos Maltzahn;Ryan Stutsman;Robert Ricci;


Scheduling


   Paper Name    Author

Arachne: Core-Aware Thread Management

Arachne是一种新的用户级线程实现,可为具有极短寿命(仅几微秒)的应用程序提供低延迟和高吞吐量。

Henry Qin;Qian Li;Jacqueline Speiser;Peter Kraft;John Ousterhout;

Principled Schedulability Analysis For Distributed Storage Systems Using Thread Architecture Models

在本文中,作者提出了一种系统地检查分布式存储系统的可调度性,识别其调度问题以及在这些系统中实现有效调度的方法。

Suli Yang;Jing Liu;Andrea C. Arpaci-Dusseau;Remzi H. Arpaci-Dusseau;

μTune: Auto-tuned Threading For OLDI Microservices

作者通过开发线程模型的分类来研究线程设计如何严重影响微服务尾部延迟 - 对微服务如何管理并发性以及在广泛负载下与RPC接口交互的影响的结构化理解。

Akshitha Sriraman;Thomas F. Wenisch;

RobinHood: Tail Latency Aware Caching—Dynamic Reallocation From Cache-Rich To Cache-Poor

作者提出了一种新颖的解决方案,用于维持低请求尾部延迟:重新利用现有缓存来减轻后端延迟变化的影响,而不仅仅是缓存流行数据。他们的解决方案RobinHood动态地将缓存资源从缓存丰富的资源重新分配给缓存不足的缓存资源。

Daniel S. Berger;Benjamin Berg;Timothy Zhu;Siddhartha Sen;Mor Harchol-Balter;


Security


   Paper Name    Author

Graviton: Trusted Execution Environments On GPUs

作者提出了Graviton,一种支持GPU上可信执行环境的架构。

Stavros Volos;Kapil Vaswani;Rodrigo Bruno;

ZebRAM: Comprehensive And Compatible Software Protection Against Rowhammer Attacks

许多现代DRAM芯片常见的Rowhammer漏洞允许攻击者通过高频率访问相邻行来触发一行存储单元中的位翻转。本文介绍了ZebRAM,一种针对Rowhammer的新颖而全面的软件级保护。

Radhesh Krishnan Konoth;Marco Oliverio;Andrei Tatar;Dennis Andriesse;Herbert Bos;Cristiano Giuffrida;Kaveh Razavi;

Karaoke: Fast And Strong Metadata Privacy With Low Noise

Karaoke是一种用于低延迟元数据私有通信的系统。

David Lazar;Yossi Gilad;Nickolai Zeldovich;

Obladi: Oblivious Serializable Transactions In The Cloud

本文介绍了Obladi的设计和实现,这是第一个提供ACID事务同时隐藏访问模式的系统。

Natacha Crooks;Matthew Burke;Sitar Harel;Ethan Cecchetti;Rachit Agarwal;Lorenzo Alvisi;


Understanding Failures


   Paper Name    Author

Capturing And Enhancing In Situ System Observability For Failure Detection

真实世界的分布式系统由于各种类型的故障而无法使用。但是,尽管付出了巨大的努力,许多故障,特别是灰色故障仍然无法检测.Poraorama包含了即使在组件之间存在间接性时也能进行观察的技术。

Peng Huang;Chuanxiong Guo;Jacob R. Lorch;Lidong Zhou;Yingnong Dang;

REPT: Reverse Debugging Of Failures In Deployed Software

在本文中,作者介绍了REPT,这是一个实用的系统,可以对已部署系统中的软件故障进行反向调试。

Weidong Cui;Xinyang Ge;Baris Kasikci;Ben Niu;Upamanyu Sharma;Ruoyu Wang;Insu Yun;

Finding Crash-Consistency Bugs With Bounded Black-Box Crash Testing

作者提出了一种测试文件系统崩溃一致性的新方法:有界黑盒崩溃测试(B3)。由于可能的工作负载空间是无限的,B3基于诸如文件系统数量之类的参数限制了这个空间在这个有限空间内包含和彻底生成工作负载的操作或操作。作者构建了两个工具,CrashMonkey和Ace,以证明这种方法的有效性。

Jayashree Mohan;Ashlie Martinez;Soujanya Ponnapalli;Pandian Raju;Vijay Chidambaram;

An Analysis Of Network-Partitioning Failures In Cloud Systems

作者对来自25个广泛使用的分布式系统的网络分区故障导致的136个系统故障进行了全面研究。作者构建了NEAT,这是一个简化多个客户端协调的测试框架,可以注入不同类型的网络分区故障。

Ahmed Alquraan;Hatem Takruri;Mohammed Alfatafta;Samer Al-Kiswany;


Verification


   Paper Name    Author

Nickel: A Framework For Design And Verification Of Information Flow Control Systems

Nickel是一个框架,通过系统地消除接口中固有的隐蔽通道,帮助开发人员设计和验证信息流控制系统,可以利用这些通道来规避信息流策略的实施。

Helgi Sigurbjarnarson;Luke Nelson;Bruno Castro-Karney;James Bornholt;Emina Torlak;Xi Wang;

Verifying A Concurrent Mail Server With CSPEC

编写并发系统软件容易出错,因为多个进程或线程可以以多种方式交错,并且很容易忘记一个微妙的角落情况。本文介绍了CSPEC,这是一个用于并发软件形式验证的框架,可确保不会遗漏任何角落案例。

Tej Chajed;M. Frans Kaashoek;Butler Lampson;Nickolai Zeldovich;

Proving Confidentiality In A File System Using DiskSec

SFSCQ是第一个具有机器检查安全证明的文件系统。为了开发,指定和证明SFSCQ,本文介绍了DiskSec,这是一种用于推理存储系统(例如文件系统)机密性的新方法。

Atalay Ileri;Tej Chajed;Adam Chlipala;M. Frans Kaashoek;Nickolai Zeldovich;

Proving The Correct Execution Of Concurrent Services In Zero-knowledge

本文介绍了Spice,一个用于构建可验证状态机(VSM)的系统。

Srinath Setty;Sebastian Angel;Trinabh Gupta;Jonathan Lee;