面向软件错误构建可靠的分布式系统

Time: 一月 12, 2013
Category: Distributed system

Making reliable distributed systems in the presence of sodware errors

1 问题域

  • 并发(concurrency)
  • 软实时(soft real-time)
  • 分布式(distributed)
  • 硬件交互(hardware interaction)
  • 大型软件系统(large software systems)
  • 复杂的功能(complex functionality)
  • 持续运行(continuous operation)
  • 高质量要求(quality requirements)
  • 容错(fault tolerance)

2 哲学

容错和故障隔离。例如进程和基于消息的交互。

3 系统需求

  • 并发性
  • 错误封装 即一个进程的错误一定不能破坏系统中其他的进程
  • 故障检测 包括本地和网络异常
  • 故障识别
  • 代码升级
  • 持久存储 以便恢复崩溃的系统。

4 语言需求

  • 封装原语
  • 并发性
  • 错误检测原语
  • 位置透明
  • 动态代码升级

5 库需求

  • 持久存储
  • 设备驱动程序
  • 代码升级
  • 运行基础

Leave a Comment