Clipper

整体流程:

在将查询分配到与所需模型相关联的 Adaptive Batch 之前,模型抽象层首先会检查查询的预测 Cache。自适应批处理队列会构建针对机器学习框架和模型进行调 Adapt Bacth。跨语言 RPC 用于将批量查询发送到模型容器,该模型容器在其本地机器学习框架中托管模型。为了简化部署,我们将每个模型容器托管在一个单独的 Docker 容器中。在对一批查询进行模型评估后,预测结果会被发送回 Model Abstraction Layer,该层会填充预测 Cache,并将结果返回给 Model Selection Layer。然后,模型选择层会将一个或多个预测组合起来,生成最终预测和置信度估计值。然后,预测结果和置信度估计值将返回给最终用户应用程序。

START

Basic

ML推理系统的优化策略

Back: