triton

Triton Inference Server Run inference on a model

Submit an inference request to a model. The request specifies input tensors and requested output tensors. Supports optional parameters for sequence handling, priority, timeout, and binary data.

GitHub