#码力全开·技术π对#TensorFlow Serving动态批处理导致请求超时如何平衡吞吐与延迟?

设置`max_batch_size=32`时部分请求等待超15秒,如何根据QPS动态调整批处理窗口?

google
Jaysir
2025-05-15 09:54:23
浏览
收藏 0
回答 1
待解决
回答 1
按赞同
/
按时间
key_3_feng
key_3_feng

按场景设定 batch_timeout_micros:

  • 高吞吐场景:增大 max_batch_size 并适当延长 batch_timeout(如 50ms~100ms)。
  • 低延迟场景:减小 max_batch_size 并缩短 batch_timeout(如 10ms~20ms)。

优先级队列:对高优先级请求(如实时性要求高的任务)单独设置更短的 batch_timeout,避免被低优先级请求阻塞。

分享
微博
QQ
微信https://www.51cto.com/aigc/
回复
2025-05-15 21:28:11
发布
相关问题
提问