From 162ce8f562c89d18637c38511179fb0da08c9d7b Mon Sep 17 00:00:00 2001 From: vincehe Date: Thu, 6 Jun 2024 08:39:46 +0000 Subject: [PATCH] GITBOOK-207: No subject --- zh_CN/guides/model-configuration/load_balancing.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/zh_CN/guides/model-configuration/load_balancing.md b/zh_CN/guides/model-configuration/load_balancing.md index bb16e90..7a4d16d 100644 --- a/zh_CN/guides/model-configuration/load_balancing.md +++ b/zh_CN/guides/model-configuration/load_balancing.md @@ -1,6 +1,6 @@ # 负载均衡 -模型速率限制(rate limits)是模型厂商对用户或客户在指定时间内访问 API 服务次数所添加的限制。它有助于防止 API 的滥用或误用,有助于确保每个用户都能公平地访问 API,控制基础设施的总体负载。 +模型速率限制(Rate limits)是模型厂商对用户或客户在指定时间内访问 API 服务次数所添加的限制。它有助于防止 API 的滥用或误用,有助于确保每个用户都能公平地访问 API,控制基础设施的总体负载。 在企业级大规模调用模型 API 时,高并发请求会导致超过请求速率限制并影响用户访问。负载均衡可以通过在多个 API 端点之间分配 API 请求,确保所有用户都能获得最快的响应和最高的模型调用吞吐量,保障业务稳定运行。