-
Notifications
You must be signed in to change notification settings - Fork 12
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
8ae11fb
commit d6c195f
Showing
1 changed file
with
34 additions
and
1 deletion.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
|
@@ -68,4 +68,37 @@ O **Tempo para o Primeiro Token (TTFT)** mede a rapidez com que um modelo de lin | |
- **Tamanho do modelo**: Modelos maiores podem ser mais lentos. | ||
- **Hardware**: Computadores mais potentes reduzem o TTFT. | ||
- **Condições de rede**: Internet lenta aumenta o TTFT. | ||
- **Complexidade do prompt**: Pedidos mais complexos podem demorar mais. | ||
- **Comprimento do prompt**: Prompts mais longos aumentam o TTFT. | ||
|
||
|
||
## **Rate Limit** | ||
|
||
O **rate limit** é uma prática comum em serviços de API para evitar o uso excessivo e garantir a estabilidade e a distribuição equitativa dos recursos do servidor entre os usuários. Ele estabelece um limite para o número de solicitações que um usuário ou sistema pode fazer dentro de um determinado período de tempo. | ||
|
||
### Por que o rate limit é importante? | ||
|
||
- **Estabilidade do Serviço**: Previne contra sobrecargas que podem ser causadas por muitas solicitações simultâneas. | ||
- **Justiça de Uso**: Assegura que todos os usuários tenham acesso justo ao serviço, evitando que um usuário monopolize os recursos. | ||
- **Segurança**: Ajuda a identificar e mitigar possíveis ataques de negação de serviço (DoS). | ||
|
||
|
||
### Como o rate limit afeta o uso da API? | ||
|
||
Uma vez atingido o limite de solicitações, as chamadas subsequentes podem ser rejeitadas ou resultar em mensagens de erro. Assim, os desenvolvedores precisam monitorar e gerenciar suas chamadas de API para evitar exceder o limite. | ||
|
||
Na API da Maritaca, existem três tipos de rate limit: | ||
- Número máximo de tokens de entrada (prompt), enviados por minuto | ||
- Número máximo de tokens de gerados por minuto | ||
- Número máximo de requisições por minuto, independente do tamanho do prompt ou tokens gerados. | ||
|
||
|
||
### Onde consulto os rate limits? | ||
|
||
Os rate limits de cada modelo estão disponíveis em https://plataforma.maritaca.ai/modelos | ||
|
||
### O que fazer se atingir o rate limit? | ||
|
||
- **Ajustar a Frequência de Solicitações**: Espaçar as chamadas de API para ficar dentro do limite permitido. | ||
- **Aumentar o Limite**: Se precisa de rate limits maiores, por favor, nos envie uma mensagem para [email protected] | ||
|
||
|