Passa ai contenuti principali

Ctrl+K

Guida introduttiva
Modello
Guida per l’utente

GitHub
Telegram
Discord
Twitter

Guida introduttiva
Modello
Guida per l’utente
Esempio
Guida API
Guida allo sviluppo
Official Site

GitHub
Telegram
Discord
Twitter

Sezione Navigazione

Motore di inferenza
API del client
Sistema OAuth2 (sperimentale)
Guida al caricamento dei modelli
Metrics
Distributed inference
Lotto continuo
Xavier: Condivisione della Cache KV tra più repliche VLLM

Guida per l’utente

Guida per l’utente#

Motore di inferenza
- llama.cpp
- transformers
- vLLM
- SGLang
- MLX
API del client
- LLM
- Embedding
- Immagine
- Audio
- Rerank
Sistema OAuth2 (sperimentale)
Guida al caricamento dei modelli
Metrics
- Supervisor Metrics
- Worker Metrics
Distributed inference
- Motori supportati
- Utilizzo
Lotto continuo
Xavier: Condivisione della Cache KV tra più repliche VLLM
- Usando
- limit

precedente

Calcolo dell’utilizzo della memoria video del modello

successivo

Motore di inferenza

Mostra sorgente

© Copyright 2025, Xorbits Inc..

Creato con Sphinx 8.1.3.

Prodotto con il tema PyData Sphinx Theme 0.19.0.