Guida per l’utente# Motore di inferenza llama.cpp transformers vLLM SGLang MLX API del client LLM Embedding Immagine Audio Rerank Sistema OAuth2 (sperimentale) Autorizzazione Inizia a usare utilizza Codice di stato HTTP Attenzione Guida al caricamento dei modelli Copia Strategia di allocazione mista Imposta le variabili d’ambiente Configurazione spazio virtuale modello Batch / Continuous Batch Modalità di pensiero Metrics Supervisor Metrics Worker Metrics Distributed inference Motori supportati Utilizzo Lotto continuo Modalità d’uso Richiesta di annullamento Avvertenze Xavier: Condivisione della Cache KV tra più repliche VLLM Usando limit