Passa ai contenuti principali
Ctrl+K
Xinference Xinference
  • Guida introduttiva
  • Modello
  • Guida per l’utente
    • Esempio
    • Guida API
    • Guida allo sviluppo
    • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter
  • Guida introduttiva
  • Modello
  • Guida per l’utente
  • Esempio
  • Guida API
  • Guida allo sviluppo
  • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter

Sezione Navigazione

  • Motore di inferenza
  • API del client
  • Sistema OAuth2 (sperimentale)
  • Guida al caricamento dei modelli
  • Metrics
  • Distributed inference
  • Lotto continuo
  • Xavier: Condivisione della Cache KV tra più repliche VLLM
  • Guida per l’utente

Guida per l’utente#

  • Motore di inferenza
    • llama.cpp
    • transformers
    • vLLM
    • SGLang
    • MLX
  • API del client
    • LLM
    • Embedding
    • Immagine
    • Audio
    • Rerank
  • Sistema OAuth2 (sperimentale)
    • Autorizzazione
    • Inizia a usare
    • utilizza
    • Codice di stato HTTP
    • Attenzione
  • Guida al caricamento dei modelli
    • Copia
    • Strategia di allocazione mista
    • Imposta le variabili d’ambiente
    • Configurazione spazio virtuale modello
    • Batch / Continuous Batch
    • Modalità di pensiero
  • Metrics
    • Supervisor Metrics
    • Worker Metrics
  • Distributed inference
    • Motori supportati
    • Utilizzo
  • Lotto continuo
    • Modalità d’uso
    • Richiesta di annullamento
    • Avvertenze
  • Xavier: Condivisione della Cache KV tra più repliche VLLM
    • Usando
    • limit

precedente

Calcolo dell’utilizzo della memoria video del modello

successivo

Motore di inferenza

Mostra sorgente

© Copyright 2025, Xorbits Inc..

Creato con Sphinx 8.1.3.

Prodotto con il tema PyData Sphinx Theme 0.19.0.