Variabili d’ambiente#

XINFERENCE_ENDPOINT#

L’indirizzo del servizio Xinference, utilizzato per connettersi a Xinference. L’indirizzo predefinito è http://127.0.0.1:9997, ottenibile dai log.

XINFERENCE_MODEL_SRC#

Configura il repository per il download dei modelli. La fonte di download predefinita è «huggingface», ma può anche essere impostata su «modelscope» come fonte alternativa.

XINFERENCE_HOME#

Xinference utilizza di default <HOME>/.xinference come directory predefinita per memorizzare modelli e file necessari come i log. In questo contesto, <HOME> è la directory home dell’utente corrente. È possibile modificare la directory predefinita configurando questa variabile d’ambiente.

XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD#

Numero massimo di fallimenti consentiti per il controllo di integrità all’avvio di Xinference. Il valore predefinito è 5.

XINFERENCE_HEALTH_CHECK_INTERVAL#

Intervallo di controllo dello stato di salute all’avvio di Xinference (in secondi). Il valore predefinito è 5.

XINFERENCE_HEALTH_CHECK_TIMEOUT#

Il tempo di timeout per il controllo di integrità all’avvio di Xinference (in secondi). Il valore predefinito è 10.

XINFERENCE_DISABLE_HEALTH_CHECK#

Quando la condizione è soddisfatta, Xinference segnala automaticamente lo stato di salute del worker. Impostare questa variabile d’ambiente a 1 per disabilitare il controllo di integrità.

XINFERENCE_DISABLE_METRICS#

Xinference abilita di default l’exporter delle metriche su supervisor e worker. Impostare la variabile d’ambiente su 1 può disabilitare l’endpoint /metrics sul supervisor e disabilitare il servizio HTTP sul worker (fornendo solo l’endpoint /metrics).

XINFERENCE_DOWNLOAD_MAX_ATTEMPTS#

Numero massimo di tentativi di download per i file del modello. Il valore predefinito è 3.

XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE#

Abilita l’elaborazione batch continua per i modelli text-to-image specificando le dimensioni dell’immagine target (ad esempio 1024*1024 ). Non impostato per impostazione predefinita.

XINFERENCE_SSE_PING_ATTEMPTS_SECONDS#

Intervallo di ping per Keep-Alive degli eventi inviati dal server (in secondi). Il valore predefinito è 600.

XINFERENCE_MAX_TOKENS#

Copertura del limite massimo globale di token per le richieste. Il valore predefinito non è impostato.

XINFERENCE_ALLOWED_IPS#

Limita l’accesso a indirizzi IP specifici o blocchi CIDR. Per impostazione predefinita non è impostato (nessuna limitazione).

XINFERENCE_BATCH_SIZE#

Dimensione predefinita del batch utilizzata dal server quando il batch è abilitato. Il valore predefinito è 32.

XINFERENCE_BATCH_INTERVAL#

Intervallo predefinito di elaborazione batch (secondi). Il valore predefinito è 0,003.

XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU#

È consentito creare più repliche su una singola GPU. Il valore predefinito è 1 (abilitato).

XINFERENCE_LAUNCH_STRATEGY#

Strategia di allocazione GPU per le repliche. Il valore predefinito è IDLE_FIRST_LAUNCH_STRATEGY.

XINFERENCE_MAX_CONCURRENT_LAUNCHES#

Maximum number of model launches that can proceed concurrently on a single worker node. When more replicas are launched than this limit, excess launches queue and proceed as slots free up. This prevents resource exhaustion (fork storms, disk IO saturation, GPU memory contention) that can cause heartbeat timeouts. Default value is 5.

XINFERENCE_ENABLE_VIRTUAL_ENV#

Abilita globalmente l’ambiente virtuale del modello. Il valore predefinito è 1 (abilitato, in vigore dalla versione v2.0).

XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED#

Salta i pacchetti già esistenti nei site-packages di sistema quando crei un ambiente virtuale. Il valore predefinito è 1.

XINFERENCE_CSG_TOKEN#

Token di autenticazione per l’origine del modello CSGHub. Il valore predefinito non è impostato.

XINFERENCE_CSG_ENDPOINT#

Endpoint della fonte del modello CSGHub. Il valore predefinito è https://hub-stg.opencsg.com/ .

XINFERENCE_QWEN3_RERANK_TEMPLATE#

Enable template for Qwen3 rerank model family (0.6B, 4B, 8B,etc) globally. Default value is 1.

XINFERENCE_LAUNCH_HISTORY_DB_PATH#

Path to the SQLite database that stores the model launch configuration history shown in the «Launch Model» drawer of the Web UI. This store is shared across all clients so the history is available from any browser or machine, and it is independent of the authentication database. When authentication is enabled, each record keeps the creator’s username (created_by). Default value is <XINFERENCE_HOME>/launch_history.db.