Calcolo dell’utilizzo della memoria video del modello#

Per pianificare meglio l’uso della memoria video, Xinference fornisce uno strumento per calcolare l’utilizzo della memoria video del modello: cal-model-mem

L’algoritmo proviene da: RahulSChand/gpu_poor

model_mem, kv_cache, overhead, active_mem

Esempio: Per calcolare l’uso della memoria video del modello qwen1.5-chat, è possibile eseguire il seguente comando di esempio:

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

model_name: qwen1.5-chat
kv_cache_dtype: 16
model size: 7.0 B
quant: Int4
context: 16384
gpu mem usage:
  model mem: 4139 MB
  kv_cache: 8192 MB
  overhead: 650 MB
  active: 17024 MB
  total: 30005 MB (30 GB)

Sintassi#

–size-in-billions {model_size}
- -s {model_size}
Imposta la dimensione del modello. Specifica la dimensione del modello in miliardi di parametri. Il formato del parametro accetta forme come 1_8 e 1.8. Ad esempio, 7 indica una dimensione del modello di 7.0B.
–quantization {precision}
- -q {precision} (opzionale)
Specifica la configurazione di quantizzazione del modello. Ad esempio: il parametro Int4 indica l’uso della quantizzazione INT4.
–model-name {model_name}
- -n {model_name} (opzionale)
Specifica il nome del modello. Se viene fornito questo parametro, la configurazione del modello verrà ottenuta da huggingface/modelscope; se non specificato, verrà utilizzato il parametro layer predefinito per una stima approssimativa.
–context-length {context_length}
- -c {context_length}
Specifica la lunghezza massima del contesto del modello.
–model-format {format}
- -f {format}
Specifica il formato del modello, ad esempio: pytorch, ggmlv3, ecc.

Nota

L’uso della variabile d’ambiente HF_ENDPOINT permette di impostare l’Endpoint del server HuggingFace. Ad esempio, quando la rete non è ottimale, è possibile selezionare hf-mirror come Endpoint. Per maggiori informazioni, consultare questo documento.