Xavier: Condivisione della Cache KV tra più repliche VLLM#

Per scenari come query su documenti lunghi e dialoghi multi-turno, il calcolo nella fase di prefill dell’inferenza può essere particolarmente oneroso, influenzando la produttività complessiva e la latenza di una singola inferenza. Xinference potenzia il motore vllm introducendo il framework Xavier, che supporta la condivisione della cache KV tra più istanze vllm. Ciò consente di riutilizzare direttamente la cache KV calcolata da altre repliche, evitando calcoli ridondanti.

Usando#

È sufficiente impostare l’opzione enable_xavier=True all’avvio del modello vllm.

limit#

Xavier richiede che la versione di vllm non sia inferiore a 0.7.0. Al momento non è supportata una versione di vllm superiore a 0.11.0.
Poiché la comunicazione sottostante non riconosce l’indirizzo 0.0.0.0, all’avvio di xinference è necessario configurare un indirizzo IP reale, ad esempio: xinference-local -H 192.168.xx.xx.
Xavier supporta solo schede grafiche Nvidia.