Modello#
Elenco dei modelli#
Puoi elencare tutti i modelli di un certo tipo che possono essere avviati in Xinference.
xinference registrations --model-type <MODEL_TYPE> \
[--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \
curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/model_registrations/<MODEL_TYPE>
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_model_registrations(model_type='<MODEL_TYPE>'))
Xinference supporta i seguenti MODEL_TYPE:
Modello di generazione del testo o modello linguistico di grandi dimensioni
modello di embedding del testo
Modello di generazione o elaborazione di immagini
modello audio
Modello di riordinamento
Modello video
Modello flessibile (modello di machine learning tradizionale)
Puoi visualizzare tutti i modelli integrati supportati da Xinference qui. Se il modello di cui hai bisogno non è disponibile, Xinference ti consente anche di registrare il tuo modello personalizzato.
Avvio e arresto del modello#
Ad ogni istanza del modello in esecuzione verrà assegnato un uid univoco del modello. Per impostazione predefinita, il uid del modello è uguale al nome del modello. Questo ID è l’handle per l’utilizzo successivo dell’istanza del modello. L’opzione --model-uid nel comando di avvio può specificarlo manualmente.
Puoi avviare un modello tramite la riga di comando o il client Python di Xinference.
xinference launch --model-name <MODEL_NAME> \
[--model-engine <MODEL_ENGINE>] \
[--model-type <MODEL_TYPE>] \
[--model-uid <MODEL_UID>] \
[--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
model_uid = client.launch_model(
model_name="<MODEL_NAME>",
model_engine="<MODEL_ENGINE>",
model_type="<MODEL_TYPE>"
model_uid="<MODEL_UID>"
)
print(model_uid)
Per il tipo di modello LLM, per avviare il modello non è sufficiente specificare il nome del modello, ma sono anche necessari la dimensione dei parametri, il formato del modello e il motore del modello. Si prega di fare riferimento alla documentazione Grande modello linguistico.
Il comando seguente elenca i modelli in esecuzione in Xinference:
xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]
curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_models())
Quando non hai più bisogno del modello attualmente in esecuzione, rilascia le risorse che occupa nel seguente modo:
xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]
curl -X DELETE http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models/<MODEL_UID>
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
client.terminate_model(model_uid="<MODEL_UID>")
Nota
Per i modelli non più mantenuti che dipendono da librerie datate (come transformers), si consiglia di attivare la funzione spazio virtuale del modello per garantirne il corretto funzionamento in un ambiente compatibile.
Modello in uso#
Impara come chattare con un LLM in Xinference.
Impara come connettere LLM con strumenti esterni.
Impara come creare un embedding di testo in Xinference.
Impara come utilizzare il modello di riordinamento in Xinference.
Impara come utilizzare Xinference per generare immagini.
Impara come utilizzare LLM per elaborare immagini e audio.
Impara come utilizzare Xinference per convertire audio in testo o testo in audio.
Impara come utilizzare Xinference per generare video.
Scopri come utilizzare Xinference per l’inferenza di modelli di machine learning tradizionali.
- Xinference Models Hub
- Model capability
- Modello integrato
- Modello personalizzato
- Aggiornamento del modello
- Modello sorgente
- ambiente virtuale del modello
- Background
- Soluzione
- Gestione ambienti virtuali (v2.0)
- Posizione di archiviazione
- Salta le librerie già installate
- Caricamento del modello: attivazione dell’ambiente virtuale e personalizzazione delle dipendenze
- Gestione dell’ambiente virtuale
- Funzionalità principali
- Operazioni di gestione
- ModelHub JSON formato (adatto per modelli Xinference)
- Integrazione LoRA
- Calcolo dell’utilizzo della memoria video del modello