Modello#

Elenco dei modelli#

Puoi elencare tutti i modelli di un certo tipo che possono essere avviati in Xinference.

xinference registrations --model-type <MODEL_TYPE> \
                         [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/model_registrations/<MODEL_TYPE>

from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_model_registrations(model_type='<MODEL_TYPE>'))

Xinference supporta i seguenti MODEL_TYPE:

LLM

Modello di generazione del testo o modello linguistico di grandi dimensioni

Grande modello linguistico

embedding

modello di embedding del testo

Modello di embedding

image

Modello di generazione o elaborazione di immagini

Modello di immagine

audio

modello audio

Modello audio

rerank

Modello di riordinamento

Modello di ri-rank

video

Modello video

Modello flessibile

Modello flessibile (modello di machine learning tradizionale)

Modello di machine learning tradizionale (sperimentale)

Puoi visualizzare tutti i modelli integrati supportati da Xinference qui. Se il modello di cui hai bisogno non è disponibile, Xinference ti consente anche di registrare il tuo modello personalizzato.

Avvio e arresto del modello#

Ad ogni istanza del modello in esecuzione verrà assegnato un uid univoco del modello. Per impostazione predefinita, il uid del modello è uguale al nome del modello. Questo ID è l’handle per l’utilizzo successivo dell’istanza del modello. L’opzione --model-uid nel comando di avvio può specificarlo manualmente.

Puoi avviare un modello tramite la riga di comando o il client Python di Xinference.

xinference launch --model-name <MODEL_NAME> \
                  [--model-engine <MODEL_ENGINE>] \
                  [--model-type <MODEL_TYPE>] \
                  [--model-uid <MODEL_UID>] \
                  [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
model_uid = client.launch_model(
  model_name="<MODEL_NAME>",
  model_engine="<MODEL_ENGINE>",
  model_type="<MODEL_TYPE>"
  model_uid="<MODEL_UID>"
)
print(model_uid)

Per il tipo di modello LLM, per avviare il modello non è sufficiente specificare il nome del modello, ma sono anche necessari la dimensione dei parametri, il formato del modello e il motore del modello. Si prega di fare riferimento alla documentazione Grande modello linguistico.

Il comando seguente elenca i modelli in esecuzione in Xinference:

xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_models())

Quando non hai più bisogno del modello attualmente in esecuzione, rilascia le risorse che occupa nel seguente modo:

xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

curl -X DELETE http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models/<MODEL_UID>

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
client.terminate_model(model_uid="<MODEL_UID>")

Nota

Per i modelli non più mantenuti che dipendono da librerie datate (come transformers), si consiglia di attivare la funzione spazio virtuale del modello per garantirne il corretto funzionamento in un ambiente compatibile.

Modello in uso#

Chat & Generazione

Impara come chattare con un LLM in Xinference.

Chat & Generazione

strumento

Impara come connettere LLM con strumenti esterni.

strumento

Incorporato

Impara come creare un embedding di testo in Xinference.

incorporato

Riorganizzazione

Impara come utilizzare il modello di riordinamento in Xinference.

Riordinamento

immagine

Impara come utilizzare Xinference per generare immagini.

Immagine

multimodale

Impara come utilizzare LLM per elaborare immagini e audio.

Multimodale

audio

Impara come utilizzare Xinference per convertire audio in testo o testo in audio.

audio

Video

Impara come utilizzare Xinference per generare video.

Video (sperimentale)

Modello flessibile

Scopri come utilizzare Xinference per l’inferenza di modelli di machine learning tradizionali.

Modello di machine learning tradizionale (sperimentale)