Modello#

Elenco dei modelli#

Puoi elencare tutti i modelli di un certo tipo che possono essere avviati in Xinference.

xinference registrations --model-type <MODEL_TYPE> \
                         [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

Xinference supporta i seguenti MODEL_TYPE:

LLM

Modello di generazione del testo o modello linguistico di grandi dimensioni

Grande modello linguistico
embedding

modello di embedding del testo

Modello di embedding
image

Modello di generazione o elaborazione di immagini

Modello di immagine
audio

modello audio

Modello audio
rerank

Modello di riordinamento

Modello di ri-rank
video

Modello video

Modello video
Modello flessibile

Modello flessibile (modello di machine learning tradizionale)

Modello di machine learning tradizionale (sperimentale)

Puoi visualizzare tutti i modelli integrati supportati da Xinference qui. Se il modello di cui hai bisogno non è disponibile, Xinference ti consente anche di registrare il tuo modello personalizzato.

Avvio e arresto del modello#

Ad ogni istanza del modello in esecuzione verrà assegnato un uid univoco del modello. Per impostazione predefinita, il uid del modello è uguale al nome del modello. Questo ID è l’handle per l’utilizzo successivo dell’istanza del modello. L’opzione --model-uid nel comando di avvio può specificarlo manualmente.

Puoi avviare un modello tramite la riga di comando o il client Python di Xinference.

xinference launch --model-name <MODEL_NAME> \
                  [--model-engine <MODEL_ENGINE>] \
                  [--model-type <MODEL_TYPE>] \
                  [--model-uid <MODEL_UID>] \
                  [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

Per il tipo di modello LLM, per avviare il modello non è sufficiente specificare il nome del modello, ma sono anche necessari la dimensione dei parametri, il formato del modello e il motore del modello. Si prega di fare riferimento alla documentazione Grande modello linguistico.

Il comando seguente elenca i modelli in esecuzione in Xinference:

xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

Quando non hai più bisogno del modello attualmente in esecuzione, rilascia le risorse che occupa nel seguente modo:

xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

Nota

Per i modelli non più mantenuti che dipendono da librerie datate (come transformers), si consiglia di attivare la funzione spazio virtuale del modello per garantirne il corretto funzionamento in un ambiente compatibile.

Modello in uso#

Chat & Generazione

Impara come chattare con un LLM in Xinference.

Chat & Generazione
strumento

Impara come connettere LLM con strumenti esterni.

strumento
Incorporato

Impara come creare un embedding di testo in Xinference.

incorporato
Riorganizzazione

Impara come utilizzare il modello di riordinamento in Xinference.

Riordinamento
immagine

Impara come utilizzare Xinference per generare immagini.

Immagine
multimodale

Impara come utilizzare LLM per elaborare immagini e audio.

Multimodale
audio

Impara come utilizzare Xinference per convertire audio in testo o testo in audio.

audio
Video

Impara come utilizzare Xinference per generare video.

Video (sperimentale)
Modello flessibile

Scopri come utilizzare Xinference per l’inferenza di modelli di machine learning tradizionali.

Modello di machine learning tradizionale (sperimentale)