Contesto lungo

Molti modelli Gemini sono dotati di finestre contestuali di grandi dimensioni con almeno 1 milione di token. In passato, i modelli linguistici di grandi dimensioni (LLM) erano notevolmente limitati dalla quantità di testo (o token) che potevano essere passati al modello contemporaneamente. La finestra contestuale lunga di Gemini sblocca molti nuovi casi d'uso e paradigmi per gli sviluppatori.

Il codice che utilizzi già per casi come la generazione di testo o gli input multimodali funzionerà senza modifiche con il contesto lungo.

Questo documento fornisce una panoramica di ciò che puoi ottenere utilizzando modelli con finestre contestuali di almeno 1 milione di token. La pagina fornisce una breve panoramica di una finestra di contesto ed esplora il modo in cui gli sviluppatori devono considerare il contesto lungo, vari casi d'uso reali per il contesto lungo e i modi per ottimizzarne l'utilizzo.

Per le dimensioni della finestra di contesto di modelli specifici, consulta la pagina Modelli.

Cos'è una finestra contestuale?

Il modo di base per utilizzare i modelli Gemini è trasmettere informazioni (contesto) al modello, che successivamente genererà una risposta. Un'analogia per la finestra di contesto è la memoria a breve termine. La memoria a breve termine di una persona può memorizzare una quantità limitata di informazioni e lo stesso vale per i modelli generativi.

Puoi scoprire di più sul funzionamento dei modelli nella nostra guida ai modelli generativi.

Iniziare a utilizzare il contesto lungo

Le versioni precedenti dei modelli generativi erano in grado di elaborare solo 8000 token alla volta. I modelli più recenti hanno fatto un ulteriore passo avanti accettando 32.000 o addirittura 128.000 token. Gemini è il primo modello in grado di accettare 1 milione di token.

In pratica, 1 milione di token corrisponde a:

  • 50.000 righe di codice (con gli 80 caratteri standard per riga)
  • Tutti i messaggi che hai inviato negli ultimi 5 anni
  • 8 romanzi in inglese di lunghezza media
  • Trascrizioni di oltre 200 puntate di podcast di durata media

Le finestre di contesto più limitate comuni a molti altri modelli spesso richiedono strategie come l'eliminazione arbitraria di vecchi messaggi, il riepilogo dei contenuti, l'utilizzo di RAG con database di vettori o il filtraggio dei prompt per salvare i token.

Sebbene queste tecniche rimangano utili in scenari specifici, la vasta finestra contestuale di Gemini invita a un approccio più diretto: fornire tutte le informazioni pertinenti in anticipo. Poiché i modelli Gemini sono stati appositamente progettati con funzionalità di contesto massicce, dimostrano un'eccellente capacità di apprendimento in contesto. Ad esempio, utilizzando solo materiali didattici contestuali (una grammatica di riferimento di 500 pagine, un dizionario e circa 400 frasi parallele), Gemini ha imparato a tradurre dall'inglese al Kalamang, una lingua della Papua con meno di 200 parlanti, con una qualità simile a quella di un utente umano che utilizza gli stessi materiali. Questo illustra il cambiamento di paradigma reso possibile dal contesto lungo di Gemini, che offre nuove possibilità grazie a un solido apprendimento in contesto.

Casi d'uso con contesto lungo

Sebbene il caso d'uso standard per la maggior parte dei modelli generativi sia ancora l'input di testo, la famiglia di modelli Gemini consente un nuovo paradigma di casi d'uso multimodali. Questi modelli possono comprendere in modo nativo testo, video, audio e immagini. Per comodità, sono accompagnati dall'API Gemini che accetta tipi di file multimodali.

Testo nel formato lungo

Il testo si è dimostrato il livello di intelligenza alla base di gran parte del fermento intorno agli LLM. Come accennato in precedenza, gran parte della limitazione pratica degli LLM era dovuta al fatto che non disponevano di una finestra di contesto sufficientemente grande per svolgere determinate attività. Ciò ha portato alla rapida adozione della generazione RAG (Retrieval Augmented Generation) e di altre tecniche che forniscono dinamicamente al modello informazioni contestuali pertinenti. Ora, con finestre contestuali sempre più grandi, sono disponibili nuove tecniche che sbloccano nuovi casi d'uso.

Alcuni casi d'uso emergenti e standard per il contesto lungo basato su testo includono:

  • Riassumere grandi corpora di testo
    • Le opzioni di sintesi precedenti con modelli di contesto più piccoli richiedevano una finestra scorrevole o un'altra tecnica per mantenere lo stato delle sezioni precedenti man mano che i nuovi token vengono passati al modello
  • Domande e risposte
    • In passato, questo era possibile solo con RAG, data la quantità limitata di contesto e il basso richiamo fattuale dei modelli
  • Workflow agentici
    • Il testo è alla base del modo in cui gli agenti mantengono lo stato di ciò che hanno fatto e di ciò che devono fare; non avere informazioni sufficienti sul mondo e sull'obiettivo dell'agente è una limitazione dell'affidabilità degli agenti

L'apprendimento in contesto con molti esempi è una delle funzionalità più uniche sbloccate dai modelli con contesto lungo. La ricerca ha dimostrato che adottare il paradigma comune degli esempi "single shot" o "multi-shot", in cui al modello vengono presentati uno o pochi esempi di un'attività, e scalarlo fino a centinaia, migliaia o addirittura centinaia di migliaia di esempi può portare a nuove funzionalità del modello. È stato dimostrato che questo approccio con molti esempi ha un rendimento simile a quello dei modelli ottimizzati per un'attività specifica. Per i casi d'uso in cui le prestazioni di un modello Gemini non sono ancora sufficienti per un implementazione in produzione, puoi provare l'approccio many-shot. Come vedrai più avanti nella sezione sull'ottimizzazione del contesto lungo, la memorizzazione nella cache del contesto rende questo tipo di carico di lavoro con token di input elevato molto più economicamente fattibile e, in alcuni casi, anche con una latenza inferiore.

Video nel formato lungo

L'utilità dei contenuti video è stata a lungo limitata dalla scarsa accessibilità del mezzo stesso. Era difficile dare un'occhiata ai contenuti, le trascrizioni spesso non riuscivano a cogliere le sfumature di un video e la maggior parte degli strumenti non elaborava insieme immagini, testo e audio. Con Gemini, le funzionalità di testo con contesto lungo si traducono nella capacità di ragionare e rispondere a domande su input multimodali con un rendimento costante.

Ecco alcuni casi d'uso standard ed emergenti per il contesto dei video nel formato lungo:

  • Domande e risposte sui video
  • Memoria video, come mostrato con Project Astra di Google
  • Sottotitoli codificati per i video
  • I sistemi di consigli sui video, arricchendo i metadati esistenti con nuove informazioni multimodali
  • Personalizzazione dei video, analizzando un corpus di dati e metadati associati ai video, per poi rimuovere le parti dei video non pertinenti per lo spettatore
  • Moderazione dei contenuti video
  • Elaborazione video in tempo reale

Quando lavori con i video, è importante considerare come vengono elaborati in token, il che influisce sulla fatturazione e sui limiti di utilizzo. Puoi scoprire di più sui prompt con i file video nella guida ai prompt.

Audio nel formato lungo

I modelli Gemini sono stati i primi modelli linguistici di grandi dimensioni multimodali nativi in grado di comprendere l'audio. In passato, il flusso di lavoro tipico degli sviluppatori prevedeva di collegare più modelli specifici del dominio, come un modello di conversione della voce in testo e un modello di conversione del testo in testo, per elaborare l'audio. Ciò ha comportato una latenza aggiuntiva richiesta dall'esecuzione di più richieste di andata e ritorno e una riduzione delle prestazioni solitamente attribuita alle architetture disconnesse della configurazione di più modelli.

Ecco alcuni casi d'uso emergenti e standard per il contesto audio:

  • Trascrizione e traduzione in tempo reale
  • Domande e risposte su podcast / video
  • Trascrizione e riepilogo delle riunioni
  • Assistenti vocali

Per scoprire di più sui prompt con file audio, consulta la guida ai prompt.

Ottimizzazioni per i contesti lunghi

L'ottimizzazione principale quando si lavora con il contesto lungo e i modelli Gemini è l'utilizzo della caching del contesto. Oltre all'impossibilità precedente di elaborare molti token in una singola richiesta, l'altro vincolo principale era il costo. Se hai un'app "chatta con i tuoi dati" in cui un utente carica 10 PDF, un video e alcuni documenti di lavoro, in passato avresti dovuto utilizzare uno strumento/un framework di generazione basata sul recupero (RAG) più complesso per elaborare queste richieste e pagare una cifra significativa per i token spostati nella finestra del contesto. Ora puoi memorizzare nella cache i file caricati dall'utente e pagare per archiviarli su base oraria. Ad esempio, il costo di input / output per richiesta con Gemini Flash è circa quattro volte inferiore rispetto al costo di input / output standard, quindi se l'utente chatta abbastanza con i suoi dati, si tratta di un enorme risparmio per te come sviluppatore.

Limitazioni per i contesti lunghi

In varie sezioni di questa guida abbiamo parlato di come i modelli Gemini raggiungono un rendimento elevato in varie valutazioni di recupero di informazioni nascoste. Questi test prendono in considerazione la configurazione di base, in cui hai un singolo needle da cercare. Se potresti avere più "aghi" o informazioni specifiche che stai cercando, il modello non funziona con la stessa accuratezza. Il rendimento può variare in misura significativa a seconda del contesto. È importante tenerlo presente perché esiste un compromesso intrinseco tra il recupero delle informazioni giuste e il costo. Puoi ottenere circa il 99% con una singola query, ma devi pagare il costo del token di input ogni volta che invii la query. Pertanto, per recuperare 100 informazioni, se avessi bisogno del 99% di rendimento, probabilmente dovrai inviare 100 richieste. Questo è un buon esempio di come la memorizzazione nella cache del contesto possa ridurre in modo significativo il costo associato all'utilizzo dei modelli Gemini mantenendo elevate le prestazioni.

Domande frequenti

Dove è il posto migliore per inserire la query nella finestra del contesto?

Nella maggior parte dei casi, in particolare se il contesto totale è lungo, il rendimento del modello sarà migliore se inserisci la query / domanda alla fine del prompt (dopo tutto l'altro contesto).

Perderò il rendimento del modello se aggiungo altri token a una query?

In genere, se non è necessario che i token vengano passati al modello, è meglio evitarlo. Tuttavia, se hai una grande quantità di token con alcune informazioni e vuoi porre domande su queste informazioni, il modello è molto capace di estrarle (fino al 99% di accuratezza in molti casi).

Come faccio a ridurre il costo con le query con contesto lungo?

Se hai un insieme simile di token / contesto che vuoi riutilizzare più volte, la cache del contesto può aiutarti a ridurre i costi associati alla formulazione di domande su queste informazioni.

La lunghezza del contesto influisce sulla latenza del modello?

In ogni richiesta è presente una quantità fissa di latenza, indipendentemente dalle dimensioni, ma in genere le query più lunghe avranno una latenza più elevata (tempo fino al primo token).