OpenAI GPT-4: multimodale, nuove funzionalità, input di immagini, modalità di utilizzo e altro

OpenAI ha fatto enormi passi avanti quando ha lanciato GPT-4 la scorsa notte. Il modello di linguaggio AI di nuova generazione è un notevole miglioramento rispetto al suo predecessore ed è capace di molto di più. Se conosci una o due cose su ChatGPT e le sue alternative , sai già cosa significa per i chatbot e l’intelligenza artificiale in generale. Tuttavia, per coloro che non sono a conoscenza dei modelli linguistici o del GPT-4 in particolare, abbiamo le spalle. Abbiamo setacciato i blog di OpenAI e Internet e curato una guida dedicata su GPT-4. Quindi, se sei una persona con poca o nessuna idea al riguardo, prendi una tazza di caffè e siediti mentre ti raccontiamo tutto su questo modello di intelligenza artificiale.

GPT-4: tutto ciò che devi sapere (2023)

L’argomento di GPT-4 è uno che è lungo e in largo quando si tratta di informazioni. Per aiutarti a sistemare tutto, abbiamo creato una tabella qui sotto. Usalo se vuoi saltare rapidamente a un particolare aspetto del modello. Sommario

Cos’è GPT-4?

Se volete continuare a leggere questo post su "OpenAI GPT-4: multimodale, nuove funzionalità, input di immagini, modalità di utilizzo e altro" cliccate sul pulsante "Mostra tutti" e potrete leggere il resto del contenuto gratuitamente. ebstomasborba.pt è un sito specializzato in Tecnologia, Notizie, Giochi e molti altri argomenti che potrebbero interessarvi. Se desiderate leggere altre informazioni simili a OpenAI GPT-4: multimodale, nuove funzionalità, input di immagini, modalità di utilizzo e altro, continuate a navigare sul web e iscrivetevi alle notifiche del blog per non perdere le ultime novità.

Seguir leyendo


In parole povere, GPT-4 è l’ultima iterazione di OpenAI nei grandi sistemi di modelli linguistici (LLM) dell’azienda. I sistemi di modelli linguistici, in generale, sono sistemi che tentano di prevedere la parola successiva in una frase e vi aggiungono in modo intelligente i propri input. Lo fanno studiando un ampio set di dati che dà loro la possibilità di identificare i modelli e agire di conseguenza.

GPT-4 è il modello più recente di questa serie e dovrebbe rappresentare un grande miglioramento rispetto ai modelli di generazione precedente come GPT 3 e 3.5. Ci sono alcune cose specifiche in cui GPT-4 è migliore, che discuteremo in dettaglio di seguito. Tuttavia, un semplice punto che dovresti capire è che questo nuovo modello consentirà a chatbot come ChatGPT e MS Bing di essere molto più capaci nelle loro risposte. Quindi puoi aspettarti che diano risposte migliori, progettino in modo più creativo e si comportino in modo diverso con i messaggi ChatGPT vecchi e nuovi.

GPT-4 è multimodale

Se hai utilizzato i precedenti modelli GPT, potresti essere consapevole della sua limitata capacità di interpretare solo il testo che inserisci. Tuttavia, una delle implementazioni più recenti e più grandi nel nuovo modello è che è multimodale. Ciò significa che GPT-4 è in grado di accettare prompt sia di testo che di immagini.

Ciò si traduce nell’intelligenza artificiale non solo nel ricevere l’immagine, ma anche nell’interpretarla e comprenderla. Questa comprensione si applicherà ai prompt intervallati da input di testo e visivi. Inoltre, la capacità multimodale di GPT-4 si estenderà a tutte le dimensioni e tipi di immagini e testo, inclusi documenti con testo e fotografie, diagrammi (abbozzati o disegnati a mano) o screenshot. L’output di GPT-4 rimarrà capace come nei soli input di solo testo.

In un live streaming per sviluppatori organizzato da OpenAI, l’azienda ha mostrato la natura multimodale di GPT-4. A GPT-4 è stato fornito uno screenshot di una finestra di Discord nello stream e gli è stato chiesto di descriverla nei minimi dettagli .

Il modello ha impiegato poco più di un minuto e ha fornito una risposta estremamente descrittiva e accurata. La risposta ha catturato quasi ogni singolo elemento della schermata di input. Dal nome del server nell’angolo in alto a sinistra ai diversi canali vocali e persino nominando tutti i membri di Discord online nel riquadro di destra, GPT-4 ha catturato tutto.

GPT-4 è stato sottoposto ad altri test in cui le persone hanno inviato diverse opere d’arte casuali, comprese le foto di uno scoiattolo con in mano una macchina fotografica. Al modello è stato quindi chiesto di identificare ” cosa c’era di divertente in questa immagine “. Ancora una volta ha sfornato una risposta affermando che la foto era divertente perché gli scoiattoli in genere mangiano noci e non si comportano come gli umani. Come visto, ha fornito ancora una volta una risposta molto specifica come farebbe un essere umano.

Tuttavia, come accennato in precedenza, la specificità del modello va oltre gli screenshot e gli input di testo e immagini di tutti i tipi. OpenAI ha mostrato lo stesso quando Greg ha scattato una foto di un mockup disegnato a mano di un sito Web di barzellette. Ha quindi caricato lo stesso sul server Discord connesso all’API di GPT-4. Al modello è stato quindi chiesto di ” scrivere un breve codice HTML/JS per trasformare la pagina in un sito Web e sostituire le battute con quelle reali “.

Sorprendentemente, GPT-4 ha compilato il codice funzionante per lo stesso. Dopo averlo testato, ha prodotto un sito Web completamente funzionante in cui la pressione dei pulsanti rivelava le battute. Il fatto che il modello ChatGPT possa decifrare la scrittura umana e creare codice da una combinazione di input di testo e immagini è strabiliante. La capacità multimodale di GPT-4 è un enorme passo avanti nella direzione dell’intelligenza artificiale che comprende appieno i suggerimenti e fornisce risultati con una precisione perfetta.

Sebbene non ci siano stati intoppi considerevoli, OpenAI ha affermato che la velocità è qualcosa con cui GPT-4 potrebbe lavorare e potrebbe richiedere del tempo. Inoltre, gli input visivi per GPT-4 sono ancora in anteprima di ricerca e non sono ancora disponibili pubblicamente .

In che modo GPT-4 è migliore di GPT 3.5/GPT-3?

Oltre al suo approccio multimodale mozzafiato, GPT-4 ha altre aree di miglioramento in cui il nuovo modello non solo supera i suoi fratelli maggiori. Alcune di queste aree sono:

1. Migliore comprensione dei suggerimenti sfumati

OpenAI afferma che potrebbe essere difficile vedere effettivamente la differenza tra GPT-4 e GPT-3.5 a prima vista. Tuttavia, le capacità del primo vengono alla luce quando si entra nel nocciolo della questione. Per dimostrare la differenza, il nuovo modello è stato confrontato con GPT-3.5 in una varietà di esami a livello umano. OpenAI ha utilizzato i test disponibili pubblicamente più recenti e non ha fornito ai modelli alcuna formazione specifica per questo. GPT-4 contro 3.5

I dati stessi dipingono un quadro migliore di quello che potremmo dirti. In tutti i risultati, GPT-4 è risultato il migliore e ha ottenuto un punteggio superiore alla sua versione precedente. Mentre la soglia è stata appena superata in alcuni esami (come SAT EBRW), c’è stato un enorme balzo in avanti nelle prestazioni in altri esami (Uniform bar exam, AP Chemistry e altro). OpenAI ha affermato: ” GPT-4 è anche più affidabile, creativo e generalmente in grado di gestire istruzioni più sfumate rispetto a GPT-3.5 “. Ciò si traduce nel fatto che il bot comprende efficacemente e facilmente prompt più complessi.

2. Limite di parole esponenzialmente più grande

Mentre tutti amavano GPT 3 e GPT 3.5, le persone desideravano che potesse riconoscere input ancora più lunghi. L’introduzione di GPT-4 ha risolto questo problema. Il nuovo modello di linguaggio AI GPT-4 viene fornito con un incredibile limite di input di 25.000 parole, che è significativamente elevato. Per il contesto, GPT 3.5 era limitato a 8.000 parole .

Ciò significa che gli utenti saranno in grado di alimentare il bot con richieste di input molto più lunghe affinché possa leggere e quindi eseguire il rendering degli output. Quindi, quando finalmente GPT-4 verrà lanciato, puoi aspettarti di fornire una risposta molto più dettagliata e richiedere input più lunghi senza problemi. Ciò che questo significa per gli sviluppatori là fuori è che sarai in grado di sentire nuove API e documentazione nel chatbot e ottenere aiuto per scrivere codice o correggere bug nel codice esistente più facilmente.

3. Supporta più lingue

ChatGPT è stato utilizzato prevalentemente da anglofoni in tutto il mondo. Tuttavia, GPT-4 prende in considerazione altre lingue. Il modello più recente ha dimostrato il supporto per oltre 26 lingue diverse. Questo include artisti del calibro di ucraino, coreano, lingue germaniche e molte altre.

OpenAI ha testato lo stesso traducendo i benchmark MMLU in una varietà di lingue. Su 26 lingue, GPT-4 supera le prestazioni in lingua inglese di GPT-3.5 in 24 di esse. Tuttavia, è necessario eseguire più addestramento sui dati prima che GPT-4 supporti completamente tutte le lingue.

4. Personalità diverse

La manovrabilità è un concetto in cui puoi istruire l’IA ad agire in un certo modo con un tono di parola fisso. Un buon esempio di ciò è chiedere a ChatGPT di comportarsi come un cowboy o un agente di polizia (assegnandogli un ruolo come abbiamo fatto mentre creavamo il nostro chatbot utilizzando l’API di ChatGPT ). GPT-4 ottiene quella manovrabilità, ma OpenAI ora rende più difficile per l’IA rompere il carattere. Gli sviluppatori possono ora correggere lo stile della loro intelligenza artificiale fin dall’inizio descrivendo tali indicazioni nel messaggio “sistema”. Poiché questi messaggi sono facili da eseguire il jailbreak, OpenAI sta anche lavorando per renderli più sicuri.

Dalle demo che OpenAI ha mostrato nel suo post sul blog, è stato piuttosto divertente vedere l’utente che cercava di convincere GPT-4 a smettere di essere un tutor socratico e dire loro semplicemente la risposta alla loro domanda. Tuttavia, poiché era stato programmato per essere un tutor, GPT-4 si è rifiutato di rompere il personaggio, che è lo stesso che molti sviluppatori possono aspettarsi quando addestreranno i loro robot in futuro.

Possibili applicazioni di GPT-4?

Sebbene l’applicazione multimodale di GPT-4 non sia ancora possibile per gli utenti, OpenAI ha già collaborato con Be My Eyes, un’app pensata per i non vedenti. L’inclusione di GPT-4 nell’app ti consente di scattare una foto di ciò che stai guardando e l’intelligenza artificiale descriverà esattamente cosa c’è sullo schermo, inclusi vestiti, piante, macchine in palestra, mappe di lettura e molto altro.

GPT-4 ha anche collaborato con altre app come Duolingo, Khan Academy per l’apprendimento intelligente e persino con il governo islandese per la conservazione della lingua. Sebbene l’API di GPT-4 sia attualmente disponibile in lista d’attesa , possiamo aspettarci che gli sviluppatori escano con esperienze straordinarie una volta che sarà finalmente rilasciato. Anche prima che ciò accada, le applicazioni di cui sopra sono già attive per essere utilizzate dalle persone.

GPT-4 ha delle limitazioni?

Anche se GPT-4 viene annunciato come il prossimo passo nell’intelligenza artificiale, ha ancora i suoi colpi di velocità.

Per cominciare, GPT-4 non conosce alcuna conoscenza mondiale degli eventi che si sono verificati dopo settembre 2021 . Il modello inoltre non impara dalla sua esperienza. Ciò può portare il modello GPT-4 a commettere errori di ragionamento ed è persino incline ad accettare evidenti dichiarazioni false da parte di un utente.

GPT-4 può anche fallire nei problemi proprio come farebbero gli umani. Come GPT 3.5, anche il nuovo modello può avere allucinazioni ed essere sicuro di sbagliare nelle sue previsioni. Ciò potrebbe portare GPT-4 a non ricontrollare il suo lavoro quando a volte commette un errore.

Nonostante ciò, tuttavia, OpenAI promette che GPT-4 è stato addestrato meglio dei modelli precedenti per evitarlo. Nelle valutazioni di fattualità contraddittoria interna dell’azienda, il modello ha ottenuto un punteggio superiore del 35% rispetto a GPT 3,5 nella riduzione delle allucinazioni. Sebbene le percezioni e le previsioni del modello siano migliorate, i suoi risultati dovrebbero comunque essere presi insieme ai consigli umani.

OpenAI Evals – Insieme miglioriamo GPT-4

OpenAI utilizza il proprio framework software per creare ed eseguire benchmark per modelli come GPT-4. Tuttavia, è open source, quindi l’azienda ha condiviso alcuni modelli che sono stati più utilizzati. OpenAI ha iniziato che le valutazioni saranno parte integrante dei benchmark di crowdsourcing che possono essere utilizzati per garantire che GPT-4 sia meglio addestrato e funzioni ancora meglio.

Pertanto, l’azienda ha invitato tutti (sì, ogni utente GPT-4) a testare i suoi modelli rispetto ai benchmark e inviare i propri esempi. Puoi trovare maggiori informazioni sullo stesso nella pagina di ricerca GPT-4 di OpenAI.

Come ottenere l’accesso a GPT-4 in questo momento

Sfortunatamente, GPT-4 non è ancora disponibile per tutti. OpenAI ha attualmente rilasciato il nuovo modello solo agli abbonati ChatGPT Plus con un limite di utilizzo. Gli abbonati Plus ottengono anche un accesso token limitato a due diverse versioni di GPT-4. Mentre alcuni utenti possono utilizzare il motore 32K di GPT-4 , che offre loro un limite di parole più lungo, altri sono limitati a GPT-4 8K con una capacità limitata. OpenAI ha dichiarato che questo verrà adattato dinamicamente in base alla domanda. Gli abbonati a ChatGPT Plus che desiderano l’accesso in questo momento dovrebbero consultare la nostra guida su come ottenere l’accesso a GPT-4 qui .

Se non ti preoccupi di ottenere ChatGPT Plus, sarai lieto di sapere che Microsoft Bing sta già utilizzando GPT-4 . Sebbene non sarai in grado di giocare con il modello linguistico come su OpenAI, è comunque abbastanza buono sperimentare e provare diversi tipi di cose. Scopri come utilizzare MS Bing su qualsiasi browser Web per iniziare.

Domande frequenti (FAQ)

1. GPT-4 arriverà su ChatGPT?

GPT-4 sta già arrivando su ChatGPT. Come accennato in precedenza, il nuovo modello è già attivo per gli abbonati ChatGPT Plus. Se hai effettuato l’accesso, tutto ciò che devi fare è selezionare il modello corretto e iniziare a chattare. Puoi anche seguire il nostro link sopra su come ottenere ChatGPT Plus se non l’hai già fatto.

2. GPT-4 sarà gratuito?

A partire da ora, GPT-4 purtroppo non è gratuito da usare . Richiede un abbonamento ChatGPT Plus, che costa 20€ al mese. Tuttavia, OpenAI ha dichiarato che spera di offrire query GPT-4 gratuite a tutti prima o poi. La società potrebbe anche introdurre un nuovo livello di abbonamento per offrire un migliore accesso a nuovi modelli di linguaggio AI come GPT-4.

3. Posso affidarmi completamente a GPT-4?

No, non puoi fare affidamento su GPT-4 come misura completa. Il nuovo modello soffre ancora di alcune limitazioni, tra cui un vecchio set di dati e occasionali allucinazioni. Il modello può anche fornire con sicurezza risposte sbagliate che, sebbene non intenzionate, possono comunque essere dannose. Sebbene GPT-4 sia effettivamente migliorato rispetto a GPT 3.5, ha ancora la sua parte di problemi. Quindi, se finisci per utilizzare il modello più recente, usa il giusto giudizio umano insieme ad esso.

4. Qual è la dimensione del set di dati di GPT-4?

Mentre circolavano molte voci sul fatto che GPT-4 avesse 100 trilioni di parametri rispetto ai 175 miliardi di GPT-3, molto probabilmente è falso. In un’intervista con StriclyVC, il CEO di OpenAI Sam Altman ha dichiarato indirettamente che non sarà così e che “le voci sul GPT-4 sono una cosa ridicola “.

Forse per questo motivo, OpenAI ha attenuato le aspettative quando si tratta della dimensione del set di dati di GPT-4 e non ha fornito un numero esatto. Il tempo dirà se sarà effettivamente rivelato. Tuttavia, riteniamo che dovrebbe funzionare abbastanza bene nella sua dimostrazione iniziale.

5. Come è stato addestrato GPT-4?

Come i suoi precedenti modelli linguistici, il modello base di GPT-4 è stato addestrato per prevedere la parola successiva in un documento. In quanto tali, i dati utilizzati sono una combinazione di dati pubblicamente disponibili e dati concessi in licenza da OpenAI.

Questi dati contengono un misto di informazioni corrette e errate, ragionamenti deboli e forti, affermazioni contraddittorie e varie altre idee. Ciò offre a GPT-4 un ampio livello di dati da cui analizzare e riconoscere ciò che gli viene chiesto.

Preparati per il nuovo modello AI multimodale GPT-4 di OpenAI

Ci auguriamo che tu stia lasciando questa spiegazione con più informazioni su GPT-4 rispetto a prima di arrivarci. GPT-4 è un modello pieno zeppo di opportunità e suscita molta eccitazione per tutti. Una volta implementato completamente in ChatGPT per tutti, sarà interessante vedere come tutti utilizzeranno appieno il nuovo modello per creare esperienze. Tuttavia, non devi aspettare che provi ChatGPT. Scopri tutte le cose interessanti che puoi fare in ChatGPT e poi integra ChatGPT con Siri e ottieni persino ChatGPT sul tuo Apple Watch ! Allora, cosa ne pensi di questo nuovo entusiasmante modello? Lascia i tuoi pensieri nei commenti qui sotto!

Torna in alto