Mercury, la nuova AI 10x più veloce di Chatgpt, con tecnologia Diffusion LLM

Foto Iniziale

Mercury, il nuovo modello linguistico basato sulla diffusione sviluppato da Inception Labs, sta ridefinendo i paradigmi dell’intelligenza artificiale con prestazioni che superano di gran lunga i modelli tradizionali. Questo innovativo approccio non solo accelera la generazione di testo e codice, ma promette anche di ridurre drasticamente i costi di inferenza, rendendo l’AI avanzata più accessibile. Il modello utilizza una tecnologia di diffusione già collaudata in ambiti come immagini e video, applicandola per la prima volta con successo al linguaggio naturale. Con una velocità che raggiunge oltre 1000 token al secondo su hardware standard, Mercury rappresenta una svolta significativa nel panorama dell’intelligenza artificiale generativa.

La Rivoluzione è Qui: Mercury, il Modello che Cambia il Gioco

L’intelligenza artificiale generativa ha seguito finora un paradigma ben definito: l’autoregressione. I modelli come GPT-4, Claude 3.x e Gemini generano testo in modo sequenziale, token dopo token, creando un inevitabile collo di bottiglia nella velocità e nell’efficienza. Questo approccio, pur permettendo una profondità contestuale, impone limiti significativi quando si tratta di generare risposte complesse e articolate. Inception Labs, startup co-fondata dal professor Stefano Ermon di Stanford insieme ai colleghi Volodymyr Kuleshov e Aditya Grover, ha introdotto una soluzione radicalmente diversa: i modelli linguistici di grandi dimensioni basati sulla diffusione (dLLM).

Mercury rappresenta il primo prodotto commerciale di questa nuova classe di modelli, progettato per superare le limitazioni dei sistemi tradizionali. L’innovazione principale risiede nel suo approccio alla generazione del testo, che abbandona il metodo sequenziale per abbracciare un processo parallelo di raffinamento progressivo. Questa tecnologia segna un punto di svolta nel campo dell’intelligenza artificiale, promettendo di democratizzare l’accesso a strumenti avanzati di generazione linguistica grazie alla sua maggiore efficienza computazionale e alla riduzione dei costi associati.

1000 Token al Secondo: Come Mercury Sta Rivoluzionando la Generazione di Testi

La generazione di testo assistita dall’intelligenza artificiale ha finora seguito un approccio sequenziale, con la creazione di un token alla volta da sinistra verso destra. Questo metodo, utilizzato dai principali modelli sul mercato, limita inevitabilmente la velocità di generazione poiché ogni nuovo token dipende dalla creazione del precedente. Mercury, invece, adotta un approccio di generazione a diffusione noto come “coarse-to-fine”, traducibile in italiano “da grossolano a fine”. Invece di costruire il testo in modo sequenziale, il modello parte da una distribuzione di puro rumore e raffina progressivamente il risultato attraverso fasi di denoising.

Questo principio, già sperimentato con successo nei modelli per immagini e video come Stable Diffusion e Midjourney, viene ora applicato con efficacia alla generazione di testo. Come ha spiegato Ermon a TechCrunch: “I modelli di diffusione iniziano con una stima approssimativa dei dati e la raffinano tutta in una volta. Con gli LLM tradizionali, non puoi generare la seconda parola finché non hai generato la prima, e non puoi generare la terza finché non hai generato le prime due”.Superando questo vincolo fondamentale, Mercury può elaborare e modificare blocchi interi di testo in parallelo, risultando in un processo di generazione sostanzialmente più rapido ed efficiente.

10 Volte più Veloce di ChatGPT: I Vantaggi di Velocità ed Efficienza

Le prestazioni di Mercury sono impressionanti: il modello è fino a 10 volte più veloce rispetto agli LLM più ottimizzati per la velocità disponibili sul mercato. Mentre i modelli tradizionali raggiungono un massimo di circa 200 token al secondo, Mercury arriva a superare i 1000 token al secondo su GPU NVIDIA H100 standard. Una velocità che in precedenza era possibile raggiungere solo con hardware personalizzato come Groq, Cerebras o SambaNova. Il confronto diventa ancora più eclatante se paragonato ad alcuni modelli di frontiera che operano a meno di 50 token al secondo, rispetto ai quali Mercury offre un’accelerazione di 20 volte.

Questo balzo prestazionale si traduce in un vantaggio competitivo significativo sia per gli sviluppatori che per le aziende che intendono implementare soluzioni basate sull’intelligenza artificiale. Come sottolineato da un portavoce dell’azienda: “Il nostro modello ‘small’ per la programmazione è buono quanto GPT-4o Mini pur essendo più di 10 volte più veloce. Il nostro modello ‘mini’ supera i piccoli modelli open-source come Llama 3.1 8B e raggiunge più di 1000 token al secondo”. L’effettiva efficienza nell’utilizzo delle GPU rappresenta un cambiamento fondamentale nel panorama dell’AI generativa, come evidenziato dallo stesso Ermon: “Credo che questo sia un grande passo avanti. Cambierà il modo in cui le persone costruiscono modelli linguistici”.

Creare Codice e Contenuti in un Lampo: Le Applicazioni Pratiche di Mercury Coder

La prima implementazione commerciale di Mercury è Mercury Coder, un modello ottimizzato per la generazione di codice che sta già dimostrando risultati notevoli nei benchmark standard di programmazione. Durante i test sul campo, il modello ha evidenziato abilità impressionanti nella generazione del codice, superando modelli come GPT-4o Mini, Claude 3.5 Haiku e Gemini 2.0 Flash-Lite in termini di velocità, pur mantenendo un livello competitivo di qualità. Questo dimostra che l’approccio basato sulla diffusione può competere efficacemente con i migliori modelli autoregressivi tradizionali, offrendo al contempo vantaggi significativi in termini di efficienza.

Mercury Coder è attualmente accessibile attraverso la piattaforma di Inception Labs e su Hugging Face, permettendo agli sviluppatori di sperimentare in prima persona le capacità del modello. L’impatto potenziale sul mondo dello sviluppo software è considerevole: in un panorama già arricchito da strumenti come GitHub Copilot con la sua Modalità Agente e Gemini Code Assist, Mercury Coder si posiziona come un’alternativa che promette di aumentare ulteriormente la produttività degli sviluppatori grazie alla sua velocità di generazione senza precedenti. Il risultato è una generazione di codice che non solo è più rapida, ma che presenta anche notevoli miglioramenti nella qualità finale, aprendo nuove possibilità per l’automazione dello sviluppo software.

Il Futuro dell’AI è Ora: Implicazioni e Sfide di Mercury

Una delle sfide più significative nell’implementazione dell’AI oggi è il crescente costo dell’inferenza. I modelli linguistici di grandi dimensioni richiedono una potenza computazionale sostanziale, e la complessità crescente dei processi di ragionamento ha reso difficile la riduzione dei costi. L’approccio basato sulla diffusione di Mercury ha il potenziale di rendere l’AI di alta qualità più accessibile, abbattendo drasticamente il prezzo dell’inferenza grazie alla maggiore efficienza nell’utilizzo delle risorse computazionali.

A differenza di altre soluzioni focalizzate sulla velocità che si affidano a chip specializzati, i miglioramenti prestazionali di Mercury derivano da avanzamenti algoritmici piuttosto che da dipendenze hardware. Questo significa che, con il progredire della tecnologia GPU, i guadagni di performance di Mercury potrebbero amplificarsi ulteriormente, creando un vantaggio competitivo sostenibile nel tempo. Mercury è già disponibile per i clienti aziendali sia attraverso API che implementazioni on-premise, permettendo alle imprese di integrare i dLLM nei loro flussi di lavoro senza dipendere da servizi basati sul cloud. Labs ha già acquisito diversi clienti Fortune 100, sebbene l’azienda non abbia divulgato nomi specifici.

La Nuova Era dell’AI è Iniziata: Conclusione e Prospettive

L’entusiasmo della comunità di ricerca per Mercury è palpabile. L’esperto di AI Simon Willison ha dichiarato: “Adoro il fatto che i ricercatori stiano sperimentando architetture alternative ai Transformer. È un’ulteriore dimostrazione di quanto ancora ci sia da esplorare nel campo dei LLM”.Anche Andrej Karpathy, ex ricercatore di OpenAI, ha sottolineato il potenziale del modello, affermando: “Questo modello ha il potenziale per essere diverso, e forse mostrare un approccio nuovo e unico, o nuovi punti di forza e debolezza. Incoraggio le persone a provarlo”.

Se la diffusione testuale riuscirà a mantenere alta la qualità delle generazioni migliorando al contempo la velocità, potrebbe rappresentare una svolta per il futuro dei modelli linguistici, aprendo la strada a un nuovo paradigma di AI generativa. Come ha dichiarato un co-fondatore sui social media: “Stiamo sfidando lo status quo della generazione linguistica. I nostri primi risultati offrono una generazione linguistica fulminea a oltre 1000 token al secondo, mantenendo la qualità dei principali LLM ottimizzati per la velocità”. Con il supporto della messa a punto dei modelli, Inception Labs si posiziona come un attore di primo piano nella prossima evoluzione dell’intelligenza artificiale generativa.

Sitografia

Pubblicato il: 2 Marzo 2025