Web sul blog: L'ascesa di DeepSeek

lunedì 3 febbraio 2025

L'ascesa di DeepSeek

“È una delle innovazioni più sorprendenti e impressionanti che abbia mai visto”: le parole del venture capitalist Marc Andreessen sintetizzano alla perfezione lo stupore con cui la Silicon Valley ha assistito all’avvento di V3 e R1, i modelli di intelligenza artificiale creati da DeepSeek, la startup cinese derivata dall’hedge fund di Lian Wenfeng.

DeepSeek è riuscita a creare sistemi di AI potenti almeno quanto i principali realizzati negli Stati Uniti a una frazione del costo di training – 5,6 milioni di dollari per il suo modello V3, un LLM (modello linguistico di grandi dimensioni), contro gli oltre 100 milioni stimati per ChatGPT-4 – e utilizzando chip molto meno potenti e probabilmente in quantità inferiore (il numero di schede Nvidia utilizzate è ancora dibattuto), anche a causa dei blocchi commerciali imposti dagli Stati Uniti. DeepSeek è riuscita nell’impresa usando delle tecniche di programmazione e di funzionamento innovative e procedendo a ottimizzazioni sistematiche e su larga scala nel funzionamento dei sistemi di creazione e gestione dei modelli.

In questo ha giocato un ruolo significativo anche il fatto che DeepSeek abbia scelto un modello di sviluppo di tipo open source (pur con le differenze che questo ha nel settore dell’intelligenza artificiale rispetto all’ingegneria del software tradizionale, tanto che la definizione di open per questi modelli è contestata), da un lato potendo sfruttare l’aiuto di sviluppatori indipendenti di tutto il mondo, dall’altro aumentando la pervasività dei suoi modelli, perché possono essere scaricati da chiunque, nel repository presente su GitHub, e utilizzati in altro modo. I modelli possono quindi essere utilizzati in locale anche con computer relativamente poco potenti, mentre altre aziende possono riutilizzarli dopo averli portati nel proprio cloud. Microsoft stessa ha dichiarato di voler aggiungere i modelli di DeepSeek nell’offerta del suo cloud Azure (nonostante la partnership con OpenAI), mentre Perplexity offre R1 come opzione per il suo motore di ricerca.

La scossa al modello americano

La stampa e i mercati finanziari hanno rapidamente registrato il cambiamento nel settore dell’intelligenza artificiale, comparando il lavoro e i costi affrontati da DeepSeek con quanto invece sostenuto dalle aziende statunitensi del settore, cioè che siano necessari investimenti di capitale e tecnologia crescenti per sviluppare nuovi modelli e mantenere la supremazia statunitense. Nel biennio 2023-2024 le cifre, mai rivelate ufficialmente, sono state nell’ordine di grandezza dei 100 milioni di dollari per l’addestramento dei modelli di nuova generazione, e questo contando solo il costo d’uso dei processori, mentre per il 2025, come aveva dichiarato l’anno scorso il Ceo di Anthropic Dario Amodei, la cifra necessaria per l’addestramento della “next gen” di AI potrebbe arrivare anche al miliardo di dollari.

La comparazione più facile per la stampa internazionale e per i mercati finanziari è stata comunque quella con lo “Stargate Project”, pianificato durante la presidenza di Joe Biden da OpenAI, SoftBank, Oracle e il fondo emiratino Mgx, e presentato alla Casa Bianca da Donald Trump il 21 gennaio. Il progetto prevede che, per continuare lo sviluppo dei modelli realizzati da OpenAI, sia necessario creare una gigantesca infrastruttura di centri di calcolo dedicata esclusivamente all’azienda di Sam Altman al costo iniziale di 100 miliardi di dollari nel 2025, che potrebbero diventare 500 miliardi in quattro anni, generando tra le altre cose più di 100mila posti di lavoro negli Usa. L’obiettivo, secondo Altman, è lo sviluppo dell’intelligenza artificiale generale (AGI), mentre per il presidente Trump è più esplicitamente il mantenimento della supremazia statunitense nel settore.

Durante un evento pubblico tenuto solo un giorno prima, il 20 gennaio, Liang Wenfeng ha presentato al premier cinese Li Qiang il modello di DeepSeek capace di “ragionamento”, R1, che secondo varie metriche è pari o superiore a o1 di OpenAI, il modello giudicato finora il più avanzato tra quelli dotati di ragionamento. Riferendosi alla presentazione di questo particolare modello, Marc Andreessen ha parlato del “momento Sputnik” dell’intelligenza artificiale, con un suggestivo riferimento alla messa in orbita nel 1954 da parte dei sovietici del primo satellite artificiale, che abbatté il primato americano nel settore aerospaziale e scatenò la corsa allo spazio, con la nascita della Nasa, l’espansione del programma militare e, indirettamente, la nascita di Internet.

L’impatto del “momento Sputnik” di DeepSeek per adesso si è tradotto invece in una reazione di shock e nel timore di un “AI Gap” evidenziato da tutte le più autorevoli testate internazionali, a partire da quelle statunitensi. I giornali hanno sostanzialmente ufficializzato lo stupore per questa “new entry” cinese, sconosciuta ai più, nel settore dell’intelligenza artificiale, che non solo è riuscita a raggiungere e superare il campione del settore (OpenAI), ma lo ha fatto mettendone in discussione gli assunti tecnologici ed economici.

Al di là dei dettagli tecnici (numero di parametri dei modelli di DeepSeek, modalità di addestramento e funzionamento, velocità e modalità di gestione dei token) ed economici (costo dell’addestramento e del funzionamento, costi di inferenza e costo delle GPU utilizzate), l’impatto del nuovo attore cinese ha prodotto un primo risultato immediato, cioè il crollo dei titoli delle aziende centrali per lo sviluppo dell’intelligenza artificiale, che dal 2022 stavano godendo di una crescita significativa. In particolare, Nvidia ha perso circa 600 miliardi di dollari in poche ore (-17%), ma il calo ha coinvolto, su cifre più contenute, anche gli altri protagonisti del settore: Alphabet/Google, Amazon, Meta e Microsoft (OpenAI non è quotata in Borsa).

Continua la lettura su Guerre di Rete

Fonte: Guerre di Rete

Autore: Antonio Dini

Licenza: This work is licensed under Attribution-NonCommercial 4.0 International

Articolo tratto interamente da Guerre di Rete

Nessun commento:

Posta un commento

I commenti sono in moderazione e sono pubblicati prima possibile. Si prega di non inserire collegamenti attivi, altrimenti saranno eliminati. L'opinione dei lettori è l'anima dei blog e ringrazio tutti per la partecipazione. Vi ricordo, prima di lasciare qualche commento, di leggere attentamente la privacy policy. Ricordatevi che lasciando un commento nel modulo, il vostro username resterà inserito nella pagina web e sarà cliccabile, inoltre potrà portare al vostro profilo a seconda della impostazione che si è scelta.

menù

lunedì 3 febbraio 2025

L'ascesa di DeepSeek

La scossa al modello americano

Nessun commento:

Posta un commento

Credits grafici

Visitatori dal 18 agosto 2009

Statistiche ufficiali Blogger

Statistiche Histats dal 10/02/2026 visitatori attuali

Privacy e cookie policy