Notiziole di .mau.@xmau.com

Notiziole di .mau.@xmau.com

E se non ci fossero più “nuovi LLM?”

Ho trovato su Substack questo post di Alberto Romero che mi ha preoccupato parecchio. Riassunto per chi ha fretta: Romero ipotizza che GPT-5 esiste, ma non verrà reso pubblico perché il suo costo computazionale è troppo alto; esso è stato però usato per addestrare i nuovi modelli pubblici, come o1 e il futuro o3. Da dove deriva questa impressione? da quello che è successo con Anthropic (cioè Amazon, se ve lo chiedeste) e Opus 3.5, che è stato ufficialmente cancellato “perché non era così migliore dei modelli precedenti” ma sarebbe stato comunque usato per addestrare il successore del precedente sistema Sonnet 3.5, che effettivamente ha avuto un grande miglioramento nelle prestazioni. Notate il condizionale che ho usato (perché è stato usato nell’articolo). Sono tutte supposizioni.

Romero spiega che il rapporto costi-benefici del nuovo sistema non si è rivelato sufficiente: d’altra parte, se date un’occhiata a questo post, notate come il passaggio da un modello a quello superiore costa – nel senso di quanto si paga per migliaia di token – un ordine di grandezza in più passando da un modello al successivo… tranne che nel caso di o1, dove il costo si riduce. Inoltre il modello di o1 sembra avere un numero di parametri inferiore a quello di GPT-4. L’inferenza di Romero è che o1 è stato addestrato con GPT-5. È vero che il costo computazionale di quest’ultimo sarebbe altissimo, ma è anche vero che l’addestramento si fa una volta sola, e

What you need to remember is that a strong model acting as a “teacher” turns “student” models from [small, cheap, fast] + weak into [small, cheap, fast] + powerful.

Il tutto senza contare che è finito il materiale di pre-addestramento: sempre dall’articolo di Romero,

But overtraining is not feasible anymore. AI labs have exhausted the high-quality data sources for pre-training. Elon Musk and Ilya Sutskever admitted that much in recent weeks

(ok, che lo dica Elonio non significa molto, ma basta fare dei conti spannometrici per accorgersi che questa ipotesi è plausibile.) Tutto bene, allora? Viviamo nel migliore dei mondi possibili e abbiamo trovato un sistema per ridurre l’impronta energetica di questi sistemi? Mica tanto. L’autoaddestramento va benissimo per sistemi dalle regole fisse, come il go. Qui invece abbiamo un sistema statistico. proprio perché sono vent’anni che abbiamo visto che è impossibile sperare di trovare un sistema di regole. Posso immaginare che ci siano tonnellate di correzioni inserite nell’algoritmo, ma autoaddestrare in questo modo dà la certezza che gli errori di base nell’approccio generativo delle risposte si perpetueranno, perché il sistema si dà ragione da solo. Si avrà, solo moltiplicato per un fattore incredibile, l’effetto Wikipedia copycat: qualcuno scrive un testo errato nell’enciclopedia, altri copiano bovinamente quello che c’è scritto, e a questo punto abbiamo la fonte bella pronta e la Verità Errata stabilita una volta per tutte.

Capite perché sono preoccupato?