Modelli hungginface trainati con CPU

suoko · 2 years ago

Modelli hungginface trainati con CPU

LadroDiGalline · 2 years ago

Not OP

Ciao @Mechanize@feddit.it, grazie, mi hai aperto un mondo.

Sto iniziando adesso a studiare un po’ di machine learning, conosci qualche risorsa per imparare i termini tecnici? Tipo che significa quantizzazione, GGML, etc etc? Penso che le documentazioni che si trovano online manchino di una visione dall’alto

per non perderci troppo nei concetti che, sinceramente, non credo t’interessino

E invece a me interessano una cifra :D

Mechanize · 2 years ago

Ciao! Scusa per la tarda risposta, @LadroDiGalline@feddit.it.

Allora, sinceramente non conosco risorse specifiche per i termini, per lo più s’imparano organicamente quando ti mantieni informato sul mondo del Machine Learning, anche perché è talmente in flusso che nuovi termini vengono letteralmente coniati ogni giorno.

Per farti un esempio la quantizzazione, di per sé, non è un concetto nuovo ma è scoppiato di fama nel grande pubblico solo dopo l’arrivo del modello LLaMa, perché usato per far girare modelli più complessi su hardware disponibile a livello consumer a velocità accettabili.
Ma, per farti capire, in pochi mesi abbiamo visto llama.cpp bruciare attraverso 4 (se non ricordo male, ma non trovo più la lista) diverse versioni non retro-compatibili del loro sistema di quantizzazione, ed ora aggiungere una metodologia diversa, mentre altri tipi spuntavano e morivano in continuazione, a volte fermandosi solo al livello di paper.
Puoi trovare una risorsa interessante specificatamente per GGML qui

Un altro esempio di questo continuo flusso di termini sono i nomi delle tecniche usate per il prompting dei modelli: Chain of Thought che trovi spesso come “CoT” sul nome dei modelli che sono addestrati con tale processo, neppure il tempo materiale per addestrare un numero di modelli e ci siam trovati con Tree of Thoughts che per quasi due giorni aveva completamente invaso la nicchia del ML su twitter.
E al contempo uscivano concetti come il SuperHOT per aumentare il contesto dei LLM da 2048 a 8192 token, facendo partire una nuova serie di paper riguardo come estendere il contesto.

E questi son solo esempi a caso di alcuni termini che sono diventati di uso comune - e quasi mai spiegati - nell’arco di giorni .

Se, invece, t’interessano i termini di base del Machine Learnig come cos’è l’inferenza, la regressione o simile allora ti consiglio vivamente di seguire uno dei tanti corsi gratuiti che puoi trovare in rete. Anni fa (un sacco di anni fa) c’era un ottimo corso su coursera da parte dell’università di Stanford, ma penso che ormai con l’esplosione di fama che c’è stata per l’argomento ne potrai trovare a decine di anche alta qualità. Fai solo attenzione che come sempre quando un argomento si propaga gli avvoltoi iniziano a girare, e quindi è facilissimo trovare gente incompetente che ripete solo cose che non capisce facendosi passare per grandi professori.

Al momento non so come coursera sia, quindi non mi sento di consigliartela direttamente, ma anni fa (…probabilmente quasi un decennio fa, ormai haha) aveva diversi corsi di buona se non ottima qualità totalmente gratuiti.

LadroDiGalline · 2 years ago

E’ incredibile vedere lo sviluppo di nuove tecniche praticamente in tempo reale. Grazie per le dritte, penso di mettere su qualcosa con llama.cpp nel weekend