Il settore dove maggiore è l’impatto oggi della AI è quello della creazione dei contenuti: testo, video, immagini, ma anche codice.
Large Language Model: è la tecnologia di base dei chat bot conversazionali, come ChatGTP (OpenAI), Claude (Antrophic) e Gemini (Google).
Un LLM è un sistema (algoritmo parametrizzato) di reti neurali trainato (allenato) su un enorme ammontare di dati, con la funzione caratteristica di predire “la prossima parola”, quella con maggiore probabilità, partendo da una sequenza di altre parole. Talmente accurata è la predizione, che la conversazione sembra umana. Non sono esenti da errori (allucinazioni, via via ridotte o eliminate con vari espedienti).
Diffusion Model: particolarmente adatti alla generazione di immagini e video, attraverso il processo di “iterative denoising”, generano contenuti “visivi” partendo da “scarabocchi” casuali.
I disegno sono “iterativamente” rifiniti, utilizzando dati di training per includere dettagli necessari a comporre l’immagina finale (richiesta) ed eliminare “il ruomore”.
Esempi di questi modelli sono Dall-E e Stable Diffusion per le immagini, e Sora (OpenAI).
Generative Adversarial Networks: altro modello utilizzato per la generazione di contenuti, attraverso l’uso di due distinti algoritmi (generatore e discriminatore); antenati degli LLM, sono ancora considerati molto versatili e potenti (ma anche energivori).
Neural Radiance Fields: emersi recentemente, sono utilizzati per la creazione di scene 3D, partendo da immagini 2D (per esempio): con tecniche di deep learning ed analisi volumetriche, vengono ricreate scene realistiche.
Non poteva non essere Nvidia grande player di questo modello.