I Transformer comprendono il linguaggio naturale

Le reti neurali sono più veloci e più efficienti perché non utilizzano connessioni ricorrenti, ma possono elaborare in parallelo intere sequenze di parole in ingresso grazie ai nuovi microprocessori Nvidia

Leonardo FelicianLeonardo Felician

L'elaborazione del linguaggio naturale è tema di ricerca informatica da molti decenni, con sviluppi di modelli specifici, addestrati caso per caso, abbandonati dopo il fondamentale articolo del 2017 Attention is all you need, dove Ashish Vaswani e altri ricercatori hanno proposto l’architettura dei Trasformer: reti neurali più veloci e più efficienti perché non utilizzano connessioni ricorrenti, ma possono elaborare in parallelo intere sequenze di parole in ingresso grazie ai nuovi microprocessori Nvidia.

Non a caso questa azienda di microprocessori per videogiochi è cresciuta a una leadership mondiale, con una variazione di quotazione di borsa del 1600% in 5 anni.

L’idea chiave dei Transformer è l’utilizzo di meccanismi di auto-attenzione per elaborare le sequenze di input, apprendendo le relazioni tra due qualsiasi parole di una sequenza, indipendentemente dalla loro distanza.

Catturare dipendenze a lungo raggio è la caratteristica veramente essenziale per comprendere il linguaggio naturale. Un esempio facile per un bambino, ma impossibile per i computer fino a pochi anni fa? Eva ha dato una mela ad Adamo, che l’ha ringraziata|mangiata: a chi si riferisce il pronome femminile?

La vicinanza nella frase non conta, il pronome si riferisce alla persona o alla cosa a seconda del significato del verbo, non per la sua posizione vicina o lontana. Ecco spiegato dunque l’acronimo GPT, che sta per Generative Pretrained Transformer, un tipo di architettura di deep learning generalizzata che sta rivoluzionando il mondo.

(*) Docente di Big Data Management, MIB Trieste School of Management

 

Argomenti:pianeta ai

Riproduzione riservata © il Nord Est