Moonshot di OpenAI: risolvere il problema dell'allineamento dell'IA

A luglio, OpenAI ha annunciato un nuovo programma di ricerca sul “superallineamento”. Il programma ha l’obiettivo ambizioso di risolvere entro il 2027 il problema più difficile nel campo noto come allineamento dell’intelligenza artificiale, uno sforzo a cui OpenAI sta dedicando il 20% della sua potenza di calcolo totale.

Qual è il problema dell’allineamento dell’IA? È l’idea che gli obiettivi dei sistemi di intelligenza artificiale potrebbero non essere in linea con quelli degli esseri umani, un problema che aumenterebbe se venissero sviluppati sistemi di intelligenza artificiale superintelligenti. È qui che le persone iniziano a parlare di rischi di estinzione per l'umanità. Il progetto di superallineamento di OpenAI si concentra sul problema più grande dell'allineamento dei sistemi di superintelligenza artificiale. Come ha affermato OpenAI nel suo post introduttivo sul blog: “Abbiamo bisogno di scoperte scientifiche e tecniche per guidare e controllare i sistemi di intelligenza artificiale molto più intelligenti di noi”.

Lo sforzo è co-guidato dal capo della ricerca sull'allineamento di OpenAI, Jan Leike, e Ilya Sutskever, cofondatore e capo scienziato di OpenAI. Leike ha parlato con IEEE Spectrum dello sforzo, che ha l'obiettivo secondario di costruire uno strumento di ricerca sull'intelligenza artificiale allineato, per aiutare a risolvere il problema dell'allineamento.

Jan Leike è:

Spettro IEEE: cominciamo con la tua definizione di allineamento. Cos’è un modello allineato?

Jan Leike, capo della ricerca sull'allineamento di OpenAI, sta guidando gli sforzi dell'azienda per superare la superintelligenza artificiale prima che venga mai creata.OpenAI

Jan Leike: Ciò che vogliamo fare con l’allineamento è capire come creare modelli che seguano l’intento umano e facciano ciò che gli esseri umani vogliono, in particolare in situazioni in cui gli esseri umani potrebbero non sapere esattamente cosa vogliono. Penso che questa sia una definizione operativa abbastanza buona perché puoi dire: “Cosa significa, diciamo, per un assistente di dialogo personale essere allineato? Beh, deve essere utile. Non dovrebbe mentirmi. Non dovrebbe dire cose che non voglio che dica”.

Diresti che ChatGPT è allineato?

Come: Non direi che ChatGPT sia allineato. Penso che l'allineamento non sia binario, come se qualcosa fosse allineato o meno. Lo considero come uno spettro tra sistemi molto disallineati e sistemi completamente allineati. E [con ChatGPT] siamo da qualche parte nel mezzo dove è chiaramente utile per la maggior parte del tempo. Ma è anche ancora disallineato in alcuni aspetti importanti. Puoi eseguirne il jailbreak e ha allucinazioni. E a volte è parziale in modi che non ci piacciono. E così via. C'è ancora molto da fare.

“Siamo ancora agli inizi. E soprattutto per i modelli davvero grandi, è davvero difficile fare qualcosa che non sia banale."—Jan Leike, OpenAI

Parliamo di livelli di disallineamento. Come hai detto tu, ChatGPT può avere allucinazioni e dare risposte distorte. Quindi questo è un livello di disallineamento. Un altro livello è qualcosa che ti dice come creare un'arma biologica. E poi, il terzo livello è un'intelligenza artificiale super intelligente che decide di spazzare via l'umanità. Dove in quello spettro di danni la tua squadra può davvero avere un impatto?

Come: Si spera, su tutti loro. Il nuovo team di superallineamento non si concentra tanto sui problemi di allineamento che abbiamo oggi. C'è molto ottimo lavoro in corso in altre parti di OpenAI sulle allucinazioni e sul miglioramento del jailbreak. Ciò su cui il nostro team si concentra maggiormente è l'ultimo. Come possiamo impedire che i futuri sistemi sufficientemente intelligenti da depotenziare l’umanità lo facciano? O come li allineiamo sufficientemente da poterci aiutare a fare ricerche sull'allineamento automatizzato, in modo da poter capire come risolvere tutti questi altri problemi di allineamento.

Ti ho sentito dire in un'intervista podcast che GPT-4 non è realmente in grado di aiutare con l'allineamento, e lo sai perché ci hai provato. Puoi dirmi di più a riguardo?

Come: Forse avrei dovuto fare una dichiarazione più sfumata. Abbiamo provato a utilizzarlo nel nostro flusso di lavoro di ricerca. E non è che non sia mai d'aiuto, ma in media non aiuta abbastanza da giustificarne l'utilizzo per la nostra ricerca. Se volevi usarlo per aiutarti a scrivere una proposta di progetto per un nuovo progetto di allineamento, il modello non comprendeva l'allineamento abbastanza bene da aiutarci. E in parte è dovuto al fatto che non ci sono molti dati pre-addestramento per l'allineamento. A volte potrebbe avere una buona idea, ma la maggior parte delle volte semplicemente non direbbe nulla di utile. Continueremo a provarci.

Blog

Moonshot di OpenAI: risolvere il problema dell'allineamento dell'IA