筆記
(1)Abramson,J.,Ahuja,A.,Barr,I.,Brussee,A.,Carnevale,F.,Cassin,M.,Chhaparia,R.,Clark,S.,Damoc,B.,Dudzik, Dudzik, A.和Georgiev,P.,2020。模仿互動智能。 ARXIV預印型ARXIV:2012.05672。
(2)Abramson,J.,Ahuja,A.,Brussee,A.,Carnevale,F.,Cassin,M.,Fischer,F.,Georgiev,P.,Goldin,A. F.,2021。創建具有模仿和自我監督學習的多模式互動代理。 ARXIV預印型ARXIV:2112.03763。
(3)Abramson,J.,Ahuja,A.,Carnevale,F.,Georgiev,P.,Goldin,A.,Hung,A.,Landon,J.,Lillicrap,T.,Muldal,A.,Richards, Richards, B.和Santoro,A.,2022。評估多模式互動劑。 ARXIV預印型ARXIV:2205.13274。
(4)Bai,Y.,Jones,A.,Ndousse,K.,Askell,A.,Chen,A.,Dassarma,N. T.和Joseph,N.,2022年。通過從人類反饋中學習的強化學習培訓了一位有益而無害的助手。 ARXIV預印型ARXIV:2204.05862。
(5)Christiano,PF,Leike,J.,Brown,T.,Martic,M.,Legg,S。和Amodei,D.,2017年。從人類的偏好中學習深度強化。 神經信息處理系統的進步,,,, 30。