AI Security Portal

Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay

Authors: Hao Wang, Yanting Wang, Hao Li, Rui Li, Lei Sha | Published: 2026-01-15

2026.01.15 2026.01.17

Literature Database

Authors: Haiyue Yuan, Nikolay Matyunin, Ali Raza, Shujun Li | Published: 2026-01-15

2026.01.15 2026.01.17

Literature Database

Authors: Hao Li, Yankai Yang, G. Edward Suh, Ning Zhang, Chaowei Xiao | Published: 2026-01-15

2026.01.15 2026.01.17

Literature Database

Authors: Pradip Kunwar, Minh Vu, Maanak Gupta, Manish Bhattarai | Published: 2026-01-15

2026.01.15 2026.01.17

Literature Database

Authors: Mohoshin Ara Tahera, Karamveer Singh Sidhu, Shuvalaxmi Dass, Sajal Saha | Published: 2026-01-15

2026.01.15 2026.01.17

Literature Database

Authors: Ben Nassi, Bruce Schneier, Oleg Brodt | Published: 2026-01-14

2026.01.14 2026.01.16

Literature Database

Authors: Francesco Capano, Jonas Böhler, Benjamin Weggenmann | Published: 2026-01-14

2026.01.14 2026.01.16

Literature Database

Authors: Zhiyi Mou, Jingyuan Yang, Zeheng Qian, Wangze Ni, Tianfang Xiao, Ning Liu, Chen Zhang, Zhan Qin, Kui Ren | Published: 2026-01-14

2026.01.14 2026.01.16

Literature Database

Authors: Xiaonan Liu, Zhihao Li, Xiao Lan, Hao Ren, Haizhou Wang, Xingshu Chen | Published: 2026-01-14

2026.01.14 2026.01.16

Literature Database

Authors: Aniesh Chawla, Udbhav Prasad | Published: 2026-01-14

2026.01.14 2026.01.16

Literature Database