AI 對齊只是讓 ChatGPT 戴上面具:揭開吸飽人類惡意底下的危險怪物
Table of Contents 什麼是 AI 對齊 (alignment)? 所謂「」,中文長譯為 AI 對齊或 AI 校準,指的是讓人工智慧的行為與人類價值觀一致,確保它在運作過程中不會偏離人類的目標或造成社會危害,以防範工具誤用、道德缺失、目標錯誤或被惡意利用等情況發生。 目前主流的對齊方法,包括「從人類回饋中強化學習 (RLHF)」或「透過極端提問測試 AI 的容錯邊界 (Red Teaming)」等。 () 一點微調就讓…