Alignment faking in large language models

Alignment faking in large language models

Anthropic

Most of us have encountered situations where someone appears to share our views or values, but is in fact only pretending to do so—a behavior that we might call “alignment faking”. Could AI models also display alignment faking? Ryan Greenblatt, Monte MacDiarmid, Benjamin Wright and Evan Hubinger