TerryJCZhang

Karma: 33

Make Smarter AI Safer

Explaining undesirable model behavior: (How) can influence functions help?

Zhijing Jin, TerryJCZhang and Punya Syon Pandey

2 Mar 2026 11:30 UTC

18 points

0 comments3 min readLW link

The Multi-Agent Minefield: Can LLMs Cooperate to Avoid Global Catastrophe?

Zhijing Jin, Thao Amelia Pham, TerryJCZhang, pepijn_cobben, Angelo Huang, Isabel Dahlgren and Jacob Brinton

17 Feb 2026 16:55 UTC

14 points

2 comments5 min readLW link

Replication of Koorndijk (2025): Differential Compliance May Reflect Prompt Sensitivity Rather Than Strategic Reasoning

Chijioke Ugwuanyi and TerryJCZhang

13 Feb 2026 16:12 UTC

9 points

0 comments8 min readLW link