Amirali Abdullah

Karma: 35

Steering Language Models in Multiple Directions Simultaneously

lukemarks, Narmeen and Amirali Abdullah

2 May 2025 15:27 UTC

18 points

0 comments7 min readLW link

Backdoors have universal representations across large language models

Amirali Abdullah, Narmeen, Dhruv Nathawani and nirmalendu prakash

6 Dec 2024 22:56 UTC

18 points

0 comments16 min readLW link

Early Experiments in Reward Model Interpretation Using Sparse Autoencoders

lukemarks, Amirali Abdullah, Rauno Arike, fbarez and nothoughtsheadempty

3 Oct 2023 7:45 UTC

18 points

0 comments5 min readLW link