HilaryTorn

Hilary Torn HilaryTorn

Behavioral evals for AI safety

Achievements

emergent-lying-sales-finetuning emergent-lying-sales-finetuning Public

If you fine-tune a language model on sales conversations (enthusiastic, persuasive, but never factually wrong) does it start lying on its own?

Python 1
in-context-trajectory-poisoning in-context-trajectory-poisoning Public

Bypassing LLM-based agent monitors with natural language — no model access, no GPUs, no gibberish. Adapts PAIR for monitor bypass. Apart Research AI Control Hackathon 2026.

Python 1 1
ThoughtGuards ThoughtGuards Public

A real-time dashboard monitoring AI chain-of-thought traces for manipulative patterns, deception, and reward hacking.

Python 4
Endless-Range/klaviyo-campaign-analysis Endless-Range/klaviyo-campaign-analysis Public

Analyzing campaigns and subject lines in Klaviyo

Python 3 1