Episode Details

Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude

Season 1 Episode 175 Published 1 year, 9 months ago

Description

In dieser faszinierenden Episode erkunden Sigurd Schacht und Carsten Lanquillon, wie Anthropic's Forschung zur Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf Konzeptebene zu manipulieren. Sie diskutieren das aufsehenerregende Golden Gate Claude-Experiment, bei dem ein Sprachmodell dazu gebracht wurde, in jeder Konversation die Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden Implikationen dieser Technologie für die Zukunft der KI-Steuerung und -Sicherheit.

Support the show

Episode Details

Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude

Description

Listen Now

Love PodBriefly?