Episode Details
Back to EpisodesEpisode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude
Season 1
Episode 175
Published 1 year, 9 months ago
Description
In dieser faszinierenden Episode erkunden Sigurd Schacht und Carsten Lanquillon, wie Anthropic's Forschung zur Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf Konzeptebene zu manipulieren. Sie diskutieren das aufsehenerregende Golden Gate Claude-Experiment, bei dem ein Sprachmodell dazu gebracht wurde, in jeder Konversation die Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden Implikationen dieser Technologie für die Zukunft der KI-Steuerung und -Sicherheit.