Episode Details

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

Published 2 years, 3 months ago

Description

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT ist dümmer als ein Grundschüler. Solche Meldungen findet man schon mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr unterschiedliche Abschneiden der großen Sprachmodelle in standardisierten Tests liegt in der Art und Weise, wie das vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und Hartmut Gieselmann von der c‘t haben sich angeschaut, wie Benchmarks diese Leistung messen und vergleichen - und wie aussagegkräftig die Ergebnisse solcher Benchmarks sind.

heise.de/ki-update https://www.heise.de/ct https://heise.de/-9288453 https://www.heise.de/thema/Kuenstliche-Intelligenz https://the-decoder.de/ https://www.heiseplus.de/podcast

Episode Details

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

Description

Listen Now

Love PodBriefly?