Episode Details

Back to Episodes

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

Published 2 years, 3 months ago
Description
KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT ist dümmer als ein Grundschüler. Solche Meldungen findet man schon mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr unterschiedliche Abschneiden der großen Sprachmodelle in standardisierten Tests liegt in der Art und Weise, wie das vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und Hartmut Gieselmann von der c‘t haben sich angeschaut, wie Benchmarks diese Leistung messen und vergleichen - und wie aussagegkräftig die Ergebnisse solcher Benchmarks sind.

heise.de/ki-update https://www.heise.de/ct https://heise.de/-9288453 https://www.heise.de/thema/Kuenstliche-Intelligenz https://the-decoder.de/ https://www.heiseplus.de/podcast

Listen Now

Love PodBriefly?

If you like Podbriefly.com, please consider donating to support the ongoing development.

Support Us