Episode Details
Back to Episodes
#118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking
Description
Explain my like i am five: Die Grundlagen moderner Suchen
Wir, als User, erwarten heutzutage ziemlich viel von einer Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka “Meinten Sie …?”).
Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und Co. für sowas eingesetzt, denn eine einfache Volltext-Suche mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren all diese modernen Suchen eigentlich im Inneren? In dieser Episode geht es um die Grundlagen moderner Suchmaschinen. Wir schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords, Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse Document Frequency, Vector Space Model und Co um uns und erklären das ganze im “Explain me Like I am five”-Stil.
Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern erklärt werden.
Das schnelle Feedback zur Episode:
Feedback
- EngKiosk Community: https://engineeringkiosk.dev/join-discord
- Email: stehtisch@engineeringkiosk.dev
- LinkedIn: https://www.linkedin.com/company/engineering-kiosk/
- Mastodon: https://podcasts.social/@engkiosk
- Twitter: https://twitter.com/EngKiosk
Gerne behandeln wir auch euer Audio Feedback in einer der nächsten Episoden, einfach die Audiodatei per Email an stehtisch@engineeringkiosk.dev.
Links
- r/explainlikeimfive: https://www.reddit.com/r/explainlikeimfive/
- Engineering Kiosk Episode #28 O(1), O(log n), O(n^2) - Ist die Komplexität von Algorithmen im Entwickler-Alltag relevant?: https://engineeringkiosk.dev/podcast/episode/28-o1-olog-n-on2-ist-die-komplexit%C3%A4t-von-algorithmen-im-entwickler-alltag-relevant/
- ElasticSearch: https://www.elastic.co/de/elasticsearch
- OpenSearch: https://opensearch.org/
- Apache Lucene: https://lucene.apache.org/
- Apache Solr: https://solr.apache.org/
- meilisearch: https://www.meilisearch.com/
- Alogolia: https://www.algolia.com/d
- HackerNews indexiert von Algolia: https://hn.algolia.com/
- Term Frequency-Inverse Document Frequency: https://de.wikipedia.org/wiki/Tf-idf-Ma%C3%9F
- Bidirectional Encoder Representations from Transformers (BERT): https://en.wikipedia