Zum Hauptinhalt springen

FAQ zur Wissensbox Update (RAG)

Fragen und Antworten zur neueste RAG-Architektur und OCR-/Tokenisierungs-Updates (Juni 25) für die Chatbox-Verantwortlichen

Sandra Fischer avatar
Verfasst von Sandra Fischer
Vor über 2 Monaten aktualisiert

1. Was genau bedeutet das mit "RAG"?

RAG steht für "Retrieval-Augmented Generation". Stell dir vor, du stellst einer KI eine Frage und sie sucht zuerst relevante Informationen in deinen Dokumenten (Retrieval) und nutzt diese, um eine bessere Antwort zu geben (Generation).

2. Was bringt mir die neue Systemarchitektur und die getrennten Systeme?

Bisher konnten grosse Dokumente den Chat verlangsamen. Jetzt haben wir die Aufgaben aufgeteilt: Der Chat und die Suche laufen wie gehabt bei dir auf dem Server, während die Textextraktion und das Erstellen der Embeddings auf einem separaten Server passieren. Das bedeutet: Schnellere Performance und keine Blockaden mehr beim Chatten!

3. Was sind "Embeddings" und warum sind die neuen besser?

Embeddings sind im Grunde genommen eine Art Code, der den Inhalt deiner Dokumente beschreibt. Die neuen Embeddings sind "mehrsprachig", das heisst, sie verstehen Texte in vielen Sprachen besser. Ausserdem sind sie besser darin, den Kontext zu erkennen – zum Beispiel, wenn du nach Informationen suchst, die in einem Anhang oder einem bestimmten Dokument stehen. Das Ergebnis: Präzisere und relevantere Suchergebnisse!

4. Was ist der Unterschied zwischen Mistral OCR und Tiktoken?

Beide helfen, deine Dokumente zu verstehen, aber sie arbeiten unterschiedlich:

  • Mistral OCR: Ist wie ein supergutes Auge, das nicht nur den Text liest, sondern auch Bilder, Tabellen und Listen erkennt und ihre Struktur behält.

    • Vorteile: Präzisere Ergebnisse, besonders bei Dokumenten mit komplexem Layout (z.B. Tabellen).

    • Nachteile: Datenverarbeitung findet in der Europäischen Union statt.

  • Tiktoken: Arbeitet schneller und konzentriert sich auf den reinen Text.

    • Vorteile: Datenverarbeitung findet auf Schweizer Servern statt.

    • Nachteile: Kann das Layout von Dokumenten nicht erkennen und behalten. Die Methode wird aber bald komplett ersetzt. (Stand Juni 25)

5. Ist meine Datenhoheit gewährleistet?

Ja, absolut! Bei Tiktoken werden deine Daten auf Schweizer Servern verarbeitet und bei Mistral OCR in der Europäischen Union. Wir legen grossen Wert auf Datenschutz und stellen sicher, dass deine Daten sicher sind und nicht weitergegeben werden.

Hat dies deine Frage beantwortet?