Was heute läuft, was geplant ist — nachvollziehbar erklärt
Diese Seite richtet sich an Therapeut*innen, die genauer wissen wollen, wie Therameo arbeitet, sowie an Auditor*innen, Träger und Förderstellen. Sie trennt ausdrücklich den aktuellen Zustand von der Roadmap und verspricht nichts, was nicht belegbar ist.
Wo Therameo läuft — vollständig EU-souverän
Die gesamte Therameo-Plattform — Datenbank, Anwendung, Dateiablage und die KI-Komponenten — wird auf Scaleway in Paris betrieben. Scaleway ist ein französisches Unternehmen und unterliegt nicht dem US CLOUD Act. Sitzungsdaten verlassen die EU im normalen Betrieb nicht; es ist kein US-Anbieter im Verarbeitungspfad beteiligt.
Spracherkennung und Sitzungsstrukturierung laufen über quelloffene KI-Modelle (Whisper für die Transkription, Mistral für die Strukturierung), die in einem EU-Rechenzentrum ausgeführt werden. Weil die Modelle quelloffen sind und in der EU betrieben werden, gibt es schon konstruktionsbedingt keinen Anbieter, der Sitzungsdaten zum Training eigener Modelle nutzen könnte.
Auch die Seite, auf der Sie gerade sind, läuft auf derselben Infrastruktur in Paris — ohne separates CDN, ohne Drittland-Frontend, ohne Cookies und ohne Drittanbieter-Analytics.
Wie die ICD-10-Vorschläge entstehen
Therameo erzeugt diagnostische Wahrscheinlichkeiten nicht aus freier KI-Generierung, sondern in nachvollziehbaren Schritten, die jeweils an die Wissensbasis gebunden sind:
- Kandidaten finden: Aus dem Sitzungstext ermittelt Therameo eine kleine Zahl plausibler F-Codes — über eine Kombination aus Stichwort- und Bedeutungssuche in der Wissensbasis.
- Kriterien laden: Für jeden Kandidaten werden die maßgeblichen ICD-10-Kriterien direkt und unverändert aus der Klassifikation geladen.
- Belege zuordnen: Kriterium für Kriterium ordnet die KI passende Stellen aus Ihrem Sitzungstext zu — jeweils mit wörtlichem Zitat und Verweis auf die herangezogene Leitlinien-Passage. Ausschlusskriterien (Knockout) werden gesondert berücksichtigt.
- Über Sitzungen zusammenführen: Pro F-Code wird der Stand über frühere Sitzungen hinweg verdichtet, und offene Lücken werden als gezielte Fragen für die nächste Sitzung formuliert.
Quellenbelege statt freier Behauptungen
Jeder Beleg, den die KI anführt, wird serverseitig gegen die tatsächlich herangezogenen Quellen geprüft. Verweise, die die KI erfunden hat (Halluzinationen), werden vor der Auslieferung an die App automatisch entfernt — sie erreichen die Therapeut*in nie. So ist jeder Vorschlag entweder durch eine reale Leitlinien-Stelle gedeckt oder er erscheint gar nicht.
Therameo macht keine kalibrierten Wahrscheinlichkeitsaussagen, solange die Kalibrierung nicht abgeschlossen ist — die App kennzeichnet Wahrscheinlichkeiten ausdrücklich als „unkalibrierte Modellschätzungen".
Wie wir die Diagnose-Hilfe messen
Qualität ist entweder messbar oder sie ist Behauptung. Wir bewerten die diagnostische Komponente laufend gegen eine wachsende Sammlung fachlich geprüfter Referenzfälle — auf zwei Ebenen, die sich ergänzen.
Ebene 1 — Deterministische Prüfungen, ganz ohne KI
Eine feste Suite von Metriken, die jeden Lauf reproduzierbar und ohne weiteres KI-Urteil bewertet. Sie prüft unter anderem:
- Trifft der oberste Vorschlag die Diagnose des Referenzfalls — und ist sie unter den ersten drei? Dabei zählen wir „richtige Diagnose-Familie, abweichende Endstelle" gesondert, weil die Fein-Differenzierung klinisch unsicher ist und nicht zu Unrecht als voller Fehler gewertet werden soll.
- Lässt sich jeder angeführte Beleg auf eine reale Quelle zurückführen? Das fängt erfundene Belege ab, bevor sie in eine Auswertung einfließen.
- Sind die Rückfragen für die nächste Sitzung tatsächlich auf die offenen Kriterien gerichtet — und nicht auf bereits Bekanntes?
- Lief der Vorgang technisch sauber durch? Technische Abbrüche werden getrennt von inhaltlichen Fehlern gezählt, damit das eine nicht das andere verschleiert.
Ebene 2 — Ein KI-Gutachter für die klinische Qualität
Manche Qualität sieht keine feste Regel: ob die Auswahl klinisch plausibel ist, ob die Zitate das jeweilige Kriterium wirklich stützen, ob das klinische Deutsch korrekt ist. Dafür bewertet ein separates, starkes KI-Modell die Ausgabe — auf vier Dimensionen, je auf einer Skala von 1 bis 5. Vier Vorkehrungen halten diesen Gutachter ehrlich:
- Fehler zuerst. Der Gutachter muss erst jeden konkreten Fehler benennen — belegt mit einem wörtlichen Zitat aus der Ausgabe — und leitet die Punktzahl daraus ab. Eine Bestnote ist die ausdrücklich zu rechtfertigende Behauptung „fehlerfrei", nicht der Ausgangspunkt; im Zweifel gilt die niedrigere Note. Das wirkt der bekannten Tendenz entgegen, alles wohlwollend durchzuwinken.
- Nie die eigene Familie. Der Gutachter stammt nie aus derselben Modellfamilie wie das bewertete System — gegen den in der Forschung dokumentierten „Selbstbevorzugungs-Bias", dass Modelle die eigene Sorte Ausgabe zu mild benoten.
- Zwei Gutachter, gegengeprüft. Zwei unabhängige quelloffene Modelle unterschiedlicher Herkunft bewerten getrennt; ihre Urteile werden gegeneinander gehalten, um die Eigenheiten eines einzelnen Modells auszugleichen.
- Verlässlichkeit gemessen. Wir lassen denselben Gutachter denselben Fall mehrfach bewerten und messen, wie stark sein Urteil schwankt. Diese Schwankung ist die Rauschgrenze: ein gemeldeter Fortschritt zählt erst, wenn er größer ist als das Eigenrauschen des Gutachters.
Den primären Gutachter haben wir nicht nach Gefühl gewählt, sondern weil seine Bewertungen mit einem unabhängigen, regelbasierten Signal zusammenlaufen und über die ganze Skala differenzieren, statt pauschal Bestnoten zu vergeben. Ehrliche Einschränkung: damit ist der Gutachter unterscheidungsstark, aber noch nicht gegen menschliches Expertenurteil validiert — dieser Abgleich mit der psychotherapeutischen Kollaborateurin steht noch aus.
Nachvollziehbar und vergleichbar
Jeder Mess-Lauf wird mit seiner genauen Konfiguration versiegelt (eingesetzte Modelle, Prompt-Stände, Stand der Wissensbasis). Zwei Läufe werden nur miteinander verglichen, wenn diese Stände übereinstimmen — sonst würde man echten Modell-Fortschritt mit einer zwischenzeitlich veränderten Wissensbasis verwechseln. Referenz-Messstände werden bewusst manuell freigegeben, nie automatisch.
Geprüft vs. vorläufig
Jeder Referenzfall trägt einen klaren Status:
- Geprüft (freigegeben): Referenzfälle, die von der psychotherapeutischen Kollaborateurin inhaltlich geprüft und freigegeben wurden. Nur diese gelten als echtes Gold-Set.
- Vorläufig: automatisch erzeugte Referenzfälle, die noch nicht fachlich geprüft sind. Sie zählen in den Auswertungen mit, werden aber nicht als „geprüft" ausgegeben — und ein Bericht ohne geprüfte Fälle warnt ausdrücklich davor, ihn als Qualitätsnachweis zu lesen.
Wesentlich: In dieses Referenz-Set fließen ausschließlich synthetische, erfundene Fälle ein — niemals reale Patientensitzungen. Aktuelle Messstände veröffentlichen wir, sobald das geprüfte Set groß genug für belastbare Aussagen ist.
Werden Sie Referenz-Reviewer*in
Die Referenzfälle, gegen die wir heute messen, sind künstlich (synthetisch) erzeugt — die ehrliche, aber noch vorläufige Grundlage unserer Qualitätsmessung.
In naher Zukunft werden diese Fälle von zugelassenen Psychotherapeut*innen fachlich geprüft und freigegeben. Erst dieser Schritt macht aus unserem Mess-System einen verlässlichen Maßstab, mit dem sich die Qualität der KI tatsächlich und belastbar belegen lässt.
Dafür bitten wir praktizierende Therapeut*innen aus Deutschland und Österreich um Unterstützung: Bringen Sie Ihre fachliche Expertise ein und helfen Sie, die Referenzfälle zu prüfen — und damit den Maßstab zu schaffen, an dem sich die KI messen lassen muss.
Kein Mail-Programm zur Hand? Schreiben Sie direkt an philip.schulz-klingauf@solidgroup.agency mit dem Betreff „Therameo: Anfrage Reviewer-Registrierung".
Einordnung: Stand der Methodik
Dieses Vorgehen ist keine Eigenerfindung — es folgt dem aktuellen Stand der Fachliteratur und ist an mehreren Stellen bewusst strenger als das Übliche. Die wichtigsten öffentlich zugänglichen Belege:
- KI als Gutachter (in der Forschung „LLM-as-a-judge"). Dass ein starkes Sprachmodell die offene Ausgabe eines anderen anhand einer Rubrik benotet, ist heute eine etablierte Evaluationsmethode (Zheng u. a., 2023; Liu u. a., 2023). Dieselbe Literatur dokumentiert ihre Schwächen — etwa den Selbstbevorzugungs-Bias — und empfiehlt genau die Gegenmaßnahmen, die wir umsetzen: ein Gutachter aus fremder Modellfamilie, mehrere Gutachter, die Messung der Gutachter-Verlässlichkeit und der Abgleich mit menschlichem Urteil.
- Belegtreue von Quellen. Dass Antworten nachweislich durch ihre Quellen gedeckt sein müssen, ist fester Bestandteil etablierter Bewertungsrahmen für quellengestützte KI (Retrieval-Augmented Generation; Es u. a., 2023; Saad-Falcon u. a., 2023). Unsere Beleg-Prüfung und die Gutachter-Dimension „Beleg-Relevanz" zielen genau darauf.
- Kalibrierung von Wahrscheinlichkeiten. Dass Wahrscheinlichkeiten erst durch Kalibrierung (Expected Calibration Error, Platt-/Temperatur- Skalierung) vertrauenswürdig werden, ist seit Jahren Standard (Guo u. a., 2017). Genau dieses Verfahren ist für Therameo vorgesehen — bis dahin sind die Wahrscheinlichkeiten in der App ausdrücklich als unkalibriert gekennzeichnet.
Ehrlich bleibt dabei: KI-gestützte Bewertung ist ein junges, sich entwickelndes Feld, kein abgeschlossener Goldstandard. Genau deshalb behandeln wir unseren eigenen Gutachter als unterscheidungsstark, aber noch nicht abschließend validiert — und sagen das hier, statt eine Treffgenauigkeit zu versprechen.
Zielmetriken (Roadmap)
Diese Werte sind Zielwerte, keine aktuellen Messstände. Wir nennen bewusst keine Treffgenauigkeit ohne Messreihe.
| Metrik | Zielwert | Beschreibung |
|---|---|---|
| Top-1-Treffer | > 0,6 | Erste Empfehlung trifft die geprüfte Diagnose |
| Top-3-Inklusion | > 0,85 | Die richtige Diagnose ist unter den ersten drei Vorschlägen |
| Kalibrierungsfehler | < 0,10 | Angegebene Wahrscheinlichkeiten entsprechen der Realität |
| Beleg-Präzision | > 0,90 | Zitate stützen die Aussage tatsächlich (vom Reviewer bestätigt) |
| Beleg-Vollständigkeit | > 0,85 | Relevante belegte Stellen werden zitiert, nicht ausgelassen |
| Erkennung von Akut-Risiken | 1,00 | Akut-Risiken (Suizidalität, Eigen-/Fremdgefährdung) dürfen nicht übersehen werden |
Ehrlicher Maßstab
Eine vielbeachtete Untersuchung (Magesh u. a., 2025) hat für KI-gestützte Recherche im Rechtsbereich Fehlerquoten von 17–33 % dokumentiert. Das ist eine deutliche Erinnerung daran, dass auch klinische KI keine Magie ist, sondern sorgfältige Ingenieursarbeit — und dass die ehrliche Antwort auf „Wie gut ist Ihr Modell?" eine Messreihe ist, kein Versprechen.
Status auf einen Blick
Konsolidierte Übersicht der zentralen technischen Aussagen, getrennt nach aktuellem Stand und Geplantem.
| Behauptung | Status | Heute | Geplant |
|---|---|---|---|
| EU-Hosting der Plattform | ✓ umgesetzt | Scaleway, Paris (EU); kein US-Anbieter im Verarbeitungspfad | |
| Datenbank | ✓ umgesetzt | PostgreSQL mit Vektor-Suche, mandantengetrennt, selbst betrieben | |
| Verschlüsselung | ✓ umgesetzt | Verschlüsselt im Transport und bei der Speicherung | |
| KI-Modelle | ✓ umgesetzt | Quelloffene Modelle (Mistral, Whisper), EU-gehostet; kein Training mit Sitzungsdaten | |
| Quellengeprüfte ICD-10-Vorschläge | ✓ umgesetzt | Halluzinierte Zitate werden serverseitig entfernt | |
| Wissensbasis | ✓ umgesetzt | ICD-10-GM (BfArM) + AWMF-S3-Leitlinien | |
| Auth & Mandantentrennung | ✓ umgesetzt | Eigene Authentifizierung, Datentrennung auf Datenbank-Ebene | |
| Qualitäts-Messung | ⚠ teilweise | Deterministische Metriken + zweistufige KI-Bewertung (EU, quelloffen) | Kalibrierung ab ausreichend geprüften Referenzfällen, CI-Integration |
| Geprüftes Referenz-Set | ⚠ teilweise | Kleiner fachlich geprüfter Kern, Rest vorläufig | 50–100 fachlich geprüfte Referenzfälle |
| Produktions-Feedback-Loop | ◷ geplant | noch nicht produktiv | Strukturiertes Feedback aus der App, mit vorgelagertem PHI-Schutz |
| Audit-Log (AI Act Art. 12) | ◷ geplant | nicht implementiert | vor Aufnahme realer Patientendaten |
Häufige Fragen
Welche KI-Modelle setzt Therameo ein?
Quelloffene Modelle: Whisper für die Transkription und Mistral für die Strukturierung. Beide werden in einem EU-Rechenzentrum in Paris betrieben, sodass konstruktionsbedingt kein Anbieter Sitzungsdaten zum Training eigener Modelle nutzen kann.
Wie verhindert Therameo erfundene Quellenangaben?
Jeder von der KI angeführte Beleg wird serverseitig gegen die tatsächlich herangezogenen Quellen geprüft. Erfundene Verweise (Halluzinationen) werden vor der Auslieferung automatisch entfernt und erreichen die Therapeut*in nie.
Nennt Therameo eine Treffgenauigkeit?
Nein, nicht ohne Messreihe. Wahrscheinlichkeiten sind in der App ausdrücklich als unkalibrierte Modellschätzungen gekennzeichnet, solange die Kalibrierung nicht abgeschlossen ist.
Wie wird die Qualität der Diagnose-Hilfe gemessen?
Auf zwei Ebenen: deterministische Metriken ohne KI und ein separater KI-Gutachter aus einer fremden Modellfamilie. Gemessen wird ausschließlich gegen synthetische, fachlich geprüfte Referenzfälle – niemals gegen reale Patientensitzungen.
Gibt es Unterlagen für Auditor*innen, Träger und Förderstellen?
Ja. Auf Anfrage stellen wir ein ausführliches technisches und datenschutzrechtliches Dossier mit Tiefe zu Architektur, Datenflüssen, Maßnahmen und Compliance-Unterlagen bereit.
Für Auditor*innen, Träger und Förderstellen
Für eine Prüfung stellen wir auf Anfrage ein ausführliches technisches und datenschutzrechtliches Dossier bereit — mit der nötigen Tiefe zu Architektur, Datenflüssen, eingesetzten Maßnahmen und Compliance-Unterlagen. Schreiben Sie uns dazu unter philip.schulz-klingauf@solidgroup.agency.
Diese Seite verstehen wir als lebendes Transparenz-Dokument. Wenn Ihnen eine Aussage auffällt, die nicht zum aktuellen Stand passt, melden Sie das gerne an dieselbe Adresse — wir korrigieren öffentlich. Weitere Vertrauenszusagen finden Sie unter Vertrauen & Sicherheit.