Technik & Transparenz

Was heute läuft, was geplant ist — nachvollziehbar erklärt

Diese Seite richtet sich an Therapeut*innen, die genauer wissen wollen, wie Therameo arbeitet, sowie an Auditor*innen, Träger und Förderstellen. Sie trennt ausdrücklich den aktuellen Zustand von der Roadmap und verspricht nichts, was nicht belegbar ist.

Wo Therameo läuft — vollständig EU-souverän

Die gesamte Therameo-Plattform — Datenbank, Anwendung, Dateiablage und die KI-Komponenten — wird auf Scaleway in Paris betrieben. Scaleway ist ein französisches Unternehmen und unterliegt nicht dem US CLOUD Act. Sitzungsdaten verlassen die EU im normalen Betrieb nicht; es ist kein US-Anbieter im Verarbeitungspfad beteiligt.

Spracherkennung und Sitzungsstrukturierung laufen über quelloffene KI-Modelle (Whisper für die Transkription, Mistral für die Strukturierung), die in einem EU-Rechenzentrum ausgeführt werden. Weil die Modelle quelloffen sind und in der EU betrieben werden, gibt es schon konstruktionsbedingt keinen Anbieter, der Sitzungsdaten zum Training eigener Modelle nutzen könnte.

Auch die Seite, auf der Sie gerade sind, läuft auf derselben Infrastruktur in Paris — ohne separates CDN, ohne Drittland-Frontend, ohne Cookies und ohne Drittanbieter-Analytics.

Wie die ICD-10-Vorschläge entstehen

Therameo erzeugt diagnostische Wahrscheinlichkeiten nicht aus freier KI-Generierung, sondern in nachvollziehbaren Schritten, die jeweils an die Wissensbasis gebunden sind:

Kandidaten finden: Aus dem Sitzungstext ermittelt Therameo eine kleine Zahl plausibler F-Codes — über eine Kombination aus Stichwort- und Bedeutungssuche in der Wissensbasis.
Kriterien laden: Für jeden Kandidaten werden die maßgeblichen ICD-10-Kriterien direkt und unverändert aus der Klassifikation geladen.
Belege zuordnen: Kriterium für Kriterium ordnet die KI passende Stellen aus Ihrem Sitzungstext zu — jeweils mit wörtlichem Zitat und Verweis auf die herangezogene Leitlinien-Passage. Ausschlusskriterien (Knockout) werden gesondert berücksichtigt.
Über Sitzungen zusammenführen: Pro F-Code wird der Stand über frühere Sitzungen hinweg verdichtet, und offene Lücken werden als gezielte Fragen für die nächste Sitzung formuliert.

Quellenbelege statt freier Behauptungen

Jeder Beleg, den die KI anführt, wird serverseitig gegen die tatsächlich herangezogenen Quellen geprüft. Verweise, die die KI erfunden hat (Halluzinationen), werden vor der Auslieferung an die App automatisch entfernt — sie erreichen die Therapeut*in nie. So ist jeder Vorschlag entweder durch eine reale Leitlinien-Stelle gedeckt oder er erscheint gar nicht.

Therameo macht keine kalibrierten Wahrscheinlichkeitsaussagen, solange die Kalibrierung nicht abgeschlossen ist — die App kennzeichnet Wahrscheinlichkeiten ausdrücklich als „unkalibrierte Modellschätzungen".

Wie wir die Diagnose-Hilfe messen

Qualität ist entweder messbar oder sie ist Behauptung. Wir bewerten die diagnostische Komponente laufend gegen eine wachsende Sammlung fachlich geprüfter Referenzfälle — auf zwei Ebenen, die sich ergänzen.

Ebene 1 — Deterministische Prüfungen, ganz ohne KI

Eine feste Suite von Metriken, die jeden Lauf reproduzierbar und ohne weiteres KI-Urteil bewertet. Sie prüft unter anderem:

Trifft der oberste Vorschlag die Diagnose des Referenzfalls — und ist sie unter den ersten drei? Dabei zählen wir „richtige Diagnose-Familie, abweichende Endstelle" gesondert, weil die Fein-Differenzierung klinisch unsicher ist und nicht zu Unrecht als voller Fehler gewertet werden soll.
Lässt sich jeder angeführte Beleg auf eine reale Quelle zurückführen? Das fängt erfundene Belege ab, bevor sie in eine Auswertung einfließen.
Sind die Rückfragen für die nächste Sitzung tatsächlich auf die offenen Kriterien gerichtet — und nicht auf bereits Bekanntes?
Lief der Vorgang technisch sauber durch? Technische Abbrüche werden getrennt von inhaltlichen Fehlern gezählt, damit das eine nicht das andere verschleiert.

Ebene 2 — Ein KI-Gutachter für die klinische Qualität

Manche Qualität sieht keine feste Regel: ob die Auswahl klinisch plausibel ist, ob die Zitate das jeweilige Kriterium wirklich stützen, ob das klinische Deutsch korrekt ist. Dafür bewertet ein separates, starkes KI-Modell die Ausgabe — auf vier Dimensionen, je auf einer Skala von 1 bis 5. Vier Vorkehrungen halten diesen Gutachter ehrlich:

Fehler zuerst. Der Gutachter muss erst jeden konkreten Fehler benennen — belegt mit einem wörtlichen Zitat aus der Ausgabe — und leitet die Punktzahl daraus ab. Eine Bestnote ist die ausdrücklich zu rechtfertigende Behauptung „fehlerfrei", nicht der Ausgangspunkt; im Zweifel gilt die niedrigere Note. Das wirkt der bekannten Tendenz entgegen, alles wohlwollend durchzuwinken.
Nie die eigene Familie. Der Gutachter stammt nie aus derselben Modellfamilie wie das bewertete System — gegen den in der Forschung dokumentierten „Selbstbevorzugungs-Bias", dass Modelle die eigene Sorte Ausgabe zu mild benoten.
Zwei Gutachter, gegengeprüft. Zwei unabhängige quelloffene Modelle unterschiedlicher Herkunft bewerten getrennt; ihre Urteile werden gegeneinander gehalten, um die Eigenheiten eines einzelnen Modells auszugleichen.
Verlässlichkeit gemessen. Wir lassen denselben Gutachter denselben Fall mehrfach bewerten und messen, wie stark sein Urteil schwankt. Diese Schwankung ist die Rauschgrenze: ein gemeldeter Fortschritt zählt erst, wenn er größer ist als das Eigenrauschen des Gutachters.

Den primären Gutachter haben wir nicht nach Gefühl gewählt, sondern weil seine Bewertungen mit einem unabhängigen, regelbasierten Signal zusammenlaufen und über die ganze Skala differenzieren, statt pauschal Bestnoten zu vergeben. Ehrliche Einschränkung: damit ist der Gutachter unterscheidungsstark, aber noch nicht gegen menschliches Expertenurteil validiert — dieser Abgleich mit der psychotherapeutischen Kollaborateurin steht noch aus.

Nachvollziehbar und vergleichbar

Jeder Mess-Lauf wird mit seiner genauen Konfiguration versiegelt (eingesetzte Modelle, Prompt-Stände, Stand der Wissensbasis). Zwei Läufe werden nur miteinander verglichen, wenn diese Stände übereinstimmen — sonst würde man echten Modell-Fortschritt mit einer zwischenzeitlich veränderten Wissensbasis verwechseln. Referenz-Messstände werden bewusst manuell freigegeben, nie automatisch.

Geprüft vs. vorläufig

Jeder Referenzfall trägt einen klaren Status:

Geprüft (freigegeben): Referenzfälle, die von der psychotherapeutischen Kollaborateurin inhaltlich geprüft und freigegeben wurden. Nur diese gelten als echtes Gold-Set.
Vorläufig: automatisch erzeugte Referenzfälle, die noch nicht fachlich geprüft sind. Sie zählen in den Auswertungen mit, werden aber nicht als „geprüft" ausgegeben — und ein Bericht ohne geprüfte Fälle warnt ausdrücklich davor, ihn als Qualitätsnachweis zu lesen.

Wesentlich: In dieses Referenz-Set fließen ausschließlich synthetische, erfundene Fälle ein — niemals reale Patientensitzungen. Aktuelle Messstände veröffentlichen wir, sobald das geprüfte Set groß genug für belastbare Aussagen ist.

Werden Sie Referenz-Reviewer*in

Die Referenzfälle, gegen die wir heute messen, sind künstlich (synthetisch) erzeugt — die ehrliche, aber noch vorläufige Grundlage unserer Qualitätsmessung.

In naher Zukunft werden diese Fälle von zugelassenen Psychotherapeut*innen fachlich geprüft und freigegeben. Erst dieser Schritt macht aus unserem Mess-System einen verlässlichen Maßstab, mit dem sich die Qualität der KI tatsächlich und belastbar belegen lässt.

Dafür bitten wir praktizierende Therapeut*innen aus Deutschland und Österreich um Unterstützung: Bringen Sie Ihre fachliche Expertise ein und helfen Sie, die Referenzfälle zu prüfen — und damit den Maßstab zu schaffen, an dem sich die KI messen lassen muss.

Als Reviewer registrieren

Kein Mail-Programm zur Hand? Schreiben Sie direkt an philip.schulz-klingauf@solidgroup.agency mit dem Betreff „Therameo: Anfrage Reviewer-Registrierung".

Einordnung: Stand der Methodik

Dieses Vorgehen ist keine Eigenerfindung — es folgt dem aktuellen Stand der Fachliteratur und ist an mehreren Stellen bewusst strenger als das Übliche. Die wichtigsten öffentlich zugänglichen Belege:

KI als Gutachter (in der Forschung „LLM-as-a-judge"). Dass ein starkes Sprachmodell die offene Ausgabe eines anderen anhand einer Rubrik benotet, ist heute eine etablierte Evaluationsmethode (Zheng u. a., 2023; Liu u. a., 2023). Dieselbe Literatur dokumentiert ihre Schwächen — etwa den Selbstbevorzugungs-Bias — und empfiehlt genau die Gegenmaßnahmen, die wir umsetzen: ein Gutachter aus fremder Modellfamilie, mehrere Gutachter, die Messung der Gutachter-Verlässlichkeit und der Abgleich mit menschlichem Urteil.
Belegtreue von Quellen. Dass Antworten nachweislich durch ihre Quellen gedeckt sein müssen, ist fester Bestandteil etablierter Bewertungsrahmen für quellengestützte KI (Retrieval-Augmented Generation; Es u. a., 2023; Saad-Falcon u. a., 2023). Unsere Beleg-Prüfung und die Gutachter-Dimension „Beleg-Relevanz" zielen genau darauf.
Kalibrierung von Wahrscheinlichkeiten. Dass Wahrscheinlichkeiten erst durch Kalibrierung (Expected Calibration Error, Platt-/Temperatur- Skalierung) vertrauenswürdig werden, ist seit Jahren Standard (Guo u. a., 2017). Genau dieses Verfahren ist für Therameo vorgesehen — bis dahin sind die Wahrscheinlichkeiten in der App ausdrücklich als unkalibriert gekennzeichnet.

Ehrlich bleibt dabei: KI-gestützte Bewertung ist ein junges, sich entwickelndes Feld, kein abgeschlossener Goldstandard. Genau deshalb behandeln wir unseren eigenen Gutachter als unterscheidungsstark, aber noch nicht abschließend validiert — und sagen das hier, statt eine Treffgenauigkeit zu versprechen.

Zielmetriken (Roadmap)

Diese Werte sind Zielwerte, keine aktuellen Messstände. Wir nennen bewusst keine Treffgenauigkeit ohne Messreihe.

Metrik	Zielwert	Beschreibung
Top-1-Treffer	> 0,6	Erste Empfehlung trifft die geprüfte Diagnose
Top-3-Inklusion	> 0,85	Die richtige Diagnose ist unter den ersten drei Vorschlägen
Kalibrierungsfehler	< 0,10	Angegebene Wahrscheinlichkeiten entsprechen der Realität
Beleg-Präzision	> 0,90	Zitate stützen die Aussage tatsächlich (vom Reviewer bestätigt)
Beleg-Vollständigkeit	> 0,85	Relevante belegte Stellen werden zitiert, nicht ausgelassen
Erkennung von Akut-Risiken	1,00	Akut-Risiken (Suizidalität, Eigen-/Fremdgefährdung) dürfen nicht übersehen werden

Ehrlicher Maßstab

Eine vielbeachtete Untersuchung (Magesh u. a., 2025) hat für KI-gestützte Recherche im Rechtsbereich Fehlerquoten von 17–33 % dokumentiert. Das ist eine deutliche Erinnerung daran, dass auch klinische KI keine Magie ist, sondern sorgfältige Ingenieursarbeit — und dass die ehrliche Antwort auf „Wie gut ist Ihr Modell?" eine Messreihe ist, kein Versprechen.

Status auf einen Blick

Konsolidierte Übersicht der zentralen technischen Aussagen, getrennt nach aktuellem Stand und Geplantem.

Behauptung	Status	Heute	Geplant
EU-Hosting der Plattform	✓ umgesetzt	Scaleway, Paris (EU); kein US-Anbieter im Verarbeitungspfad
Datenbank	✓ umgesetzt	PostgreSQL mit Vektor-Suche, mandantengetrennt, selbst betrieben
Verschlüsselung	✓ umgesetzt	Verschlüsselt im Transport und bei der Speicherung
KI-Modelle	✓ umgesetzt	Quelloffene Modelle (Mistral, Whisper), EU-gehostet; kein Training mit Sitzungsdaten
Quellengeprüfte ICD-10-Vorschläge	✓ umgesetzt	Halluzinierte Zitate werden serverseitig entfernt
Wissensbasis	✓ umgesetzt	ICD-10-GM (BfArM) + AWMF-S3-Leitlinien
Auth & Mandantentrennung	✓ umgesetzt	Eigene Authentifizierung, Datentrennung auf Datenbank-Ebene
Qualitäts-Messung	⚠ teilweise	Deterministische Metriken + zweistufige KI-Bewertung (EU, quelloffen)	Kalibrierung ab ausreichend geprüften Referenzfällen, CI-Integration
Geprüftes Referenz-Set	⚠ teilweise	Kleiner fachlich geprüfter Kern, Rest vorläufig	50–100 fachlich geprüfte Referenzfälle
Produktions-Feedback-Loop	◷ geplant	noch nicht produktiv	Strukturiertes Feedback aus der App, mit vorgelagertem PHI-Schutz
Audit-Log (AI Act Art. 12)	◷ geplant	nicht implementiert	vor Aufnahme realer Patientendaten

Häufige Fragen

Welche KI-Modelle setzt Therameo ein?

Quelloffene Modelle: Whisper für die Transkription und Mistral für die Strukturierung. Beide werden in einem EU-Rechenzentrum in Paris betrieben, sodass konstruktionsbedingt kein Anbieter Sitzungsdaten zum Training eigener Modelle nutzen kann.

Wie verhindert Therameo erfundene Quellenangaben?

Jeder von der KI angeführte Beleg wird serverseitig gegen die tatsächlich herangezogenen Quellen geprüft. Erfundene Verweise (Halluzinationen) werden vor der Auslieferung automatisch entfernt und erreichen die Therapeut*in nie.

Nennt Therameo eine Treffgenauigkeit?

Nein, nicht ohne Messreihe. Wahrscheinlichkeiten sind in der App ausdrücklich als unkalibrierte Modellschätzungen gekennzeichnet, solange die Kalibrierung nicht abgeschlossen ist.

Wie wird die Qualität der Diagnose-Hilfe gemessen?

Auf zwei Ebenen: deterministische Metriken ohne KI und ein separater KI-Gutachter aus einer fremden Modellfamilie. Gemessen wird ausschließlich gegen synthetische, fachlich geprüfte Referenzfälle – niemals gegen reale Patientensitzungen.

Gibt es Unterlagen für Auditor*innen, Träger und Förderstellen?

Ja. Auf Anfrage stellen wir ein ausführliches technisches und datenschutzrechtliches Dossier mit Tiefe zu Architektur, Datenflüssen, Maßnahmen und Compliance-Unterlagen bereit.

Für Auditor*innen, Träger und Förderstellen

Für eine Prüfung stellen wir auf Anfrage ein ausführliches technisches und datenschutzrechtliches Dossier bereit — mit der nötigen Tiefe zu Architektur, Datenflüssen, eingesetzten Maßnahmen und Compliance-Unterlagen. Schreiben Sie uns dazu unter philip.schulz-klingauf@solidgroup.agency.

Diese Seite verstehen wir als lebendes Transparenz-Dokument. Wenn Ihnen eine Aussage auffällt, die nicht zum aktuellen Stand passt, melden Sie das gerne an dieselbe Adresse — wir korrigieren öffentlich. Weitere Vertrauenszusagen finden Sie unter Vertrauen & Sicherheit.