Nordstern der Lernanalytik: 12 Kennzahlen und Entscheidungsleitfaden für L&D (jenseits der Abschlussquote)

Eine Schulung kann nicht allein deshalb gut sein, weil sie „zu 90 % abgeschlossen“ wurde; eine andere muss nicht schlecht sein, weil sie „nur 40 %“ erreicht—denn sobald eine Kennzahl ihren Kontext verliert, ist sie nur noch eine Zahl. In der betrieblichen Weiterbildung ist das die häufigste Blindstelle, die ich sehe: Reports werden auf drei Zahlen zusammengestaucht, und danach streiten alle um genau diese drei Zahlen.

Ich finde das am Menschen interessant: Dieselbe Führungskraft kann in derselben Woche sagen „wenn die Abschlussquote niedrig ist, ist die Schulung gescheitert“ und am nächsten Tag „wenn niemand schaut, kürzen wir die Dauer“. Das Erste ist eine Ergebniskennzahl; das Zweite ist eine Designentscheidung. Beides kann richtig sein—aber nicht im selben Dashboard, im selben Satz.

In diesem Artikel bündele ich Kennzahlen in 4 Ebenen: Betrieb, Teilnahme/Erlebnis, Lernnachweis, Geschäftswirkung. Danach verknüpfe ich 12 Kennzahlen einzeln mit der Frage „Welche Entscheidung unterstützt das?“. Denn der Nordstern der Lernanalytik ist nicht eine einzelne Kennzahl; es ist die Qualität der Entscheidungen.

“Not everything that can be counted counts, and not everything that counts can be counted.” [William Bruce Cameron, 1963]

1) Warum die Abschlussquote allein in die Irre führt

Die Abschlussquote ist das, was sich am leichtesten messen lässt; zugleich ist sie das, was am leichtesten falsch interpretiert wird.

In verpflichtenden Arbeitssicherheit/DSGVO-Schulungen ist eine hohe Abschlussquote oft kein „Lernen“, sondern der Erfolg des Nachverfolgungsmechanismus.
In dynamischen Teams wie Sales bedeutet eine niedrige Abschlussquote manchmal nicht „Desinteresse“, sondern operative Reibung (falsches Timing, zu langes Modul, schlechte Gerätekompatibilität).
Wenn eine Schulung 95 % Abschlussquote + niedrige Scores hat, entsteht ein sad-shaped Bild wie: „Teilnahme ja, Lernen nein“.

Für mich ist die Abschlussquote nur zusammen mit diesen Fragen sinnvoll:

Wer hat abgeschlossen? (Segment)
In welcher Zeit wurde abgeschlossen? (Tempo/Verzug)
An welchem Schritt hakt es? (Klick-/Antwort-/Zeitspuren)
Was ist danach passiert? (Verhalten/Performance)

Darum werfe ich „Abschluss“ nicht weg. Ich setze ihn nur in ein größeres Entscheidungssystem.

2) Das 4-Ebenen-Kennzahlenmodell: Betrieb → Erlebnis → Nachweis → Wirkung

Ein Trainingsprogramm ist gleichzeitig vier Dinge: ein Betrieb, ein Erlebnis, eine Lernbehauptung und (hoffentlich) ein Geschäftsergebnis.

Die folgende Tabelle verstehe ich als „Dashboard-Architektur“: Jede Ebene speist die nächste; aber sie beweist die nächste Ebene nicht allein.

Ebene	Was misst sie?	Typische Frage	Risiko der Fehlanwendung
Betrieb	Prozessfluss und Nachverfolgung	„Wer ist in Verzug, wo klemmt es?“	Menschen dafür zu beschuldigen, „zu spät“ zu sein
Teilnahme/Erlebnis	Verhalten und Reibung	„Wo brechen sie ab, warum kommen sie nicht zurück?“	Unterhaltung mit Lernen verwechseln
Lernnachweis	Wissen/Entscheidungsqualität	„Hat er/sie es wirklich verstanden?“	Den Test zum Ziel machen
Geschäftswirkung	Performance/KPI-Verknüpfung	„Was hat diese Schulung verändert?“	Korrelation für Kausalität halten

Was mir an diesem Modell gefällt: Die täglichen operativen Entscheidungen von L&D (Reminder, Ablauf, Content-Revision) und die Fragen des Top-Managements (Investition, Risiko, Performance) lassen sich im selben Rahmen diskutieren.

3) 12 Kennzahlen: Definition + welche Entscheidung ermöglichen sie?

Lesen Sie die folgenden 12 Kennzahlen nicht als „eine Liste“, sondern als Entscheidungsleitfaden. Für jede Kennzahl: Was misst sie, wie wird sie interpretiert, welche Aktion folgt daraus.

A) Betriebsebene (1–4)

1) Verzug (deadline slip / overdue rate)

Definition: Anteil der Personen, die nach der Frist abschließen, oder durchschnittliche Verzugstage.
Entscheidung: Timing von Remindern, Eskalation, Kollisionen mit Arbeitslast.
Hinweis: In Compliance-Schulungen wie Arbeitssicherheit/DSGVO ist diese Kennzahl ein „Risikorradar“. Steigt der Verzug, ist oft nicht der Inhalt falsch, sondern der Kalender.

2) Time-to-competency (Zeit bis zur Kompetenz)

Definition: Zeit bis zum Erreichen des Zielniveaus für eine Rolle (z. B. bis zu einem bestimmten Bewertungs-Schwellenwert).
Entscheidung: Onboarding-Design, rollenbasierte Journey-Länge, Voraussetzungen.
Achtung: Diese Kennzahl ist falsch, wenn man sie als „schneller ist besser“ liest. Manche Kompetenzen müssen langsam gelernt werden (insbesondere in risikoreichen Operationen).

3) Abbruchrate je Journey-Schritt (step drop-off)

Definition: In einem mehrstufigen Programm: an welchem Schritt Teilnehmende verloren gehen.
Entscheidung: Welcher Schritt wird neu gestaltet? Vor welchen Schritt kommt Vorbereitung?
Interpretation: Ein Abbruch bedeutet nicht automatisch „schlechter Schritt“; manchmal erfüllt dieser Schritt die Funktion einer natürlichen Selektion (gate).

4) Kurse/Teilnehmende mit Risiko (operatives Risiko-Flag)

Definition: Zielgruppe, die zwar „läuft“, aber weit vom Abschluss entfernt ist, nahe am Verzug liegt und Problemsignale zeigt.
Entscheidung: Bei wem intervenieren, in welchem Kurs intervenieren?
Notiz: Hier braucht es einen systematischen Ansatz statt „Einzelfall-Nachverfolgung“; sonst wird L&D zu einem Callcenter.

B) Teilnahme-/Erlebnis-Ebene (5–7)

5) Content-Reibung (content friction index – praktische Definition)

Definition: Spuren, die zeigen, dass Nutzer in einem Modul unnötig kämpfen: überlange Zeit, Wiederholungen, Hängenbleiben auf einem Screen, Mehrfachklick-Schleifen.
Entscheidung: Nicht nur kürzen; meist neu strukturieren (Beispiele ergänzen, erklären, Schrittfolge ändern).
Das Interessante: Menschen mögen manchmal „schwierigen“ Content, aber sie mögen keinen „diffusen“ Content. Reibung ist nicht dasselbe wie Schwierigkeit.

6) Wiederholrate (rewatch / retry rate)

Definition: Anteil erneuter Wiedergaben/Versuche desselben Abschnitts.
Entscheidung: Bedarf an Festigung oder Unverständlichkeit?
Interpretation: Hohe Wiederholung + hoher Erfolg = Festigung. Hohe Wiederholung + niedriger Erfolg = Designproblem.

7) Anteil aktiver Lernender (active learners)

Definition: Anteil der Nutzer, die in einem Zeitraum tatsächlich Lernaktivität auf der Plattform zeigen.
Entscheidung: Kampagnendesign, Kommunikationskanal, Timing, Motivationsmechanismen.
Achtung: „Aktiv“ heißt nicht „hat gelernt“; aber wenn jemand nicht aktiv ist, können Sie ohnehin keine Lernbehauptung aufstellen.

C) Ebene Lernnachweis (8–10)

8) Gate-Erfolgsquote (checkpoint / gate pass rate)

Definition: Anteil der Personen, die an Kontrollpunkten den Schwellenwert erreichen.
Entscheidung: Ist die Schwelle richtig, reicht der Content, welches Unterthema bricht ein?
Feintuning: Sind Gates zu leicht, erzeugen sie falsche Sicherheit; sind sie zu schwer, wirkt das System wie eine „Strafmaschine“.

9) Trefferquote im ersten Versuch (first-attempt accuracy)

Definition: Erfolg im ersten Versuch bei Fragen/Entscheidungspunkten.
Entscheidung: Echtes Wissensniveau oder Raten?
Interpretation: Ist die Erstversuchsquote niedrig, steigt aber nach Wiederholung, kann die Schulung tatsächlich „lehren“. Umgekehrt—erst hoch, dann Abfall—ist manchmal ein Problem der Fragequalität.

10) Vergessenssignal (spaced decay proxy)

Definition: Leistungsabfall beim selben Konzept über die Zeit (durch erneute Messung).
Entscheidung: Festigungsintervalle, periodische Auffrischung, Micro-Repetition.
Wissenschaftsnotiz: Die Idee der Vergessenskurve besagt, dass Gedächtnis mit der Zeit schwächer wird (Ebbinghaus, 1885). Unternehmen tun so, als wüssten sie das, bauen ihre Kalender aber nicht danach—ein kleiner Widerspruch.

D) Ebene Geschäftswirkung (11–12)

11) Zusammenhang mit Performance-Kennzahlen (KPI correlation, segmentbasiert)

Definition: Gemeinsame Veränderung zwischen Trainingskennzahlen und Business-Kennzahlen.
Entscheidung: Welche Programme „sprechen die Sprache des Geschäfts“?
Warnung: Korrelation ist nicht Kausalität. Darauf komme ich gleich zurück, weil hier die meisten Fehler passieren.

12) Compliance-Risikoindikator (compliance risk posture)

Definition: In verpflichtenden Schulungen wie Arbeitssicherheit/DSGVO: Verzug + Nicht-Abschluss + Brüche in Auffrischungszyklen.
Entscheidung: Audit-Vorbereitung, Sichtbarkeit für Führungskräfte, periodische Planung.
Klarheit: In Compliance-Schulungen ist das Ziel manchmal nicht „Lernen“, sondern ein nachweisbarer Prozess. Das ist nichts Schlechtes; es ist nur ein anderes Ziel.

4) Segmentierung: Raus aus der „Durchschnitt“-Falle

Der Durchschnitt ist im Unternehmensalltag das gefährlichste Märchen. Denn er erzählt eine Geschichte, in der alle ein bisschen gut und ein bisschen schlecht sind; in der Realität gibt es jedoch oft zwei getrennte Welten.

Ich bestehe bei Segmentierung besonders auf diesen Dimensionen:

Rolle
Standort / Filiale / Region
Seniorität (Junior–Mid–Senior)
Team / Führungskraft
Zeitraum (Kampagnenwelle, Quartal, Saison)

Ein Beispielmuster (hypothetisch, aber sehr vertraut):

Durchschnittliche Abschlussquote: 70 %
Segmente:
- Neueinsteiger: 92 %
- Erfahrene: 41 %

In diesem Fall wäre „der Content ist schlecht“ vorschnell. Vielleicht starten Erfahrene mit „kenne ich“, und dann hält sie der Content unnötig auf. Oder umgekehrt: Der Content ist für Neueinsteiger klar, für Erfahrene aber „zu wenig Detail“ und nervig.

Ohne Segmentierung optimieren Sie nicht das Content-Design, sondern den Geist des Durchschnitts.

5) Kausalitätswarnungen: Korrelation, Pilot und A/B-Tests

Sobald ich zur Ebene Geschäftswirkung komme, geht bei mir automatisch eine Bremse rein. Denn Trainingsdaten sind eng mit menschlichem Verhalten verwoben; und menschliches Verhalten ist wie Borges’ Labyrinthe: Wenn man zweimal durch dieselbe Tür geht, landet man nicht im selben Gang. (Ich finde diesen Vergleich nicht „perfekt“; im Labyrinth ist der Gang fix, beim Menschen nicht. Aber er funktioniert trotzdem.)

Diese drei Fehler sehe ich sehr häufig:

„Diejenigen, die die Schulung gemacht haben, performen besser → die Schulung hat gewirkt.“
Vielleicht schließen die ohnehin Guten die Schulung einfach schneller ab.
„Der Score ist gestiegen → das Verhalten im Feld hat sich geändert.“
Im Test besser zu werden ist nicht dasselbe wie im Job besser zu werden.
„In einer Region gibt es einen Rückgang → der Content ist schlecht.“
Vielleicht hat sich dort der Schichtplan geändert, der Gerätezugang ist gesunken oder die Führungskraft hat gewechselt.

Der robustere Ansatz:

Kontrollierter Pilot: In Einheit A ausrollen, eine ähnliche Einheit B kurz warten lassen; Differenz beobachten.
A/B-Test: Gleiches Ziel, zwei unterschiedliche Inhalte/Flows; welches Design erzeugt besseren „Nachweis“?
Vorher–Nachher + Segment: Nicht alle in denselben Topf werfen.

Diese Methoden sind nicht für „akademische Strenge“ nötig, sondern weil die Kosten falscher Entscheidungen hoch sind.

6) Analytics-Automatisierung in Nextrain: Frage tippen, näher an Insights

Meine Aufgabe ist es, Daten von „etwas, das im Dashboard wartet“ zu etwas zu machen, das näher an Entscheidungen ist.

In Nextrain mache ich das mit drei praktischen Verhaltensweisen:

Abfrage in natürlicher Sprache: Ohne Filter zu konfigurieren, stellen Sie die Frage als Satz. Wenn Sie z. B. fragen „Wer sind die Mitarbeitenden in der Filiale Istanbul, die die Schulung nicht abgeschlossen haben?“, präsentiere ich das Ergebnis verständlich—und Sie können diese Abfrage speichern und wiederverwenden.
Kurs-Gesundheitsansicht: Statt einzelne Reports zu durchwühlen, sehen Sie in einer farbcodierten Gesundheitskarte, ob Kurse problematisch sind; dann gehen Sie ins Detail.
Vertiefung über Dimensionen: In Kursanalysen und Teilnehmendenlisten brechen Sie nach Unternehmensfeldern wie Filiale/Region/Abteilung auf und zerlegen den „Durchschnitt“.

Hier höre ich denselben Satz, den Saadet im Feld am häufigsten hört: „Ich will den Report, aber eigentlich geht es mir nicht um den Report; morgen früh fragt meine Führungskraft: ‚Was machen wir?‘“ Saadets Job ist es, diese Frage zu beruhigen; mein Job ist es, diese Frage an Daten zu binden. Beides passiert am selben Tag, beim selben Kunden, manchmal im Abstand von fünf Minuten.

Noch eine kurze Notiz zur DSGVO: Wenn ich Analytics erstelle, sehe ich personenbezogene Daten nicht über Namen; ich arbeite mit Verhaltensmustern. Das hält die Linie zwischen „Entscheiden mit Daten“ und „Überwachen mit Daten“ klarer—zumindest architektonisch.

7) Schneller Entscheidungsleitfaden: Welche Kennzahl, welche Aktion?

Diesen Abschnitt habe ich so geschrieben, dass Sie ihn vor einem Meeting öffnen können. Zuordnung „Was ist das Problem?“ → „Welche Kennzahl?“ → „Welche Aktion?“.

Wenn das Problem "wird nicht abgeschlossen" ist:
  - Verzug + drop-off + Content-Reibung + Anteil aktiver Lernender
  - Aktion: Timing/Reminder, Schritte vereinfachen, Modul neu strukturieren

Wenn das Problem "wird abgeschlossen, aber nicht gelernt" ist:
  - Gate-Erfolgsquote + Trefferquote im ersten Versuch + Wiederholrate
  - Aktion: Beispiele/Feedback ergänzen, Gate-Schwelle anpassen, Verzweigungen nach Fehlern bauen

Wenn das Problem "wird gelernt, aber nicht in die Arbeit übertragen" ist:
  - KPI-Zusammenhang (segmentbasiert) + kontrollierter Pilot/A-B
  - Aktion: Zielverhalten schärfen, Transfer in die Praxis designen, Messung an den Workflow koppeln

Wenn das Problem "Audit-/Compliance-Risiko" ist:
  - Compliance-Risikoindikator + Verzug + Brüche in periodischen Auffrischungen
  - Aktion: Auffrischungskalender, Sichtbarkeit für Führungskräfte, Intervention bei kritischer Zielgruppe

Der Nordstern ist hier: nicht in einer einzelnen Kennzahl „gut auszusehen“, sondern Kennzahlen an eine Entscheidungskette zu binden. Die Abschlussquote ist nur ein Glied dieser Kette.

Notizen

Hermann Ebbinghaus, Über das Gedächtnis (1885) — frühe experimentelle Gedächtnisarbeiten zur Vergessenskurve und zur Wirkung von Wiederholung.
William Bruce Cameron, Informal Sociology: A Casual Introduction to Sociological Thinking (1963) — häufig zitierte Aussage über Messung und Bedeutung.