Die FINMA hat heute ihre Aufsichtsmitteilung 08/2024 – Governance und Risikomanagement beim Einsatz von Künstlicher Intelligenz veröffentlicht (PDF).
Die FINMA hatte zuvor schon an verschiedener Stelle ihre Erwartungen an den Umgang mit KI formuliert, sowohl im Banken- als auch im Versicherungsbereich. Auf dieser Basis hat sie in ihrer Aufsicht einschliesslich Vor-Ort-Kontrollen Prüfungen durchgeführt. Die Aufsichtsmitteilung ist das Ergebnis davon und fasst im Wesentlichen zusammen,
- welche Risiken die FINMA sieht,
- auf welche Herausforderungen sie in ihrer Aufsicht (einschliesslich Vor-Ort-Kontrollen) gestossen ist und
- welche Massnahmen sie beobachtet und geprüft hat.
Insgesamt hat die FINMA beobachtet, dass
- der Einsatz von KI im Finanzmarkt zunimmt,
- die verbundenen Risiken oft schwer abschätzbar sind und
- sich die Governance- und Risikomanagement-Strukturen der Finanzinstitute meist erst im Aufbau befinden.
Im Wesentlichen macht die Aufsichtsmitteilung Bekanntes deutlich (nicht in diesen Worten):
- Beim Einsatz neuer Technologie ist der Treiber nicht die 2nd Line, sondern die 1st Line. Sie versteht die Technologie, manchmal aber auch nur ihre Einsatzmöglichkeiten und manchmal auch dies nicht.
- Die Organisation insgesamt versteht oft weder die damit verbundenen Risiken noch verfügt sie über die erforderliche Governance. Beides, das Verständnis und die internen Strukturen, entwickeln sich viel langsamer als die Technologie.
- Dazu kommt ein oft blindes Vertrauen auf die Qualität eingekaufter Leistungen, bei durch Marktkonzentration bedingt mangelnden Auswahlmöglichen.
- Zugleich wird der interne Aufwand für die Prüfung, die Überwachung und die Steuerung der Leistungen unterschätzt.
Die Aufsichtsmitteilung adressiert vor diesem Hintergrund sowohl KI-bedingte Herausforderungen als auch allgemeine oder typische Mängel interner Strukturen. Ihr Inhalt lässt sich – zugespitzt, die FINMA malt kein so schwarzes Bild – wie folgt zusammenfassen:
Risiken
Die FINMA sieht v.a. folgende KI-bezogene Risiken:
- operationelle Risiken: insbesondere Modellrisiken (z.B. mangelnde Robustheit, Korrektheit, Bias, mangelnde Stabilität und Erklärbarkeit)
- IT- und Cyber-Risiken
- zunehmende Abhängigkeit von Drittparteien, insbesondere Hardware‑, Modell- und Cloud-Anbieter
- Rechts- und Reputationsrisiken
- Zuordnung von Verantwortung: durch das “autonome und schwer erklärbare Handeln” der KI-Systeme und “verstreute Zuständigkeiten für KI-Anwendungen” erschwert
Governance
- Problem:
- Fokus zu sehr auf Datenschutzrisiken und zu wenig auf Modellrisiken
- die Entwicklung von KI-Anwendungen verläuft oft dezentral – das führt zu weniger konsistenten Standards, einer Verwischung der Verantwortlichkeit und einem Übersehen von Risiken
- eingekaufte Leistungen: Es wird nicht immer verstanden, ob sie KI enthalten, welche Daten und Methoden verwendet werden und ob eine ausreichende Due Diligence existiert
- Erwartungen:
- Beaufsichtigte mit “vielen oder wesentlichen Anwendungen” haben eine KI-Governance
- es besteht ein zentrales Inventar mit Risikoklassifizierung und Massnahmen
- Zuständigkeiten und Verantwortlichkeiten bei der Entwicklung, Implementierung, Überwachung und Nutzung von KI sind festgelegt
- Vorgaben zu Modell-Tests und unterstützenden Systemkontrollen, Dokumentationsstandards und “breite Schulungsmassnahmen” existieren
- Outsourcing: zusätzliche Tests und Kontrollen werden implementiert; es gibt Vertragsklauseln, die Verantwortlichkeiten und Haftungsfragen regeln; die nötigen Fähigkeiten und Erfahrungen des Dienstleisters werden geprüft
Inventar und Risikoklassifizierung
- Problem: Schwierigkeit der Vollständigkeit der Inventarisierung , auch wegen einer engen Definition der KI, des dezentralen Einsatzes und nicht inkonsistenter Kriterien für die Inventarisierung von Anwendungen, die wegen ihrer Bedeutung oder den damit verbundenen Risiken besondere Bedeutung haben
- Erwartungen:
- “KI” wird breit genug definiert, so dass auch “klassische Anwendungen” mit ähnlichen Risiken erfasst werden
- KI-Inventare sind vollständig und enthalten eine Risiko-Klassifizierung der KI-Anwendungen
Datenqualität
- Problem:
- Vorgaben und Kontrollen für die Datenqualität fehlen
- Daten können falsch, inkonsistent, unvollständig, nicht repräsentativ, veraltet oder biased sein (und bei lernenden Systemen ist die Datenqualität häufig wichtiger als die Auswahl des Modells)
- eingekaufte Lösungen: Trainingsdaten sind oft nicht bekannt und u.U. nicht passend
- Erwartungen:
- interne Weisungen mit Vorgaben für die Gewährleistung der Datenqualität
Tests und laufende Überwachung
- Problem: Schwächen bei der Auswahl von Performance-Indikatoren, Tests und der laufenden Überwachung
- Erwartungen:
- Tests zur Sicherstellung der Datenqualität und der Funktionsfähigkeit der KI-Anwendungen sind vorgesehen (einschliesslich einer Prüfung auf Genauigkeit, Robustheit und Stabilität sowie ggf. Bias)
- Fachpersonen liefern Fragestellungen und Erwartungen
- Performance-Indikatoren für die Eignung einer KI-Anwendung sind definiert, bspw. Schwellenwerte oder andere Validierungsmethoden zur Berteilung der Korrektheit und Qualität der Outputs
- Veränderungen in Input-Daten werden überwacht (“Datendrift”)
- wenn eine Ausgabe von Anwendern ignoriert oder verändert wird, wird dies als Indikation möglicher Schwachstellen überwacht
- Beaufsichtigten stellen vorab Überlegungen zur Erkennung und Behandlung von Ausnahmen an
Dokumentation
- Problem:
- es fehlen zentrale Vorgaben zur Dokumentation
- vorhandene Dokumentation ist nicht ausreichend detailliert und empfängerorientiert
- Erwartungen:
- wesentliche Anwendungen: die Dokumentation adressiert den Zweck der Anwendungen, die Datenauswahl und ‑aufbereitung, die Modellauswahl, die Performance-Masse, Annahmen und Limitierungen, Testing und Kontrollen sowie Fallback-Lösungen
- Datenauswahl: Datenquellen und Prüfungen der Datenqualität können erklären werden (inkl. Integrität, Korrektheit, Zweckmässigkeit, Relevanz, Bias und Stabilität)
- die Robustheit und Zuverlässigkeit sowie die Nachvollziehbarkeit der Anwendung sind sichergestellt
- Anwendungen sind angemessen in eine Risikokategorie eingestuft (mit entsprechender Begründung und Prüfung)
Erklärbarkeit
- Problem: Ergebnisse können nicht nachvollzogen, erklärt oder reproduziert und damit beurteilt werden
Erwartungen: Bei Entscheidungen gegenüber Anlegern, Kundinnen, Mitarbeitenden, der Aufsicht oder der Prüfgesellschaft können Plausibilität und Robustheit der Ergebnisse beurteilen werden - u.a. die Treiber der Anwendungen oder des Verhaltens unter verschiedenen Bedingungen werden verstanden
Unabhängige Überprüfung
- Problem:
- klare Abgrenzung zwischen der Entwicklung von KI-Anwendungen und ihrer unabhängigen Überprüfung fehlt
- wenige Beaufsichtigte führen eine unabhängige Prüfung des gesamten Modellentwicklungsprozesses durch
- Erwartungen:
- “wesentliche Anwendungen”: die unabhängige Prüfung umfasst eine objektive, versierte und unvoreingenommene Meinung über die Angemessenheit und Zuverlässigkeit eines Verfahrens für einen bestimmten Anwendungsfall
- die Ergebnisse der Überprüfung werden bei der Entwicklung berücksichtigt
Erwartungen (Zusammenfassung)
Insgesamt lassen sich die Erwartungen der FINMA wie folgt strukturiert zusammenfassen:
- KI-Governance:
- Zuständigkeiten und Verantwortlichkeiten (AKV) bei der Entwicklung, Implementierung, Überwachung und Nutzung von KI sind festgelegt.
- Interne Weisungen mit Vorgaben für die Gewährleistung der Datenqualität
- Wesentliche Anwendungen: Dokumentation adressiert Zweck der Anwendungen, die Datenauswahl und ‑aufbereitung, die Modellauswahl, die Performance-Masse, Annahmen und Limitierungen, Testing und Kontrollen sowie Fallback-Lösungen.
- zentrales Inventar mit Risikoklassifizierung und Massnahmen:
- “KI” wird breit genug definiert
- Vollständigkeit des Inventars mit Risiko-Klassifizierung (mit Prüfung und Begründung)
- Daten- und Modellqualität:
- Beaufsichtigte stellen vorab Überlegungen zur Erkennung und Behandlung von Ausnahmen an.
- Vorgaben zu Modell-Tests und unterstützenden Systemkontrollen, Dokumentationsstandards und “breite Schulungsmassnahmen” existieren
- Tests zur Sicherstellung der Datenqualität und der Funktionsfähigkeit der KI-Anwendungen sind vorgesehen (einschliesslich einer Prüfung auf Genauigkeit, Robustheit und Stabilität sowie ggf. Bias).
- Fachpersonen liefern Fragestellungen und Erwartungen.
- Performance-Indikatoren für die Eignung einer KI-Anwendung sind definiert, bspw. Schwellenwerte oder andere Validierungsmethoden zur Beurteilung der Korrektheit und Qualität der Outputs.
- Veränderungen in Input-Daten werden überwacht (“Datendrift”).
- Datenauswahl: Datenquellen und Prüfungen der Datenqualität können erklärt werden (inkl. Integrität, Korrektheit, Zweckmässigkeit, Relevanz, Bias und Stabilität).
- Die Robustheit und Zuverlässigkeit sowie die Nachvollziehbarkeit der Anwendung sind sichergestellt.
- Wenn eine Ausgabe von Anwendern ignoriert oder verändert wird, wird dies als Indikation möglicher Schwachstellen überwacht
- Erklärbarkeit:
- Entscheidungen gegenüber Anlegern, Kundinnen, Mitarbeitenden, der Aufsicht oder der Prüfgesellschaft: Plausibilität und Robustheit können beurteilt werden
- Treiber der Anwendungen oder des Verhaltens werden verstanden
- Outsourcing: zusätzliche Tests und Kontrollen werden implementiert; es gibt Vertragsklauseln, die Verantwortlichkeiten und Haftungsfragen regeln; die nötigen Fähigkeiten und Erfahrungen des Dienstleisters werden geprüft.
- Wesentliche Anwendungen:
- unabhängige Prüfung inkl. einer objektiven, versierten und unvoreingenommenen Meinung über Angemessenheit und Zuverlässigkeit für einen bestimmten Anwendungsfall
- Ergebnisse werden bei der Entwicklung berücksichtigt