Die FINMA hat heu­te ihre Auf­sichts­mit­tei­lung 08/2024 – Gover­nan­ce und Risi­ko­ma­nage­ment beim Ein­satz von Künst­li­cher Intel­li­genz ver­öf­fent­licht (PDF).

Die FINMA hat­te zuvor schon an ver­schie­de­ner Stel­le ihre Erwar­tun­gen an den Umgang mit KI for­mu­liert, sowohl im Ban­ken- als auch im Ver­si­che­rungs­be­reich. Auf die­ser Basis hat sie in ihrer Auf­sicht ein­schliess­lich Vor-Ort-Kon­trol­len Prü­fun­gen durch­ge­führt. Die Auf­sichts­mit­tei­lung ist das Ergeb­nis davon und fasst im Wesent­li­chen zusammen,

  • wel­che Risi­ken die FINMA sieht,
  • auf wel­che Her­aus­for­de­run­gen sie in ihrer Auf­sicht (ein­schliess­lich Vor-Ort-Kon­trol­len) gesto­ssen ist und
  • wel­che Mass­nah­men sie beob­ach­tet und geprüft hat.

Ins­ge­samt hat die FINMA beob­ach­tet, dass

  • der Ein­satz von KI im Finanz­markt zunimmt,
  • die ver­bun­de­nen Risi­ken oft schwer abschätz­bar sind und
  • sich die Gover­nan­ce- und Risi­ko­ma­nage­ment-Struk­tu­ren der Finanz­in­sti­tu­te meist erst im Auf­bau befinden.

Im Wesent­li­chen macht die Auf­sichts­mit­tei­lung Bekann­tes deut­lich (nicht in die­sen Worten):

  • Beim Ein­satz neu­er Tech­no­lo­gie ist der Trei­ber nicht die 2nd Line, son­dern die 1st Line. Sie ver­steht die Tech­no­lo­gie, manch­mal aber auch nur ihre Ein­satz­mög­lich­kei­ten und manch­mal auch dies nicht.
  • Die Orga­ni­sa­ti­on ins­ge­samt ver­steht oft weder die damit ver­bun­de­nen Risi­ken noch ver­fügt sie über die erfor­der­li­che Gover­nan­ce. Bei­des, das Ver­ständ­nis und die inter­nen Struk­tu­ren, ent­wickeln sich viel lang­sa­mer als die Technologie.
  • Dazu kommt ein oft blin­des Ver­trau­en auf die Qua­li­tät ein­ge­kauf­ter Lei­stun­gen, bei durch Markt­kon­zen­tra­ti­on bedingt man­geln­den Auswahlmöglichen.
  • Zugleich wird der inter­ne Auf­wand für die Prü­fung, die Über­wa­chung und die Steue­rung der Lei­stun­gen unterschätzt.

Die Auf­sichts­mit­tei­lung adres­siert vor die­sem Hin­ter­grund sowohl KI-beding­te Her­aus­for­de­run­gen als auch all­ge­mei­ne oder typi­sche Män­gel inter­ner Struk­tu­ren. Ihr Inhalt lässt sich – zuge­spitzt, die FINMA malt kein so schwar­zes Bild – wie folgt zusammenfassen:

Risi­ken

Die FINMA sieht v.a. fol­gen­de KI-bezo­ge­ne Risiken:

  • ope­ra­tio­nel­le Risi­ken: ins­be­son­de­re Modell­ri­si­ken (z.B. man­geln­de Robust­heit, Kor­rekt­heit, Bias, man­geln­de Sta­bi­li­tät und Erklärbarkeit)
  • IT- und Cyber-Risiken
  • zuneh­men­de Abhän­gig­keit von Dritt­par­tei­en, ins­be­son­de­re Hardware‑, Modell- und Cloud-Anbieter
  • Rechts- und Reputationsrisiken
  • Zuord­nung von Ver­ant­wor­tung: durch das “auto­no­me und schwer erklär­ba­re Han­deln” der KI-Syste­me und “ver­streu­te Zustän­dig­kei­ten für KI-Anwen­dun­gen” erschwert

Gover­nan­ce

  • Pro­blem:
    • Fokus zu sehr auf Daten­schutz­ri­si­ken und zu wenig auf Modellrisiken
    • die Ent­wick­lung von KI-Anwen­dun­gen ver­läuft oft dezen­tral – das führt zu weni­ger kon­si­sten­ten Stan­dards, einer Ver­wi­schung der Ver­ant­wort­lich­keit und einem Über­se­hen von Risiken
    • ein­ge­kauf­te Lei­stun­gen: Es wird nicht immer ver­stan­den, ob sie KI ent­hal­ten, wel­che Daten und Metho­den ver­wen­det wer­den und ob eine aus­rei­chen­de Due Dili­gence existiert
  • Erwar­tun­gen:
    • Beauf­sich­tig­te mit “vie­len oder wesent­li­chen Anwen­dun­gen” haben eine KI-Governance
    • es besteht ein zen­tra­les Inven­tar mit Risi­koklas­si­fi­zie­rung und Massnahmen
    • Zustän­dig­kei­ten und Ver­ant­wort­lich­kei­ten bei der Ent­wick­lung, Imple­men­tie­rung, Über­wa­chung und Nut­zung von KI sind festgelegt
    • Vor­ga­ben zu Modell-Tests und unter­stüt­zen­den System­kon­trol­len, Doku­men­ta­ti­ons­stan­dards und “brei­te Schu­lungs­mass­nah­men” existieren
    • Out­sour­cing: zusätz­li­che Tests und Kon­trol­len wer­den imple­men­tiert; es gibt Ver­trags­klau­seln, die Ver­ant­wort­lich­kei­ten und Haf­tungs­fra­gen regeln; die nöti­gen Fähig­kei­ten und Erfah­run­gen des Dienst­lei­sters wer­den geprüft

Inven­tar und Risikoklassifizierung

  • Pro­blem: Schwie­rig­keit der Voll­stän­dig­keit der Inven­ta­ri­sie­rung , auch wegen einer engen Defi­ni­ti­on der KI, des dezen­tra­len Ein­sat­zes und nicht inkon­si­sten­ter Kri­te­ri­en für die Inven­ta­ri­sie­rung von Anwen­dun­gen, die wegen ihrer Bedeu­tung oder den damit ver­bun­de­nen Risi­ken beson­de­re Bedeu­tung haben
  • Erwar­tun­gen:
    • KI” wird breit genug defi­niert, so dass auch “klas­si­sche Anwen­dun­gen” mit ähn­li­chen Risi­ken erfasst werden
    • KI-Inven­ta­re sind voll­stän­dig und ent­hal­ten eine Risi­ko-Klas­si­fi­zie­rung der KI-Anwendungen

Daten­qua­li­tät

  • Pro­blem:
    • Vor­ga­ben und Kon­trol­len für die Daten­qua­li­tät fehlen
    • Daten kön­nen falsch, inkon­si­stent, unvoll­stän­dig, nicht reprä­sen­ta­tiv, ver­al­tet oder bia­sed sein (und bei ler­nen­den Syste­men ist die Daten­qua­li­tät häu­fig wich­ti­ger als die Aus­wahl des Modells)
    • ein­ge­kauf­te Lösun­gen: Trai­nings­da­ten sind oft nicht bekannt und u.U. nicht passend
  • Erwar­tun­gen:
    • inter­ne Wei­sun­gen mit Vor­ga­ben für die Gewähr­lei­stung der Datenqualität

Tests und lau­fen­de Überwachung

  • Pro­blem: Schwä­chen bei der Aus­wahl von Per­for­mance-Indi­ka­to­ren, Tests und der lau­fen­den Überwachung
  • Erwar­tun­gen:
    • Tests zur Sicher­stel­lung der Daten­qua­li­tät und der Funk­ti­ons­fä­hig­keit der KI-Anwen­dun­gen sind vor­ge­se­hen (ein­schliess­lich einer Prü­fung auf Genau­ig­keit, Robust­heit und Sta­bi­li­tät sowie ggf. Bias)
    • Fach­per­so­nen lie­fern Fra­ge­stel­lun­gen und Erwartungen
    • Per­for­mance-Indi­ka­to­ren für die Eig­nung einer KI-Anwen­dung sind defi­niert, bspw. Schwel­len­wer­te oder ande­re Vali­die­rungs­me­tho­den zur Ber­tei­lung der Kor­rekt­heit und Qua­li­tät der Outputs
    • Ver­än­de­run­gen in Input-Daten wer­den über­wacht (“Daten­drift”)
    • wenn eine Aus­ga­be von Anwen­dern igno­riert oder ver­än­dert wird, wird dies als Indi­ka­ti­on mög­li­cher Schwach­stel­len überwacht
    • Beauf­sich­tig­ten stel­len vor­ab Über­le­gun­gen zur Erken­nung und Behand­lung von Aus­nah­men an

Doku­men­ta­ti­on

  • Pro­blem:
    • es feh­len zen­tra­le Vor­ga­ben zur Dokumentation
    • vor­han­de­ne Doku­men­ta­ti­on ist nicht aus­rei­chend detail­liert und empfängerorientiert
  • Erwar­tun­gen:
    • wesent­li­che Anwen­dun­gen: die Doku­men­ta­ti­on adres­siert den Zweck der Anwen­dun­gen, die Daten­aus­wahl und ‑auf­be­rei­tung, die Modell­aus­wahl, die Per­for­mance-Mas­se, Annah­men und Limi­tie­run­gen, Test­ing und Kon­trol­len sowie Fallback-Lösungen
    • Daten­aus­wahl: Daten­quel­len und Prü­fun­gen der Daten­qua­li­tät kön­nen erklä­ren wer­den (inkl. Inte­gri­tät, Kor­rekt­heit, Zweck­mä­ssig­keit, Rele­vanz, Bias und Stabilität)
    • die Robust­heit und Zuver­läs­sig­keit sowie die Nach­voll­zieh­bar­keit der Anwen­dung sind sichergestellt
    • Anwen­dun­gen sind ange­mes­sen in eine Risi­ko­ka­te­go­rie ein­ge­stuft (mit ent­spre­chen­der Begrün­dung und Prüfung)

Erklär­bar­keit

  • Pro­blem: Ergeb­nis­se kön­nen nicht nach­voll­zo­gen, erklärt oder repro­du­ziert und damit beur­teilt werden
    Erwar­tun­gen: Bei Ent­schei­dun­gen gegen­über Anle­gern, Kun­din­nen, Mit­ar­bei­ten­den, der Auf­sicht oder der Prüf­ge­sell­schaft kön­nen Plau­si­bi­li­tät und Robust­heit der Ergeb­nis­se beur­tei­len werden
  • u.a. die Trei­ber der Anwen­dun­gen oder des Ver­hal­tens unter ver­schie­de­nen Bedin­gun­gen wer­den verstanden

Unab­hän­gi­ge Überprüfung

  • Pro­blem:
    • kla­re Abgren­zung zwi­schen der Ent­wick­lung von KI-Anwen­dun­gen und ihrer unab­hän­gi­gen Über­prü­fung fehlt
    • weni­ge Beauf­sich­tig­te füh­ren eine unab­hän­gi­ge Prü­fung des gesam­ten Modell­ent­wick­lungs­pro­zes­ses durch
  • Erwar­tun­gen:
    • wesent­li­che Anwen­dun­gen”: die unab­hän­gi­ge Prü­fung umfasst eine objek­ti­ve, ver­sier­te und unvor­ein­ge­nom­me­ne Mei­nung über die Ange­mes­sen­heit und Zuver­läs­sig­keit eines Ver­fah­rens für einen bestimm­ten Anwendungsfall
    • die Ergeb­nis­se der Über­prü­fung wer­den bei der Ent­wick­lung berücksichtigt

Erwar­tun­gen (Zusam­men­fas­sung)

Ins­ge­samt las­sen sich die Erwar­tun­gen der FINMA wie folgt struk­tu­riert zusammenfassen:

  • KI-Gover­nan­ce:
    • Zustän­dig­kei­ten und Ver­ant­wort­lich­kei­ten (AKV) bei der Ent­wick­lung, Imple­men­tie­rung, Über­wa­chung und Nut­zung von KI sind festgelegt.
    • Inter­ne Wei­sun­gen mit Vor­ga­ben für die Gewähr­lei­stung der Datenqualität
    • Wesent­li­che Anwen­dun­gen: Doku­men­ta­ti­on adres­siert Zweck der Anwen­dun­gen, die Daten­aus­wahl und ‑auf­be­rei­tung, die Modell­aus­wahl, die Per­for­mance-Mas­se, Annah­men und Limi­tie­run­gen, Test­ing und Kon­trol­len sowie Fallback-Lösungen.
  • zen­tra­les Inven­tar mit Risi­koklas­si­fi­zie­rung und Massnahmen: 
    • KI” wird breit genug definiert
    • Voll­stän­dig­keit des Inven­tars mit Risi­ko-Klas­si­fi­zie­rung (mit Prü­fung und Begründung)
  • Daten- und Modell­qua­li­tät:
    • Beauf­sich­tig­te stel­len vor­ab Über­le­gun­gen zur Erken­nung und Behand­lung von Aus­nah­men an.
    • Vor­ga­ben zu Modell-Tests und unter­stüt­zen­den System­kon­trol­len, Doku­men­ta­ti­ons­stan­dards und “brei­te Schu­lungs­mass­nah­men” existieren
    • Tests zur Sicher­stel­lung der Daten­qua­li­tät und der Funk­ti­ons­fä­hig­keit der KI-Anwen­dun­gen sind vor­ge­se­hen (ein­schliess­lich einer Prü­fung auf Genau­ig­keit, Robust­heit und Sta­bi­li­tät sowie ggf. Bias).
    • Fach­per­so­nen lie­fern Fra­ge­stel­lun­gen und Erwartungen.
    • Per­for­mance-Indi­ka­to­ren für die Eig­nung einer KI-Anwen­dung sind defi­niert, bspw. Schwel­len­wer­te oder ande­re Vali­die­rungs­me­tho­den zur Beur­tei­lung der Kor­rekt­heit und Qua­li­tät der Outputs.
    • Ver­än­de­run­gen in Input-Daten wer­den über­wacht (“Daten­drift”).
    • Daten­aus­wahl: Daten­quel­len und Prü­fun­gen der Daten­qua­li­tät kön­nen erklärt wer­den (inkl. Inte­gri­tät, Kor­rekt­heit, Zweck­mä­ssig­keit, Rele­vanz, Bias und Stabilität).
    • Die Robust­heit und Zuver­läs­sig­keit sowie die Nach­voll­zieh­bar­keit der Anwen­dung sind sichergestellt.
    • Wenn eine Aus­ga­be von Anwen­dern igno­riert oder ver­än­dert wird, wird dies als Indi­ka­ti­on mög­li­cher Schwach­stel­len überwacht
  • Erklär­bar­keit:
    • Ent­schei­dun­gen gegen­über Anle­gern, Kun­din­nen, Mit­ar­bei­ten­den, der Auf­sicht oder der Prüf­ge­sell­schaft: Plau­si­bi­li­tät und Robust­heit kön­nen beur­teilt werden
    • Trei­ber der Anwen­dun­gen oder des Ver­hal­tens wer­den verstanden
  • Out­sour­cing: zusätz­li­che Tests und Kon­trol­len wer­den imple­men­tiert; es gibt Ver­trags­klau­seln, die Ver­ant­wort­lich­kei­ten und Haf­tungs­fra­gen regeln; die nöti­gen Fähig­kei­ten und Erfah­run­gen des Dienst­lei­sters wer­den geprüft.
  • Wesent­li­che Anwen­dun­gen:
    • unab­hän­gi­ge Prü­fung inkl. einer objek­ti­ven, ver­sier­ten und unvor­ein­ge­nom­me­nen Mei­nung über Ange­mes­sen­heit und Zuver­läs­sig­keit für einen bestimm­ten Anwendungsfall
    • Ergeb­nis­se wer­den bei der Ent­wick­lung berücksichtigt