Das Erstellen einer 'Model Card' als AI-Best-Practice

Die 'Model Card' ist ein wertvolles Dokument um alle relevanten informationen über ein KI Modell mitzuteilen.

September 7, 2023 - 5 min.

Viele unserer Lieblingssoftwareprojekte wie Python, Jupyter oder Tensorflow bieten umfangreiche und hilfreiche Dokumentationen. Nahezu jedes Github-Projekt enthält zumindest ein minimales README.md, das prominent angezeigt wird. Was ist das README-Äquivalent für ein Machine-Learning-Modell?

Medikamente werden mit einem Beipackzettel geliefert. Der Zweck des Beipackzettels besteht darin, in kürzester Zeit knapp und informativ Fakten über die enthaltenen Arzneimittel zu liefern. Das Wichtige wird nicht in endlosen Texten vergraben. Der Text ist kurz aber genau und ermöglicht es, schnell einen Überblick über verschiedene Aspekte des Medikaments wie Inhaltsstoffe, mögliche Nebenwirkungen, Dosierung und Zeitpunkt der Einnahme zu erhalten. Es ist eine Erfolgsgeschichte, auch wenn wir uns später vergeblich bemühen, den Beipackzettel wieder in seinen ursprünglichen kompakten Zustand zurück zu falten. Sein Inhalt richtet sich an Benutzer des Arzneimittels genauso sowie an Rettungskräfte, Apotheker und Ärzte.

Ausriß aus dem originalen Paper

Das Model Cards Paper

Für ein AI Model wäre so etwas wie ein Beipackzettel auch sehr hilfreich. Willkommen bei den „Model Cards“. Sie haben nicht etwa mit Daten über Menschen zu tun, die Mode präsentieren, sondern sind ein relativ neues Konzept aus der KI-Community.

Model Cards wurden 2018 von Margaret Mitchell et al. in dem Paper „Model Cards for Model Reporting“ vorgeschlagen. Eine Model Card ist wie ein Personalausweis für das KI-Modell, gemischt mit Informationen aus der Geburtsurkunde.

Die Motivation für das Konzept der Model Cards ergab sich laut Paper aus dem offensichtlichen Mangel an KI-Modelldokumentation:

Currently, there are no standardized documentation procedures to communicate the performance characteristics of trained machine learning (ML) and artificial intelligence (AI) models. This lack of documentation is especially problematic when models are used in applications that have serious impacts on people’s lives, such as in health care, employment, education and law enforcement.

Defizite in Architektur-Dokumentation

Ich habe oft festgestellt, dass in der Dokumentation der Systemarchitektur, wenn sie von einer mit dem betreffenden System sehr vertrauten Person geschrieben wird, nur die Informationen gegeben werden, die dem Verfasser am wichtigsten sind, während aus Sicht der Leserschaft wichtige Informationen weggelassen werden. Meistens wird kein angemessener Kontext gegeben und vieles, was im Dokument steht, ist nicht wirklich wichtiges „Insider-Baseball“-Zeug, das das Wissen der Produzenten des Systems zur Schau stellt, anstatt Außenstehende zu unterrichten. Eine solche Dokumentation ist größtenteils nutzlos.

Aufbau

Daher ist es hilfreich, einer Standarddokumentenstruktur zu folgen. Für Softwaresysteme ist dies beispielsweise ein leichtes Architekturdokumentationsframework wie arc42. Der Model-Card-Ansatz konzentriert sich jedoch mehr auf KI-Modelle (nicht auf KI-Systeme). Er bietet eine sehr gute Struktur, er ist mehr ein Beipackzettel als eine Architekturdokumentation. Am Ende brauchen Sie wahrscheinlich beides für Ihre KI, aber lassen wir das vorerst beiseite. Beginnen wir mit der Model Card.

Kurz gesagt schlägt das Paper die folgenden Gliederung vor:

  • Details des Modells
  • Ziele und Verwendung
  • Faktoren
  • Metriken
  • Bewertungsdaten
  • Trainingsdaten
  • Quantitative Analysen
  • Ethische Überlegungen
  • Vorbehalte und Empfehlungen

Während manche Dokumentation ein halbes Dutzend bis zu Hunderten von Seiten umfassen kann, sollte eine Model Card sehr kurz sein. Die Beispiele im Paper sind sogar One-Pager, und das ist ein guter Ansatz. In diesem Format gibt man genug Informationen um für Transparenz zu sorgen ohne internes geistiges Eigentum preiszugeben.

Model Cards in der freien Wildbahn

Hugging Face unterstützt die Erstellung von Model Cards und bietet auch ein Template an zusammen mit einem Guidebook. Kaggle fördert ebenfalls Model Cards.

Open AI hat ein Model Card für Whisper online gestellt und es finden sich weitere gute Fälle im Internet.

Als guter KI-Citizen veröffentlicht Salesforce Model Cards, obwohl das in dem Fall PDFs sind anstatt einfacher Text oder Markdown.

Es wäre gut wenn es noch viel mehr Model Cards geben würde. Leider propagiert das NIST AI-Risiko-Framework keine Model Cards, während das OECD AI Toolkit dies tut.

Model Cards vs. System Cards

Die großen Player wie OpenAI und Meta bieten für einige ihrer Produkte „System Cards“ an.

In meinem Vergleich “Model vs. System” habe ich betont, daß die Unterscheidung zwischen dem reinen KI-Modell und dem finalen KI-basierten Softwaresystem sehr wichtig ist. Das KI-Modell ist zwar ein wesentlicher Bestandteil des AI-Systems, aber es hat seinerseits noch weitere wichtige Komponenten, die daraus ein Endprodukt machen. In diesem Sinne wurden „System Cards“ vorgeschlagen, um das gesamte KI-System zu beschreiben. Das ist ein richtiger Ansatz. Ich bin aber auch fest davon überzeugt, dass Model Cards immer noch ein wichtiges Artefakt sind, aus folgenden Gründen:

  • Modelle werden möglicherweise erst später im Entwicklungszyklus in ein System integriert. Der Hersteller des Modells ist hier möglicherweise nicht mehr beteiligt (siehe Hugging Face als Beispiel). Daher sollte das Modell mit einer Model Card ausgestattet an die Integratoren geliefert werden. Somit wird diese auch Teil der System Card.
  • Model Cards sind kurz und knapp und konzentrieren sich auf die relevanten Informationen. Vielleicht ist es die einzige Information, die vom Nutzer wirklich wahrgenommen wird.
  • Eine Model Card ist ein sehr guter Anfang. Data Scientists können eine Model Card leicht ausfüllen, während das Liefern einer kompletten Systemdokumentation in Form einer System Card breitere Erfahrung erfordert und eher von einer Architektenrolle geleistet werden kann.
  • Wenn ein KI-System aus mehreren Modellen besteht, was mit der Weiterentwicklung von KI viel häufiger vorkommen wird, sollte jedes Modell seine eigene Model Card mitbringen.

Schlussfolgerung

Man kann davon ausgehen, dass in Zukunft das Vorhalten von Model Cards die Mindestanforderung für alle produktive genutzen KI-Modelle sein wird. Model Cards haben einen geringen Overhead, sind für ein Data Team leicht zu erstellen, relevant und sind gut konsumierbar. Lassen Sie mich gerne wissen, wenn Sie Hilfe beim Schreiben Ihrer ersten Model Card benötigen.

Wir nehmen das Risiko aus Ihrer KI.
Müssen Sie Ihre KI-Produkte regulierungs-konform machen? algo consult hilft Unternehmen dabei, die Regulierungs-Hürde zu nehmen. Lassen Sie es uns zusammen angehen.