Initiative LEAM zur Entwicklung einer europäischen KI und Foundation Models – Notwendig für digitale Souveränität und Wahrung des Datenschutzes?

von Dr. Axel Spies, veröffentlicht am 25.01.2023
Rechtsgebiete: WirtschaftsrechtDatenschutzrecht5|3257 Aufrufe

Der KI-Bundesverband hat dazu unter Förderung des BMWK eine lesenswerte Machbarkeitsstudie veröffentlicht, wie es gelingen könnte, eine Europäische KI zu entwickeln und zu betreiben. Das Projekt nennt sich „Large European AI Models (LEAM)“. Ziel der Initiative ist es, in Deutschland auf internationalem Niveau zu künstlicher Intelligenz zu forschen, Daten zu sammeln, große KI-Modelle = KI Foundation Modelle zu trainieren und dann per Open Source bereit zu stellen.

KI-Foundation-Modelle sind große neuronale KI-Modelle, die auf gigantischen Mengen generischer Daten vortrainiert wurden. Das Besondere an diesen Modellen ist, dass sich das im sogenannten Vortraining (pre-training) erworbene implizite Wissen als Grundlage für viele verschiedene Anwendungen eignet. Für manche Anwendungen ist sogar kein oder nur minimales zusätzliches Training erforderlich.“ (S. 19)

Grundlage ist eine neue Architektur für neuronale Netze, Transformer genannt:

Die Grundidee des Transferlernens ist die Nutzung von bereits trainierten Netzen für neue Aufgabenstellungen. Anstatt für eine Anwendung ein neues Netzwerk zu trainieren, verwendet man ein Netzwerk, das bereits für eine andere Aufgabenstellung vortrainiert wurde. So kann durch den Einsatz des vortrainierten Netzes der Bedarf an annotierten (labeled) anwendungsspezifischen Lerndaten reduziert werden. Gelingt es nun, Aufgaben für das Vortraining so zu wählen, dass entweder hinreichend große Mengen an bereits annotierten Lerndaten vorhanden sind oder aber die annotierten Daten vollautomatisch hergestellt werden können, dann verringert sich der Aufwand für die Datenannotierung immens.“(S. 20)

Die Initiatoren wollen verhindern, dass deutsche und europäische Unternehmen in der Forschung zurückfallen und künftig auf chinesische oder US-amerikanische KI-Foundation Models zurückgreifen müssen. Ein Aspekt ist, dass die Dienste die europäischen Standards für Datenschutz und Datensicherheit möglicherweise nicht erfüllen.  Vgl. die Initiative der EU-Kommission: A European Approach to Artificial Intelligence. Auch sind Haftungsprobleme zu berücksichtigen (im Blog hier). 

Interessante Einzelaspekte: In der Studie findet die Forderung nach „Sandboxen“, in denen Anwendungen getestet werden können, ohne dass an sie die üblichen regulatorischen Anforderungen gebunden sind, keine Berücksichtigung, obwohl Deutschland in diesem Bereich hinterherhinkt. Zur Diskussion zur Datenlokalisierung in der EU siehe im Blog hier. Und zu ChatGPT, im Blog diskutiert hier: "Die Services von ChatGPT sind bereits jetzt schon kritisch, da Nutzung durch Mitarbeiter mit Unternehmensdaten schwer kontrollierbar." - S. 331.

Fazit der Studie: „Europäischen Standards entsprechende, mit hochwertigen und vielfältigen Daten trainierte und Open Source verfügbare Foundation-Modelle würden diese Herausforderungen bewältigen und dazu beitragen, dass die deutsche Wirtschaft umfänglich von KI-Foundation-Modellen profitiert.“

Wie stehen sie zu diesem Ansatz?

Diesen Beitrag per E-Mail weiterempfehlenDruckversion

Hinweise zur bestehenden Moderationspraxis
Kommentar schreiben

5 Kommentare

Kommentare als Feed abonnieren

Verfehlt dieser Ansatz der Studie! Siehe nur S. 228: „Es gibt aktuell in Europa kein dediziertes KI-Rechenzentrum, das für die Entwicklung international kompetitiver Foundation-Modelle ausreicht. Um zum aktuellen Stand der amerikanischen Hyperscaler aufzuschließen, müssen rund 4.500 GPU im Rechenzentrum verbaut werden.“ Ohne internationale Kooperation über die Grenzen hinweg geht es nicht. Oder soll mal wieder der Staat einspringen? Und der hochgelobte europäische Datenschutzstandard sollte kein Hindernis sein und nicht als Vorwand herhalten, sich in Europa abzuschotten. Dafür gibt es die Regeln zum international Datentransfer in der DSGVO.

0

Der Einwand, dass in Europa derzeit ein solches Rechenzentrum gar nicht zur Verfügung steht, ist auch den Studienautoren bewusst, S. 164. Gegen die Nutzung von einschlägigen (US-amerikanischen) Cloud-Diensten wird sich ausgesprochen, weil diese „sich […] nur schwerlich unter Wahrung der digitalen Souveränität und der europäischen Anforderungen an den Datenschutz nutzen [lassen]. Zudem werden hier meist so genannte Lock-in Effekte wirksam, die einen späteren Wechsel zu einem anderen Anbieter erschweren.

Dennoch möchten die Studienautoren aufgrund des akuten Handlungsbedarfs auf den Aufbau eines eigenen Rechenzentrums verzichten, auch wegen der hohen Kosten. Man möchte daher Collocation Modelle nutzen, also freie Kapazitäten von mehreren Rechenzentren verknüpfen. Unsicher ist man sich wegen der Latenzen, die aufgrund der geografischen Entfernung auftreten können.

Letztlich muss man festhalten, dass die Studienautoren für dieses Problem keine zufriedenstellende Lösung anbieten können.

0

Dazu noch aus dem Bericht (S. 13): "Neben den enormen Chancen, die sich daraus für die Arbeit und das Leben eröffnen, ergeben sich daraus auch einige Herausforderungen für die deutsche Wirtschaft, Wissenschaft und Gesellschaft, denn Europa ist im Wettbewerb um KI-FoundationModelle abgeschlagen. Für Deutschland heißt das konkret, Datenschutz und Datensicherheit verfolgen geringere Standards, Verzerrungen und mangelnde Datenqualität können aufgrund fehlender Transparenz nicht identifiziert und entgegengewirkt werden, und deutsche Unternehmen werden lediglich Nutznießer und keine Gestalter von Foundation-Modelle. Technologisch rutscht Deutschland damit in die Abhängigkeit."

Gesamtkosten des Projekts bei einer Abschreibungsdauer von 4 Jahren: rd. € 379 Mio. (S. 186).

Lohnt sich der Aufwand? 

Vielen Dank für diesen Beitrag, der gut die Notwendigkeit und die Herausforderungen der Anwendung und Umsetzung von KI-Modellen aufzeigt.

Kern (Brenn-?)Punkt auch hier: der risikobasierte Ansatz.

Unter  Absatz 2.3. Vertrauenswürdige KI-Foundation-Modelle wird darauf hingewiesen, dass sich die Überlegungen am risikobasierten Ansatz im Kontext des KI.NRW-Flagship-Projekts „Zertifizierte KI ”orientieren. Im dazugehörigen KI-Prüfkatalog wird unter Punkt 9 (ab Seite 142) die „Dimension: Datenschutz“ im Kontext von KI-Methoden konkretisiert und aufgezeigt, was bei der Umsetzung datenschutzrechtlich zu beachten ist und welche Risikoanalysen für welche pbD zu machen sind. Als Maßnahmen zur Zielerreichung einer datenschutzkonformen Umsetzung werden aufgeführt: Anonymisierung, Pseudonymisierung, Pertubation und Aggregation und Generalisierung zur Modellbildung.

Dies steht auch alles nicht im rechtsgrundlagenfreien Raum: die EU-Kommission hat im April 2021 einen Vorschlag zur „Festlegung harmonisierter Vorschriften für künstliche Intelligenz und zur Änderung bestimmter Rechtsakte der Union“ (COM(2021) 206 final) vorgelegt. In diesem sog. AIA-Entwurf wird der Rahmen für einen risikobasierten Ansatz auch bei der Anwendung der DS-GVO geschaffen. Zwar soll auch in diesem Digital-Act die DS-GVO wieder „unberührt“ bleiben. Allerdings wird sie „durch harmonisierte Vorschriften für Entwurf, Entwicklung und Verwendung bestimmter Hochrisiko-KI-Systeme sowie durch Beschränkungen für bestimmte Anwendungen biometrischer Fernidentifizierungssysteme ergänzt.“ (siehe 1.2 zum Kontext des Vorschlags)

Und unter 5.2.2 des VO-Vorschlags heißt es:

Titel II [der Verordnung] enthält eine Liste verbotener KI-Praktiken. Die Verordnung verfolgt einen risikobasierten Ansatz, bei dem zwischen Anwendungen von KI unterschieden wird, die ein i) unannehmbares Risiko, ii) ein hohes Risiko und iii) ein geringes oder minimales Risiko darstellen.

Mit diesen Grundlagen könnten mE Innovation und Wettbewerbsfähigkeit für das digitale Zeitalter der Weg bereitet werden.

Kommentar hinzufügen