Initiative LEAM zur Entwicklung einer europäischen KI und Foundation Models – Notwendig für digitale Souveränität und Wahrung des Datenschutzes?
Gespeichert von Dr. Axel Spies am
Der KI-Bundesverband hat dazu unter Förderung des BMWK eine lesenswerte Machbarkeitsstudie veröffentlicht, wie es gelingen könnte, eine Europäische KI zu entwickeln und zu betreiben. Das Projekt nennt sich „Large European AI Models (LEAM)“. Ziel der Initiative ist es, in Deutschland auf internationalem Niveau zu künstlicher Intelligenz zu forschen, Daten zu sammeln, große KI-Modelle = KI Foundation Modelle zu trainieren und dann per Open Source bereit zu stellen.
„KI-Foundation-Modelle sind große neuronale KI-Modelle, die auf gigantischen Mengen generischer Daten vortrainiert wurden. Das Besondere an diesen Modellen ist, dass sich das im sogenannten Vortraining (pre-training) erworbene implizite Wissen als Grundlage für viele verschiedene Anwendungen eignet. Für manche Anwendungen ist sogar kein oder nur minimales zusätzliches Training erforderlich.“ (S. 19)
Grundlage ist eine neue Architektur für neuronale Netze, Transformer genannt:
„Die Grundidee des Transferlernens ist die Nutzung von bereits trainierten Netzen für neue Aufgabenstellungen. Anstatt für eine Anwendung ein neues Netzwerk zu trainieren, verwendet man ein Netzwerk, das bereits für eine andere Aufgabenstellung vortrainiert wurde. So kann durch den Einsatz des vortrainierten Netzes der Bedarf an annotierten (labeled) anwendungsspezifischen Lerndaten reduziert werden. Gelingt es nun, Aufgaben für das Vortraining so zu wählen, dass entweder hinreichend große Mengen an bereits annotierten Lerndaten vorhanden sind oder aber die annotierten Daten vollautomatisch hergestellt werden können, dann verringert sich der Aufwand für die Datenannotierung immens.“(S. 20)
Die Initiatoren wollen verhindern, dass deutsche und europäische Unternehmen in der Forschung zurückfallen und künftig auf chinesische oder US-amerikanische KI-Foundation Models zurückgreifen müssen. Ein Aspekt ist, dass die Dienste die europäischen Standards für Datenschutz und Datensicherheit möglicherweise nicht erfüllen. Vgl. die Initiative der EU-Kommission: A European Approach to Artificial Intelligence. Auch sind Haftungsprobleme zu berücksichtigen (im Blog hier).
Interessante Einzelaspekte: In der Studie findet die Forderung nach „Sandboxen“, in denen Anwendungen getestet werden können, ohne dass an sie die üblichen regulatorischen Anforderungen gebunden sind, keine Berücksichtigung, obwohl Deutschland in diesem Bereich hinterherhinkt. Zur Diskussion zur Datenlokalisierung in der EU siehe im Blog hier. Und zu ChatGPT, im Blog diskutiert hier: "Die Services von ChatGPT sind bereits jetzt schon kritisch, da Nutzung durch Mitarbeiter mit Unternehmensdaten schwer kontrollierbar." - S. 331.
Fazit der Studie: „Europäischen Standards entsprechende, mit hochwertigen und vielfältigen Daten trainierte und Open Source verfügbare Foundation-Modelle würden diese Herausforderungen bewältigen und dazu beitragen, dass die deutsche Wirtschaft umfänglich von KI-Foundation-Modellen profitiert.“
Wie stehen sie zu diesem Ansatz?