Mit Text-zu-Bild-Generatoren können Sie ganz einfach Bilder erstellen, in dem Sie Ihre Anfrage als eine Eingabe, einen Prompt formulieren. Eine KI interpretiert die Worte Ihrer Anfrage und wandelt diese in ein Bild um.

Diese Bilder können wunderschön sein und jede Situation zeigen, die Sie sich nur vorstellen können. Sie müssen dafür aber weder ein Künstler sein, noch eine Kamera in die Hand nehmen, oder ein Model bezahlen. Sie können einfach tun, was Sie möchten.

In diesem Auszug aus meiner wissenschaftlichen Arbeit zum Thema Bildgeneratoren erfahren Sie spannende Einblicke in die Funktionsweise dieser Generatoren. Weiter unten können Sie die ganze Arbeit herunterladen!

Künstlich generiertes Model

Das neurale Netzwerk

Ein Text-zu-Bild-Generator besteht aus einem neuralen Netzwerk, welches mit einem Trainingsdatensatz aus Bildern trainiert und auf Texte konditioniert wird, dem Generator. In der Trainingsphase prüft ein Diskriminator, ob es sich bei dem generierten Bild um ein Bild aus dem Trainingsdatensatz handelt oder ob es ein neu erschaffenes Bild ist.

Diskriminator: Der Entscheider über die Qualität

Die Aufgabe des Diskriminators geht aber noch weit darüber hinaus, denn es sollen Bilder entstehen, die für das menschliche Auge sinnvoll sind und mit der Texteingabe im Zusammenhang stehen. Es ist nicht nur wichtig, ein realistisches Bild herzustellen, sondern auch Kontrolle über den Prozess der Bildgenerierung zu erlangen.

Am Anfang steht das Training

Doch zunächst ist zu verstehen, was hier überhaupt trainiert werden soll. Häufig wird beim Trainingsprozess von dem Begriff Deep Learning gesprochen. Mit diesem Deep Learning soll ein neurales Netzwerk trainiert werden. Ein Beispiel für ein neurales Netzwerk stellt das Gehirn dar.

Ein Neuron ist ein Punkt im Netzwerk, welches ein Aktionspotenzial hat, das ausgelöst wird, wenn eingehende Verbindungen gewichtet aufaddiert werden. Diese veranlassen das Neuron, nach einer nicht linearen Aktivierungsfunktion zu „feuern“. Das Neuron kann in verschiedenen Stärken in einem Wertebereich zwischen 0,1 und -1,1 feuern. Dieser Prozess heißt Transformation. Das „Gefeuerte“, also der Output, wird zu einem nachgeschalteten Neuron weitergeleitet und dient dort als Input. In diesem Neuron werden die Eingaben wieder gewichtet und wiederum nach einer bestimmten Formel eine Aktivierung veranlasst.

Neuronale Schichten

Die Neuronen in einem neuralen Netzwerk werden in Neuronenschichten angeordnet. Da für komplexe Operationen viele neuronale Schichten notwendig sind, haben diese für eine sinnvolle Anwendung eine bestimme Tiefe, dessen Training sich nur mit einer massiven Anzahl arithmetischer Operationen bewerkstelligen lässt. Die Tiefe des Trainings ist mit dem Aufkommen leistungsfähiger Grafikkarten, wie sie für die Beschleunigung von Computerspielen eingesetzt werden, möglich geworden ist.

Anlernen neuraler Netzwerke

Das Anlernen neuraler Netzwerke basiert auf Mechanismen, welche mit mathematischen Ableitungsverfahren vergleichbar sind. Die Neuronen im Netzwerk haben initial eine bestimmte Anzahl von Verbindungen und ein bestimmtes Gewicht. Anfangs werden diesen Gewichten Zufallswerte zugewiesen. Wenn man nun eine Eingabe in das Netzwerk macht, erhält man eine zufällige Ausgabe, die keinen Sinn ergibt. Jetzt lässt sich die Abweichung zur richtigen Ausgabe berechnen. Wenn etwa ein Bild generiert würde, besteht dieses aus Pixeln. Jeder Pixel nimmt einen bestimmten Farbwert an.

Da das Trainingsbild bekannt ist, könnte die Abweichung der Farbwerte pro Pixel berechnet werden. Über die Kettenregel aus der Mathematik kann der Anteil der einzelnen Neuronen am Gesamtfehler zurück propagiert und die Gewichte angepasst werden. Dieses Training führt man hunderttausendfach durch, bis das Netzwerk die gewünschten Ergebnisse produziert.

Diese sogenannte Backpropagation ist das zentrale Prinzip von Deep-Learning-Algorithmen, die für das Training neuraler Netzwerke eingesetzt werden. Die hohe Anzahl an Schichten erklärt auch den Begriff Deep Learning. Hier wird ein neurales Netzwerk mit einer hohen Anzahl an Schichten in seiner Tiefe trainiert.

Gesichtserkennung leicht gemacht

Das Ergebnis, also das trainierte Netzwerk, stellt im Prinzip ein komplexes statistisches Modell dar. Deswegen spricht man bei einem trainierten Netzwerk von einem Modell. Das grundlegende Deep-Learning-Verfahren basierend auf Backpropagation, ist auch der Grund, weshalb Systeme zur Gesichtserkennung so erfolgreich sind. Sie sind leicht zu trainieren. Eine Gesichtsstruktur ist eine Anzahl von Grau- und Farbwerten, die in einem Bild vorkommen muss. Eine erfolgreiche Erkennung findet dann statt, wenn die Nähe der Werte im Kontrollbild und im Testbild klein genug sind.

Jetzt weiterlesen

Lesen Sie die gesamte wissenschaftliche Arbeit über Bildgeneratoren auf 33 Seiten weiter, indem Sie auf den Button klicken. Aktuelle Bildgeneratoren in ihrer wissenschaftlichen Tiefe einfach erklärt!

Jetzt weiterlesen