Leicht gemacht: Bilder kombinieren & erweitern
Letztens stand ich privat vor einem Problem, das vermutlich viele kennen: Mir fehlte das „perfekte“ Foto.
In meiner Freizeit lege ich ab und an Musik auf – oft zusammen mit Freund:innen. Und wie das so ist: Es entstehen einige Fotos. An diesem Abend hatten wir zu dritt gespielt, aber es gab kein einziges Bild, auf dem wir alle drei gemeinsam zu sehen waren.
Stattdessen: mehrere Fotos derselben Szene, ziemlich ähnlich aufgenommen – fast gleiche Perspektive, ähnliches Licht, gleicher Raum. Nur eben nicht identisch. Auf dem einen Foto sind Person A & B drauf, auf dem anderen Person B & C. Dazwischen haben sich Kleinigkeiten verändert, und der Bildausschnitt sitzt nicht exakt deckungsgleich.
Und genau da dachte ich: Das müsste mensch doch „einfach“ kombinieren können.
Früher wäre das klassisches Compositing gewesen
Das, was ich brauchte, ist im Grunde Compositing: mehrere Bilder so zusammenbauen, dass am Ende ein einziges plausibles Foto entsteht. Klassisch macht man das über Ebenen, Masken, Retusche – plus ein bisschen suggestive Physik: Perspektive, Schatten, Kanten, Körnung und Farblook müssen zusammenpassen, damit nichts „aufgeklebt“ wirkt.
Machbar ist das schon lange. Nur: Dafür muss man’s können. Und selbst dann dauert es. In meinem Fall vermutlich 4–6 Stunden (oder mehr), bis es wirklich sauber und nahtlos aussieht. Das Tool der Wahl wäre sehr wahrscheinlich Photoshop gewesen. Und ich hätte es für meinen eigenen Anspruch sicherlich niemals ausreichend gut hinbekommen. Daher hätte ich es einfach gelassen. Kein perfektes Bild – auch OK.
Meine Idee: generative Bild-Systeme
Inzwischen gibt’s dafür eine Abkürzung: generative Bildsysteme sind erstaunlich gut darin, Muster zu erkennen, Elemente zu ergänzen – und Dinge zu entfernen, die „nicht dazugehören“.
Wir haben in unserem bezahlten Adobe-Setup ohnehin Zugriff auf Firefly, also habe ich das als erstes ausprobiert. Adobe integriert dort inzwischen auch Partnermodelle, unter anderem Googles Gemini 3 Flash Image, das vielen unter dem Codenamen „Nano Banana Pro 3“ bekannt ist. (adobe.com)
(Und ja: Welche Modelle und Kontingente genau in welchem Abo stecken, kann sich ändern – mal sehen, was Adobe da über die nächsten Monate noch so ändert…)
Mein Prompt
Der Prompt, der mich zum Ergebnis geführt hat, war wirklich simpel (inkl. Tippfehlern):
kombiniere diese Bilder zu einem gemeinsamen Bild. Leidre wurden nicht alle 3 Personen gemeinsam fotografiert. Es soll daher ganz nromal und echt aussehen.
Nach ca. 45–60 Sekunden kamen Ergebnisse zurück, die überraschend stimmig waren. Nicht „perfekt“ im druckfertigen Sinne – aber für meinen Zweck genau richtig.

(Wer findet die gröbste Ungenauigkeit – hier klicken für das finale Bild?)
Was daran für mich spannend ist
Nicht, weil es jetzt „magisch“ wäre. Sondern weil sich die Schwelle verschiebt:
- Früher: entweder mehrere Stunden Aufwand oder man lässt es bleiben (das wäre meine Lösung gewesen).
- Jetzt: ein Versuch, mehrere Varianten, fertig. In meinem Fall waren das 2–3 Minuten statt eines halben Nachmittags.
Und das ist der eigentliche Punkt: Es geht nicht nur um Geschwindigkeit. Es geht um die Machbarkeit. Dinge, die man sonst schlicht nicht tun würde, werden plötzlich erreichbar.
Grenzen (die man im Kopf behalten sollte)
Ein paar Dinge sind trotzdem wichtig – gerade, wenn man das nicht nur privat macht:
- Auflösung & Druck: Das finale Bild ist nicht automatisch geeignet für große Druckformate (Banner, Rollups etc.).
- Details & „Wahrheit“: Wenn Menschen ergänzt oder entfernt werden, ist das inhaltlich schnell heikel – beruflich erst recht.
- Einverständnis & Kontext: Privat unter Freund:innen ist das eine Sache. In Organisationen kommen Rechte, Freigaben und Erwartungen dazu.
- Nutzungsrechte: Viele der KI-Unternehmen behalten sich das Recht vor, alle Bilder zum Training für zukünftige Modelle zu verwenden (Adobe nicht).
Bei mir war das jetzt ein kleines, privates Projektchen. Da konnte ich mit etwaigen Qualitätsabstrichen leben – und genau dafür hat es sehr gut funktioniert.
Disclaimer: Dieser Beitrag ist mithilfe von LLMs entstanden. Ich habe den Text halbwegs strukturiert schnell runtergetippt (inkl. Abschnitten/Überschriften-Ideen). Dann habe ich diesen Text meinem eigenen Blog-Schreibe-GPT bei ChatGPT gegeben, der die Struktur minimal verbessert hat und die Überschriften etwas „griffiger“ formuliert hat.
Mit Liebe recherchiert und geschrieben von Lukas Kerecz