AI-skolan: Därför har Midjourney och Dall-E så svårt att skapa text i bilderna
I det blomstrande fältet av generativ artificiell intelligens har verktyg som Midjourney, Stable Diffusion och DALL-E 3 framträtt som inget mindre än revolutionerande, och fångat världen med sin förmåga att frammana fantastiska visuella bilder från cyberrymdens eter. Dessa AI-underverk kan på bara några sekunder producera bilder som inte bara är anmärkningsvärda utan också rika på detaljer och kreativitet, och visar en nivå av konstnärligt uttryck som verkar gränsa till det fantastiska.
Trots dessa imponerande bedrifter kvarstår dock ett nyfiket dilemma: dessa samma AI-kraftverk snubblar över uppgifter som skulle verka grundläggande enligt mänskliga standarder. Enkla åtgärder som att räkna objekt inom en bild eller generera exakt textinnehåll förblir svåra utmaningar. Denna förbryllande lucka i förmågor väcker frågan: Om generativ AI kan nå sådana höjder av kreativ skicklighet, varför misslyckas den med uppgifter som en grundskoleelev skulle kunna hantera utan ansträngning?
För att lösa detta mysterium måste man gräva i det invecklade, numeriska labyrinten som ligger till grund för artificiell intelligens och de subtila nyanserna i dess operativa ramverk.
Den textuella hindret för AI
För människor är textigenkänning och -generering en andra natur. Vi urskiljer utan ansträngning olika symboler — bokstäver, siffror, tecken — över en mängd olika teckensnitt och handstilar. Vi kan kontextuellt skapa text och intuitivt förstå hur dess betydelse förändras med miljön. Denna flytande förmåga är en produkt av vår medfödda språkliga och kognitiva förmåga.
I skarp kontrast saknar nuvarande AI-bildgeneratorer denna inneboende förståelse. De “förstår” inte verkligt de symboler de hanterar. Istället är dessa verktyg avkomman av artificiella neuronnät, system tränade på omfattande dataset av bilder från vilka de extraherar mönster, associationer och prediktiva förmågor.
Dessa nätverk lär sig att associera kombinationer av former med specifika entiteter: konvergerande linjer kan antyda spetsen på en penna eller toppen av ett tak. Men när det gäller text och numerisk noggrannhet, smalnar felmarginalen avsevärt. Den mänskliga hjärnan kan förlåta mindre variationer i formen på en penna eller vinkeln på ett tak, men den är mycket mindre tolerant med felaktigheter i skrivna ord eller antalet objekt.
För text-till-bild-modeller är textsymboler bara komplexa arrangemang av linjer och kurvor. Med tanke på den stora mångfalden av textrepresentation — de otaliga stilar, teckensnitt och de oändliga sätten bokstäver och siffror kombineras — misslyckas dessa modeller ofta med att replikera text övertygande.
Kärnan i denna fråga ligger i riket av träningsdata. För att korrekt återge text och siffror kräver AI-bildgeneratorer en mer omfattande och nyanserad datamängd än vad som vanligtvis behövs för andra visuella uppgifter. De nuvarande datamängderna, medan de är stora, tillhandahåller inte det djup och den specificitet som är nödvändig för att AI ska lära sig dessa särskilda färdigheter i samma grad som deras mer konstnärliga förmågor.
Sammanfattningsvis, när generativ AI fortsätter att utvecklas och förvåna, understryker dess begränsningar i grundläggande uppgifter komplexiteten i att efterlikna hela spektrumet av mänsklig intelligens. Det är en påminnelse om att medan AI kan spegla — och ibland till och med förbättra — mänsklig kreativitet, fungerar den på en grundläggande annorlunda kognitiv arkitektur, en som fortfarande lär sig att förstå det grundläggande som människor finner instinktivt.