Attēlu ģenerēšana ar mākslīga intelekta palīdzību

Vai esi dzirdējis par mākslīgā intelekta (MI) čatbotiem? Varbūt par mūziku vai mākslu, ko radījis MI? Tā visa pamatā ir ģeneratīvais MI. Šo terminu izmanto, kad runa ir par jebkādu MI sistēmu, kas rada jaunus attēlus, video, audio vai tekstus. Šodien uzzināsim vairāk tieši par MI mākslu.

‍

Kas tad īsti ir MI māksla? Īsumā, tā ir māksla, kuru rada vai jebkādi ietekmē ar mašīnmācīšanās procesu - mašīna ir “iemācījusies” informāciju, un tad šo informāciju izmanto, lai izveidotu vai manipulētu attēlu. Lai gan cilvēki savāc informāciju un uzraksta instrukcijas, kuras mašīna izmanto, lai mācītos, pats attēla ģenerēšanas process ir atstāts mašīnas ziņā.

‍

MI apakšnozare – mašīnmācīšanās ir process, kas ļauj datoriem iemācīties, kā apstrādāt un reaģēt uz datu ievadi, pamatojoties uz iepriekšējo darbību radītajiem precedentiem. Mašīnmācīšanās algoritmus izmanto, lai radītu oriģinālus attēlus, taču MI mākslā pielieto arī mašīnredzi – datorredzes apakšnozari, kas palīdz manipulēt un pārveidot jau esošus attēlus.

‍

MI māksla var ietvert plašu mediju klāstu, no gleznām un skulptūrām līdz digitālajai mākslai un mūzikai. Pie tam, lai gan MI māksla tiek radīta ar mašīnu palīdzību, tā nenoliedz iespēju māksliniekiem pašiem iesaistīties šajā procesā, apvienojot MI mākslu ar saviem radošajiem darbiem izmantojot dažādus MI rīkus un tehnikas kā palīgrīkus, tādā veidā papildinot savu radošo procesu.

‍

Kādi MI modeļi var “radīt” mākslu?

Visizplatītākie MI mākslas veidi ir saistīti ar attēlu apstrādi, atpazīstot tādus aspektus kā krāsu, tekstūru un tekstu. Lai varētu šo uzdevumu izpildīt, ir jāizmanto MI modeļi un sistēmas. MI modeļi attēlu ģenerēšanai ir balstīti uz datorredzi, dabiskās valodas apstrādi un mašīnmācīšanos. Tie atpazīst dažādus modeļus, šajā gadījumā, attēlos, tekstos un citos datos, un šo informāciju izmanto, lai rediģētu jau esošus attēlus vai arī ģenerētu pilnīgi jaunus.

‍

Daži no svarīgiem MI modeļiem, kurus izmanto MI mākslas radīšanā ir GAN, CNN, NST un viens no jaunākajiem - CLIP.

‍

CLIP (Contrastive Language-Image Pre-Training)

CLIP ir milzīgs lēciens uz priekšu MI modeļu izstrādē. Tas ir pirmais multimodālais (redzes un teksta) modelis. CLIP ir neironu tīkls, kas ir apmācīts uz vairāk nekā 400 miljoniem dažādu attēlu un tekstu pāriem. Šis modelis ir neticami spēcīgs tilts starp mašīnredzi un dabiskās valodas apstrādi, kam ir ļoti liela elastība un daudzi dažādi pielietojumi. Piemēram, viens no vienkāršākajiem modeļa pielietojumiem - tam padot kādu attēlu, un tas pateitks tā visticamāko nosaukumu. Šis modelis ir perfekts dažādu attēlu aprakstīšanai, kas nozīmē, ka vēl viens superīgs tā pielietojums ir kā jaudīgs filtrēšanas un moderēšanas rīks mājaslapās un aplikācijās!

‍

GAN (General Adversarial Network)

Ģeneratīvi konkurējošs tīkls ir mākslīgā intelekta algoritma veids, kas tiek izmantots sintētisku datu ģenerēšanai, kas ir līdzīgi doto datu kopai. To panāk, apmācot divus neironu tīklus - ģenerējošs un diskriminējošs – vienu pret otru. Ģenerators mēģina radīt oriģinālus attēlus, savukārt diskriminātors satur attēlu datu bāzi un “diskriminē”, vai ģeneratora radītais darbs ir patiešām jauns. Abi savā starpā komunicē, un ģenerators mēģina pārspēt diskriminētāju, no kurienes arī radies algoritma nosaukums “adverserial” jeb konkurējošs.

‍

Ar šo procesu ģenerējošais tīkls mācās radīt datus, kurus arvien grūtāk diskriminējošajam tīklam ir atšķirt no sākotnējiem datiem. GAN algoritmi tiek izmantoti, lai radītu plašu sintētisku datu klāstu, tostarp attēlus, audio un tekstu.

‍

Viena no šī algoritma variācijām, kas kļuva populāra 2022. gadā, ir VQGAN+CLIP sistēma, kurā apvienoja MI modeļus VQGAN un CLIP. Šī sistēma var radīt oriģinālus attēlus no dabiskā valodā rakstītiem teksta promptiem un to izmanto MI kā DALL-E 2 un Imagen.

‍

CNN (Convolutional Neural Networks)

Konvolutīvais neironu tīkls ir neironu tīklu veids, kas bieži tiek izmantots attēlu klasifikācijai un citiem uzdevumiem, kas saistīti ar vizuālu datu apstrādi. Šis algoritms izmanto matemātisku operāciju - konvolūciju, lai apstrādātu datus. Konvolutīvajā neironu tīklā dati tiek izlaisti cauri vairākiem slāņiem, kur katrs slānis datiem piemēro konvolūcijas darbību, kam seko nelineāra funkcija, ko sauc par aktivācijas funkciju. Katra slāņa rezultāts tiek padots nākošajam slānim tīklā, līdz ir izveidots galējais rezultāts. Šī hierarhiskā struktūra ļauj CNN efektīvi apgūt un atpazīt modeļus vizuālos datos.

‍

DeepDream ir viens no rīkiem, kas izmanto šo algoritmu, lai radītu to, ko prāts reizēm dara tumsā - ēnās saskata rakstus, sejas un visādus mošķus. DeepDream atrod un pastiprina modeļus, radot psihodēliskus attēlus. Ja šo neironu tīklu lietotājs pats nekodē, tad modeļi tiek noteikti pēc tā, ar ko izveidotājs ir apmācījis MI. Kādu laiku bija populāra sistēma, kas bija veidota uz suņu šķirņu pamata. Ar šo sistēmu lietotāji varēja izveidot attēlus, kas ir pilni ar mazām suņu sejiņām.

‍

NST (Neural style transfer)

Neirostila pārnese principā ir attēlu stilizācija. NST ir mašīnmācīšanās tehnika, kas izmanto dziļos neirotīklus, lai iemācītos un pielietotu viena attēla stilu uz cita attēla saturu. Tā rezultātā var izveidot jaunu attēlu, kas apvieno pirmā attēla saturu ar otrā attēla stilu, radot unikālu un bieži māksliniecisku efektu. Piemēram, ievietojot rīkā, kurš izmanto šo tehniku, jebkādu attēlu, var iegūt atpakaļ to pašu attēlu mākslinieka Vinsenta van Goga stilā.

‍

MI attēlu ģenerēšanas rīki

Tagad, kad esam uzzinājuši MI attēlu ģenerēšanas pamatus varam aplūkot rīkus, ko var izmantot, lai radītu MI mākslu!

‍

DALL-E 2

Viens no vispopulārākajiem MI mākslas rīkiem ir DALL-E 2, kurš iepriekš jau tika minēts. Šo rīku izstrādāja OpenAI un tas izmanto GAN algoritmu. Šis rīks izmanto VQGAN+CLIP sistēmu, kas nozīmē, ka to ir it īpaši viegli izmantot, jo CLIP atļauj lietotājam izmantot dabisku valodu kā promptu. Šī rīka galvenās funkcijas ir augstas kvalitātes attēlu ģenerēšana, ilustrāciju izveide un produktu dizaina izstrādāšana, kā arī šī rīka interfeiss ir viegli lietojams un klāt nāk funkcija pielabot savus ģenerētos attēlus ar iebūvēto rīku "paintbrush" – pievienojot ēnas, gaismu un citas detaļas. Piemēram, izmantojot "Winter scenery with a mountain and a lake in the distance as a renaissance painting" kā uzvedni jeb "prompt" (t.i. fakts, ideja, notikums vai teksts, kas izraisa vai veicina noteiktu darbību, un, šajā gadījumā, to ievada ievades laukā) šajā rīkā var iegūt rezultātu, kas apskatāms zemāk redzamajā attēlā. MI uzvednei nav garuma vai detalizētības ierobežojums, tāpēc var aprakstīt to, ko vēlas, cik vien smalki nepieciešams.

‍

Attēls ar ezeru un kalniem tālumā — DALL-E 2 piemērs

‍

Deep Dream Generator

Vēl viens no labākajiem MI mākslas ģeneratoriem ir Google izstrādātais Deep Dream Generator, kurš izmanto visus iepriekš minētos algoritmus. Ar šo rīku ir iespējams izveidot reālistiskus attēlus ar MI palīdzību. Tā neironu tīkls ir apmācīts ar vairāk nekā miljons attēliem un ir iespējams izveidot attēlus daudzos dažādos mākslas stilos, kā arī kategorizēt attēlus, piemēram, dzīvniekos vai ainavās pirms ģenerē attēlu. Un papildus tam visam, DeepDream atļauj izvēlēties 2 stilus: Deep Style un Deep Dream. Deep Style izmanto NST algoritmu, lai pārnestu viena attēla stilu uz citu, kamēr Deep Dream izmanto CNN algoritmu, pastiprinot noteiktus modeļus attēlā. Piemērā redzams visiem zināmais Johannesa Vermēra mākslas darbs "Meitene ar pērļu auskaru". Šis mākslas darbs tika modificēts ar Deep Style Vinsenta van Goga "Zvaigžņotā nakts" gleznas stilā un otrs attēls apstrādāts ar Deep Dream.

‍

"Girl with a Pearl Earring" apstrādāta ar DeepDream stiliem — "Meitene ar pērļu auskaru" glezna Deep Style un Deep Dream stilos

‍

DeepAI

DeepAI ir lielisks rīks MI mākslas radīšanai, jo to var izveidot cik vien attēlus vēlas, un katrs no tiem būs unikāls. Šajā rīkā ir iespēja daudz ko pielāgot savām vajadzībām, kā, piemēram, detalizētību, krāsas, tekstūru un daudz ko citu izmantojot dotos mākslas tipus. Daži citi DeepAI piedāvātie rīki ietver StyleGAN un BigGAN, kas arī var ģenerēt reālistiskus attēlus. Papildus ir arī CartoonGAN rīks, kas ļauj pārvērst parastus attēlus animācijās. Šoreiz izmantotā uzvedne arī bija "Winter scenery with a mountain and a lake in the distance" un tika ģenerēti attēli dažādos stilos, kā "Fantasy world", "Renaissance painting" un "Old Style".

‍

DeepAI piemēri ar dažādiem mākslas stiliem

‍

ArtBreeder

Ja vēlies ienirt MI mākslas radošajā pusē, var izmēģināt ArtBreeder – rīku, kas izmanto GAN algoritmu, lai izveidotu jaunus attēlus, apvienojot un modificējot jau esošos attēlus. To plaši izmanto mākslinieki, zinātnieki un citu nozaru cilvēki, kuri ir ieinteresēti uzzināt vairāk par MI radošajām spējām. Kā piemērs, tika izmantots ArtBreeder, lai modificētu ilustrāciju, kas iegūta no DALL-E 2. Rezultātā iegūta šī fantastiskā ainava!

‍

ArtBreeder piemērs ar ainavu — DALL-E 2 ilustrācija un ArtBreeder modificētā ilustrācijas versija

‍

Papildus Rīki

Ar MI palīdzību ir iespējams pārvērst arī skices un zīmējumus mākslā. Piemēram, AutoDraw savieno mašīnmācīšanos ar talantīgu mākslinieku zīmējumiem, lai palīdzētu ātri uzzīmēt dažādas lietas, savukārt rīkā GauGAN ir iespējams zīmēt uzmetumu izmantojot segmentus kā krāsas. Šie segmenti var būt mākoņi, kalni, ūdens, upes, koki, u.t.t. Piemēru vari apskatīt zemāk redzamajā attēlā. Ja vēlies patiešām sevi izaicināt, ir pieejama spēle "Quick, Draw!", kurā 20 sekunžu laikā ir jāuzzīmē kāda lieta, un MI neironu tīkls mēģina uzminēt, kas tas ir.

‍

GauGAN rīka piemērs — No uzmetuma ģenerēts attēls ar GauGAN

‍

Protams, ir pieejami vēl daudzi citi MI mākslas rīki, kas ne tikai ģenerē attēlus, bet arī mūziku un citas lietas! Ja vēlies, ir iespēja uzzināt papildus vairāk nekā 40 rīkus mājaslapā aiartists.org!