Učenje više o generativnoj AI i AAC simbolima
EA Draffan
Složenosti stvaranja simbola za komunikaciju i način na koji rade za podršku govornom i pisanom jeziku nikada nisu bile lake. Ideje oko pogodljivosti ili ikoničnosti i transparentnosti za pomoć učenju ili pamćenju samo su jedna strana novčića u smislu dizajna. Također postoje pitanja oko stila, veličine, vrste obrisa i boje među mnogim drugim dizajnerskim problemima koje treba pažljivo razmotriti i cijeli shema ili skup pravila koji postoje za određeni AAC skup simbola. To su aspekti o kojima se rijetko raspravlja detaljno osim od strane onih koji razvijaju slike.
Međutim, kada pokušavate raditi s računalnim algoritmima za izradu prilagodbi od jedne slike do druge, početna točka može biti prepoznavanje slike u tekst kako biste otkrili kako će dobro odabrani podaci za treniranje funkcionirati. Moguće je vidjeti mogu li sustavi nositi nedostatak pozadine i drugih detalja koji obično pomažu dati slikama kontekst, ali često nedostaju u AAC skupovima simbola. Računalo nema načina znati je li životinja vuk ili pas osim ako nema dodatnih elemenata, kao što je ogrlica ili divlje prirodno područje oko životinje kao što je šuma u usporedbi s prostorijom u kući. Ako je moguće pružiti oblik alternativnog teksta kao vizualni opis, ne sličan onome koji koriste korisnici čitača ekrana kada gledaju slike na web stranicama, podaci za treniranje pruženi mogu tada raditi za situaciju slika u sliku.
Ostaje potreba za prikupljanjem dovoljno podataka kako bi AI sustavi pokušali predvidjeti što želite. Sustavi korišteni od strane Stable Diffusion-a i DALL-E 2 prešli su web za mase slika u različitim stilovima, ali čini se da nisu pokupili AAC skupove simbola! Također postoji slučaj da svaka kategorija teme simbola unutar skupa simbola ima tendenciju imati različite stilove iako obrisi i neke boje mogu biti slični i ljudi su općenito sposobni prepoznati sličnosti unutar skupa simbola koje ne mora nužno uhvatiti AI model koji je razvijen. Uvijek će biti potrebno više prilagodbi uz više obuke podataka kako se ishodi procjenjuju.

Gornja slika uspoređuje grupe simbola iz ARASAAC, Mulberry, Sclera i Blissymbolics skupova.
Drugi problem je što većina generativnih umjetnih inteligencija (AI) sustava koristeći nešto poput Stable Diffusion-a i DALL-E 2 dizajnirani su za pružanje jedinstvenih slika u odabranom stilu, čak i kada unesete istu tekstualnu uputu. Stoga će svaki ishod izgledati drugačije od vašeg prvog ili drugog pokušaja. Drugim riječima, postoji vrlo malo konzistentnosti u načinu na koji se detalji slike mogu sastaviti osim što će pregled izgledati kao da ima određeni stil. Dakle, ako u tekstualni okvir za upute unesete da želite "Žensku učiteljicu ispred bijele ploče s matematičkom jednadžbom", sustav može generirati koliko god slika želite, ali nijedna neće biti potpuno ista.

Stvoreno koristeći DALL-E 2
Unatoč tome, Chaohai Ding uspio je stvoriti primjere AI generiranih Mulberry AAC simbola koristeći Stable Diffusion s dodatkom Dreambooth-a koji koristi minimalan broj slika u konzistentnijem stilu. Još uvijek postoje višestruke opcije dostupne iz iste tekstualne upute, ali "izgled i osjećaj" tih automatski generiranih slika čini nas željnim nastaviti raditi s ovim idejama kako bismo podržali ideju personaliziranih AAC prilagodbi simbola.

U stilu kategorije profesija u Mulberry skupu simbola ove tri slike imale su tekstualnu uputu vozača utrka, prijatelja i astronauta.
Željeli bismo zahvaliti Steveu Leeu što nam je dopustio koristiti Mulberry skup simbola na Global Symbols i Sveučilištu Southampton Web Science Institute Stimulus Fund što nam je dalo priliku surađivati na ovom projektu s timom profesora Mikea Walda.