Imparare di più sull'Intelligenza Artificiale Generativa e i Simboli AAC
EA Draffan
Le complessità di creare simboli per la comunicazione e il modo in cui funzionano per supportare linguaggio parlato e scritto non è mai stato facile. Idee intorno alla indovinabilità o iconicità e trasparenza per aiutare l'apprendimento o il ricordo sono solo un lato della medaglia in termini di design. Ci sono anche le domande intorno a stile, dimensione, tipo di contorni e colore tra molte altre questioni di design che devono essere attentamente considerate e l'intero schema o insieme di regole che esistono per un particolare set di simboli AAC. Questi sono aspetti che sono raramente discussi in dettaglio se non da coloro che sviluppano le immagini.
Tuttavia, quando si cerca di lavorare con algoritmi informatici per fare adattamenti da un'immagine a un'altra un punto di partenza può essere riconoscimento immagine a testo per scoprire quanto bene scelti dati di addestramento funzioneranno. È possibile vedere se i sistemi possono gestire la mancanza di sfondo e altri dettagli che normalmente aiutano a dare contesto alle immagini, ma spesso mancano nei set di simboli AAC. Il computer non ha modo di sapere se un animale è un lupo o un cane a meno che non ci siano elementi aggiuntivi, come un collare o un'area naturale selvaggia intorno all'animale come una foresta rispetto a una stanza in una casa. Se è possibile fornire una forma di testo alternativo come descrizione visiva, non dissimile da quello usato dagli utenti di screen reader quando visualizzano immagini su pagine web, i dati di addestramento forniti possono allora funzionare per una situazione immagine a immagine.
Rimane la necessità di raccogliere abbastanza dati per consentire ai sistemi IA di provare a prevedere cosa vuoi. I sistemi usati da Stable Diffusion e DALL-E 2 hanno raccolto dal web masse di immagini in vari stili, ma non sembrano aver raccolto set di simboli AAC! C'è anche il caso che ogni categoria di argomento simbolo all'interno del set di simboli tende ad avere stili diversi anche se i contorni e alcuni colori possono essere simili e gli esseri umani sono generalmente in grado di riconoscere somiglianze all'interno di un set di simboli che non possono necessariamente essere catturate dal modello IA che è stato sviluppato. Più aggiustamenti saranno sempre necessari insieme a più addestramento dati man mano che i risultati vengono valutati.

L'immagine qui sopra confronta gruppi di simboli dai set ARASAAC, Mulberry, Sclera e Blissymbolics.
L'altro problema è che la maggior parte dei sistemi di intelligenza artificiale generativa (IA) che usano qualcosa come Stable Diffusion e DALL-E 2 sono progettati per fornire immagini uniche in uno stile scelto, anche quando inserisci lo stesso prompt testuale. Quindi ogni risultato sembrerà diverso dal tuo primo o secondo tentativo. In altre parole c'è pochissima coerenza in come i dettagli dell'immagine possono essere messi insieme se non che la panoramica sembrerà come se avesse un certo stile. Quindi se inserisci nella casella di modifica prompt testuale che vuoi "Un'insegnante femmina di fronte a una lavagna con un'equazione matematica", il sistema può generare quante immagini vuoi, ma nessuna sarà esattamente la stessa.

Creato utilizzando DALL-E 2
Tuttavia, Chaohai Ding è riuscito a creare esempi di simboli AAC Mulberry generati dall'IA usando Stable Diffusion con l'aggiunta di Dreambooth che usa un numero minimo di immagini in uno stile più consistente. Ci sono ancora multiple opzioni disponibili dallo stesso prompt testuale, ma l''aspetto e la sensazione' di quelle immagini automaticamente generate ci fa voler continuare a lavorare con queste idee per supportare l'idea di adattamenti di simboli AAC personalizzati.

Nello stile della categoria professioni nel set di simboli Mulberry queste tre immagini avevano il prompt testuale di pilota, amico e astronauta.
Vorremmo ringraziare Steve Lee per averci permesso di usare il set di simboli Mulberry su Global Symbols e il Web Science Institute Stimulus Fund dell'Università di Southampton per darci la possibilità di collaborare su questo progetto con il team del Professor Mike Wald.