Aprendiendo más sobre IA Generativa y símbolos AAC
EA Draffan
Las complejidades de crear símbolos para comunicación y la forma en que trabajan para apoyar lenguaje hablado y escrito nunca ha sido fácil. Ideas alrededor de adivinabilidad o iconicidad y transparencia para ayudar el aprendizaje o recordar son solo un lado de la moneda en términos de diseño. También están las preguntas alrededor de estilo, tamaño, tipo de contornos y color entre muchos otros problemas de diseño que necesitan ser cuidadosamente considerados y todo el esquema o conjunto de reglas que existen para un conjunto particular de símbolos AAC. Estos son aspectos que rara vez se discuten en detalle excepto por aquellos desarrollando las imágenes.
Sin embargo, al intentar trabajar con algoritmos de computadora para hacer adaptaciones de una imagen a otra un punto de partida puede ser reconocimiento de imagen a texto para descubrir qué tan bien elegidos datos de entrenamiento van a funcionar. Es posible ver si los sistemas pueden lidiar con la falta de fondo y otros detalles que normalmente ayudan a dar contexto a imágenes, pero a menudo faltan en conjuntos de símbolos AAC. La computadora no tiene forma de saber si un animal es un lobo o perro a menos que haya elementos adicionales, como un collar o un área natural silvestre alrededor del animal como un bosque comparado con una habitación en una casa. Si es posible proporcionar una forma de texto alternativo como una descripción visual, no disímil a la usada por usuarios de lectores de pantalla al ver imágenes en páginas web, los datos de entrenamiento proporcionados pueden entonces funcionar para una situación de imagen a imagen.
Permanece la necesidad de reunir suficientes datos para permitir a los sistemas de IA intentar predecir lo que quieres. Los sistemas usados por Stable Diffusion y DALL-E 2 han rastreado la web para masas de imágenes en varios estilos, ¡pero no parecen haber captado conjuntos de símbolos AAC! También está el caso que cada categoría de tema de símbolo dentro del conjunto de símbolos tiende a tener diferentes estilos aunque los contornos y algunos colores pueden ser similares y los humanos generalmente son capaces de reconocer similitudes dentro de un conjunto de símbolos que no pueden necesariamente ser capturadas por el modelo de IA que ha sido desarrollado. Siempre se necesitarán más ajustes junto con más entrenamiento de datos mientras se evalúan los resultados.

La imagen arriba compara grupos de símbolos de los conjuntos ARASAAC, Mulberry, Sclera y Blissymbolics.
El otro problema es que la mayoría de los sistemas de inteligencia artificial generativa (IA) usando algo como Stable Diffusion y DALL-E 2 están diseñados para proporcionar imágenes únicas en un estilo elegido, incluso cuando ingresas el mismo prompt de texto. Por lo tanto cada resultado se verá diferente a tu primer o segundo intento. En otras palabras hay muy poca consistencia en cómo los detalles de la imagen pueden juntarse excepto que la visión general se verá como si tuviera un cierto estilo. Así que si pones en la caja de edición de prompt de texto que quieres "Una maestra frente a una pizarra blanca con una ecuación de matemáticas", el sistema puede generar tantas imágenes como quieras, pero ninguna será exactamente la misma.

Creado usando DALL-E 2
Sin embargo, Chaohai Ding ha logrado crear ejemplos de símbolos AAC Mulberry generados por IA usando Stable Diffusion con la adición de Dreambooth que usa un número mínimo de imágenes en un estilo más consistente. Todavía hay múltiples opciones disponibles desde el mismo prompt de texto, pero el "aspecto y sensación" de esas imágenes generadas automáticamente nos hace querer continuar trabajando con estas ideas para apoyar la idea de adaptaciones de símbolos AAC personalizados.

En el estilo de la categoría de profesiones en el conjunto de símbolos Mulberry estas tres imágenes tenían el prompt de texto de piloto de carreras, amigo y astronauta.
Nos gustaría agradecer a Steve Lee por permitirnos usar el conjunto de símbolos Mulberry en Global Symbols y el Fondo de Estímulo del Instituto de Ciencia Web de la Universidad de Southampton por darnos la oportunidad de colaborar en este proyecto con el equipo del Profesor Mike Wald.