paint-brush
Investigadores de Microsoft afirman que un nuevo modelo de inteligencia artificial puede "ver" la pantalla de su teléfonopor@fewshot
756 lecturas
756 lecturas

Investigadores de Microsoft afirman que un nuevo modelo de inteligencia artificial puede "ver" la pantalla de su teléfono

Demasiado Largo; Para Leer

Investigadores de Microsoft y la Universidad de California en San Diego han desarrollado un modelo de IA capaz de navegar por la pantalla de tu teléfono inteligente.
featured image - Investigadores de Microsoft afirman que un nuevo modelo de inteligencia artificial puede "ver" la pantalla de su teléfono
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autores:

(1) An Yan, UC San Diego, ayan@ucsd.edu;

(2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com con contribuciones iguales;

(3) Wanrong Zhu, UC Santa Bárbara, wanrongzhu@ucsb.edu;

(4) Kevin Lin, Microsoft Corporation, keli@microsoft.com;

(5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;

(6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;

(7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;

(8) Yiwu Zhong, Universidad de Wisconsin-Madison, yzhong52@wisc.edu;

(9) Julian McAuley, Universidad de California en San Diego, jmcauley@ucsd.edu;

(10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;

(11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;

(12) Lijuan Wang, Microsoft Corporation, lijuanw@mocrosoft.com.


Nota del editor: Esta es la primera parte de un artículo que evalúa el uso de una IA generativa para navegar en teléfonos inteligentes. Puede leer el resto del artículo a través de la tabla de enlaces que aparece a continuación.

Tabla de enlaces


Abstracto

Presentamos MM-Navigator, un agente basado en GPT-4V para la tarea de navegación de interfaz gráfica de usuario (GUI) de teléfonos inteligentes. MM-Navigator puede interactuar con una pantalla de teléfono inteligente como usuarios humanos y determinar acciones posteriores para cumplir con las instrucciones dadas. Nuestros hallazgos demuestran que los modelos multimodales grandes (LMM), específicamente GPT-4V, se destacan en la navegación GUI de disparo cero a través de su interpretación avanzada de pantalla, razonamiento de acciones y capacidades precisas de localización de acciones. Primero, evaluamos MM-Navigator en nuestro conjunto de datos de pantalla de iOS recopilados. Según las evaluaciones humanas, el sistema exhibió una tasa de precisión del 91% en la generación de descripciones de acciones razonables y una tasa de precisión del 75% en la ejecución de las acciones correctas para instrucciones de un solo paso en iOS. Además, evaluamos el modelo en un subconjunto de un conjunto de datos de navegación de pantalla de Android, donde el modelo supera a los navegadores GUI anteriores en un modo de disparo cero. Nuestro análisis comparativo y detallado tiene como objetivo sentar una base sólida para futuras investigaciones sobre la tarea de navegación GUI. La página del proyecto está en https://github.com/zzxslp/MM-Navigator.

1 Introducción

La creación de agentes autónomos capaces de interactuar con dispositivos informáticos y seguir órdenes humanas ha sido un tema de larga data en la comunidad de aprendizaje automático (Bolt, 1980; Lieberman et al., 1995). Desde la llegada de los teléfonos inteligentes, ha habido una demanda práctica de crear asistentes virtuales, como Siri, Cortana y Google Assistant, que tienen el potencial de mejorar significativamente la experiencia del usuario y ayudar a las personas con discapacidades físicas o situacionales. Lo ideal sería que estos asistentes llevaran a cabo de manera competente las tareas cotidianas basadas en instrucciones en lenguaje natural, que van desde acciones simples como configurar un temporizador hasta tareas más complejas como encontrar el hotel ideal para unas vacaciones familiares.


Estudios recientes han comenzado a explorar el control de dispositivos móviles y la automatización de tareas de teléfonos inteligentes siguiendo instrucciones humanas (Rawles et al., 2023; Wen et al., 2023; Zhan y Zhang, 2023; Wang et al., 2023). Los enfoques representativos incluyen la descripción de imágenes de pantalla con texto y el procesamiento de texto convertido con modelos de lenguaje grandes (LLM) (Rawles et al., 2023; Wen et al., 2023), o el entrenamiento de un modelo de visión-lenguaje para generar acciones de manera supervisada (Rawles et al., 2023; Zhan y Zhang, 2023). Sin embargo, estos modelos supervisados, cuando se entrenan en tipos específicos de pantallas e instrucciones (Rawles et al., 2023), exhiben una efectividad limitada en la generalización a escenarios del mundo real. Por otro lado, los enfoques basados en LLM generalizan mejor, pero el paso intermedio de convertir imágenes de pantalla a texto da como resultado una pérdida de información y, en consecuencia, perjudica el rendimiento. Inspirados por la eficacia y amplia aplicabilidad de los recientes modelos multimodales grandes (LMM), exploramos el uso de un LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c), para la navegación GUI de teléfonos inteligentes con disparo cero, con el objetivo de establecer una nueva y sólida base para esta intrigante tarea.


Identificamos dos desafíos principales para la navegación GUI con LMM, a saber, la descripción de la acción prevista y la ejecución de la acción localizada. En primer lugar, el modelo debe comprender la imagen de la pantalla y la entrada de la instrucción de texto, y razonar sobre la consulta para determinar la acción adecuada a tomar, como proporcionar una descripción en lenguaje natural "haciendo clic en el icono de Amazon en la tercera fila y la cuarta columna". En segundo lugar, el modelo debe convertir esa comprensión de alto nivel en una acción formateada que se pueda ejecutar fácilmente en función de reglas, como "{Acción: Clic, Ubicación: (0.31, 0.57)}". En nuestro enfoque, solicitamos a GPT-4V una imagen y un texto para la planificación de la acción, y colocamos etiquetas de conjunto de marcas (Yang et al., 2023b) para anclar los resultados generados. Específicamente, asociamos estas marcas con ubicaciones espaciales con la ayuda de modelos de segmentación o OCR. Con este fin, nuestro sistema basado en GPT-4V propuesto, a saber, MM-Navigator, puede generar acciones ejecutables condicionadas a la imagen de la pantalla, la instrucción de texto y su historial de interacción.


Evaluamos MM-Navigator en dos conjuntos de datos. Comenzamos con un conjunto de datos de navegación GUI de iOS con capturas de pantalla e instrucciones de usuario que recopilamos manualmente. Este conjunto de datos analíticos limpios está diseñado para investigar los dos desafíos en la navegación GUI: descripción de la acción prevista y ejecución de la acción localizada. Se utilizan evaluaciones humanas para evaluar GPT-4V en estas dos tareas, con tasas de precisión del 91% y 75%, respectivamente. Además, evaluamos el modelo en un subconjunto aleatorio del benchmark de navegación de Android publicado recientemente (Rawles et al., 2023). Seguimos el protocolo de evaluación propuesto en el benchmark, junto con evaluaciones humanas adicionales. El sólido desempeño demuestra que MM-Navigator es un navegador GUI eficaz para teléfonos inteligentes, que supera significativamente los enfoques anteriores basados en LLM. Brindamos análisis en profundidad de los casos representativos de éxito y fracaso. Observamos que el estado actual de GPT-4V puede ser eficaz para ayudar a los humanos en diversos escenarios de navegación GUI del mundo real, como lo evidencian los resultados de múltiples pantallas en la Figura 4. Sin embargo, las mejoras continuas siguen siendo esenciales para aumentar aún más la confiabilidad del sistema, como lo revelan nuestros análisis.


Nuestras contribuciones se resumen de la siguiente manera:


• Presentamos MM-Navigator, un sistema de agente basado en GPT-4V para la navegación con interfaz gráfica de usuario de teléfonos inteligentes. MM-Navigator incorpora de manera eficaz historiales de acciones y etiquetas de conjunto de marcas para producir acciones ejecutables precisas.


• Recopilamos un nuevo conjunto de datos analíticos con diversas pantallas de iOS e instrucciones de usuario, que evalúa dos desafíos principales en la navegación GUI con LMM: descripción de la acción prevista y ejecución de la acción localizada.


• Realizamos evaluaciones exhaustivas, tanto automáticas como humanas, en dos conjuntos de datos y brindamos análisis detallados. Los impresionantes resultados demuestran la eficacia de MMNavigator para la navegación GUI.


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.