Все статьи
ArXiv · Перевод

BAMI: Метод снижения смещения в грунтовании GUI без обучения

Авторы оригиналаBorui Zhang, Bo Zhang, Bo Wang, Wenzhao Zheng, Yuhao Cheng, Liang Tang, Yiqiang Yan, Jie Zhou, Jiwen Lu
ПереводKENDEV AI
Дата2026-05-08
Теги
грунтование GUIснижение смещенияметод BAMIточность моделейавтоматизация интерфейсов
## Перевод abstract Грунтование графического пользовательского интерфейса (GUI) является критически важной способностью для того, чтобы агенты GUI могли выполнять такие задачи, как нажатие и перетаскивание. Однако в сложных сценариях, таких как бенчмарк ScreenSpot-Pro, существующие модели часто демонстрируют субоптимальную производительность. Используя предложенный метод атрибуции \textbf{Masked Prediction Distribution (MPD)}, мы выявили, что основные источники ошибок имеют два аспекта: высокая разрешающая способность изображения (что приводит к смещению точности) и сложные элементы интерфейса (что вызывает смещение неоднозначности). Для решения этих проблем мы представляем \textbf{Bias-Aware Manipulation Inference (BAMI)}, который включает две ключевые манипуляции: грубую и тонкую фокусировку и выбор кандидатов, чтобы эффективно смягчить эти смещения. Наши обширные экспериментальные результаты демонстрируют, что BAMI значительно повышает точность различных моделей грунтования GUI в условиях без обучения. Например, применение нашего метода к модели TianXi-Action-7B увеличивает ее точность на бенчмарке ScreenSpot-Pro с 51.9\% до 57.8\%. Более того, абляционные исследования подтверждают надежность подхода BAMI в различных конфигурациях параметров, подчеркивая его стабильность и эффективность. Код доступен по адресу https://github.com/Neur-IO/BAMI. ## Ключевые выводы 1. Основные источники ошибок в моделях грунтования GUI связаны с высокой разрешающей способностью изображений и сложными элементами интерфейса. 2. Метод BAMI включает в себя две манипуляции: грубую и тонкую фокусировку, а также выбор кандидатов для снижения смещений. 3. Применение BAMI существенно увеличивает точность моделей, например, улучшение с 51.9% до 57.8% для модели TianXi-Action-7B на бенчмарке ScreenSpot-Pro. 4. Подтверждение устойчивости метода BAMI через абляционные исследования в различных конфигурациях параметров. ## Практическая значимость Разработка метода BAMI может быть полезна для создания более точных и эффективных агентов GUI, которые могут выполнять сложные задачи в реальных приложениях, таких как автоматизация пользовательских интерфейсов, тестирование программного обеспечения и системы управления. Это может значительно улучшить взаимодействие пользователей с программным обеспечением, снизив количество ошибок и повысив общую производительность. ## Ограничения и критика Несмотря на достижения, работа не учитывает возможные сценарии с динамическими изменениями интерфейса, что может повлиять на эффективность предложенного метода. Также не рассмотрены ограничения, связанные с использованием BAMI в реальных условиях, таких как разнообразие пользовательских интерфейсов и их адаптивность. Более того, неясно, как метод будет работать с другими архитектурами моделей, что может ограничить его универсальность.