Ребята, в составе команды «Ну, что ж…», внесли свои изменения в уже существующую открытую нейронную сеть. В результате появился мультимодальный ассистент для банковского сектора, который призван помогать людям находить подходящую одежду и составлять модные образы.
В ходе проекта участникам требовалось расширить возможности ассистента, чтобы он мог обрабатывать не только текстовые запросы, но и принимать на вход фотографии. Это позволило шоппинг-ассистенту возможность искать одежду по фотографии человека и подбирать аксессуары, которые гармонично дополнят образ.
Старшеклассники работали с визуально-языковыми моделями (VLM). Они собрали собственный бенчмарк для оценки моделей в контексте шоппинга, протестировали несколько вариантов и выбрали лучшую модель. Это только начало пути. Впереди у команды много работы: предстоит интегрировать проект и масштабировать его.