Xiaomi выложила в открытый доступ нейросеть для автомобилей и умного дома
Разработчики Xiaomi представили голосовую ИИ-модель MiDashengLM-7B с открытым исходным кодом, которая усилит функциональность ее электромобилей и бытовых устройств. В августе 2025 г. уже доступны коды, демо и веса модели для дальнейшего использования и изучения. Модель с искусственным интеллектом демонстрирует высокую точность, установив новые рекорды в 22 тестах для мультимодальных моделей и превзойдя Whisper в задачах, не связанных с распознаванием речи.
Открыт доступ к модели
Разработчики Xiaomi выпустили голосовую модель с технологией искусственного интеллекта (ИИ) MiDashengLM-7B в открытый доступ, пишет Bloomberg. ИИ-модель дополнит технологии Xiaomi в сферах автомобилей и бытовой техники, этот ИТ-компонент является ключевым элементом стратегии компании по созданию полноценной экосистемы людей, автомобилей и домов.
Разработка направлена на усиление технологических решений Xiaomi в сфере автомобильной электроники и бытовой техники, демонстрируя амбиции китайского производителя выйти за пределы текстовых ИТ-инструментов и расширить возможности своих ИИ-продуктов.
На практике это означает, что голосовой помощник может управлять не только устройствами в доме, но и автомобилем или другими гаджетами бренда. Голосовой помощник Xiaomi, XiaoAI, распознает отдельных пассажиров и может работать без активирующих слов. Эта экосистемная стратегия напоминает подход Apple, но с большим акцентом на открытость. Модель поддерживает более 50 языков, включая хинглиш — смесь хинди и английского, популярную в Индии.
Открытое программное обеспечение (ПО) — софт с открытым исходным кодом. Исходный код таких программ доступен для просмотра, изучения и изменения, что позволяет убедиться в отсутствии ИТ-уязвимостей и неприемлемых для пользователя функций (к примеру, скрытого слежения за пользователем программы), принять участие в доработке самой открытой программы, использовать код для создания новых программ и исправления в них ошибок — через заимствование исходного кода, если это позволяет совместимость лицензий, или через изучение использованных алгоритмов, структур данных, технологий, методик и интерфейсов.
Запуск модели подчеркивает стратегию Xiaomi по диверсификации бизнеса в 2025 г., ведь руководство компании активно ищет новые источники роста за пределами рынка смартфонов. Электромобили становятся одним из приоритетных направлений, а инвестиции в ИИ-технологии — ключевым фокусом для всей технологической индустрии Китая.
Функционал MiDashengLM
MiDashengLM способна к кросс-доменному анализу, объединяя распознавание голоса, окружающих звуков и музыки. ИИ-модель не только идентифицирует события вокруг пользователя, но и интерпретирует их скрытый смысл, повышая точность понимания контекста.
Модель взаимодействует с пользователями на естественном языке, обеспечивая более человечное общение. Среди ее функций — обратная связь по произношению, разработка персонализированных планов обучения для пения или изучения языков, а также ответы на вопросы о звуках окружающей среды во время вождения.
MiDashengLM разработана на основе аудиокодера Xiaomi Dasheng и декодера Qwen2.5-Omni-7B Thinker, обеспечивает универсальное обучение для распознавания речи, звуков и музыки. Все обучающие данные, а это примерно 1,1 млн часов, взяты из открытых источников и доступны по лицензии Apache License 2.0.
ИИ-модель показывает высокую точность, как уверяют разработчики, устанавливая новые рекорды в 22 тестах для мультимодальных моделей и превосходя Whisper в задачах, не связанных с распознаванием речи. Эффективность MiDashengLM также впечатляет, ведь время отклика (TTFT) в четыре раза быстрее аналогов, а пропускная способность — в 20 раз выше, что делает ее идеальной в августе 2025 г. для применения в реальном времени.
Со слов разработчиков Xiaomi, сама архитектура ИИ-модели построена на семантическом картировании, что позволяет анализировать эмоции и пространственные особенности звука. Это существенно расширяет ее применение в таких областях, как анализ аудиозаписей, создание интерактивных звуковых сред и разработка ИТ-систем для эмоциональной и пространственной интерпретации аудио.
Будущие за открытыми моделями
Успех MiDashengLM-7B может знаменовать новую эру в развитии ИИ. Как отмечают эксперты Red Hat в своем отчете об открытом исходном коде ИИ, открытые модели гораздо более эффективны в создании, обучении и внедрении в 2025 г. Такие проекты, как InstructLab, позволяют людям без специальных навыков активно и эффективно участвовать в обучении и настройке ИИ-моделей.
Китайские компании все чаще делают ставку на открытость как на конкурентную стратегию. В отличие от американских технологических гигантов, которые обычно не публикуют веса своих ведущих моделей (OpenAI, Anthropic, Google), ведущие китайские ИИ-лаборатории часто предоставляют веса своих флагманских моделей. Это может иметь решающее значение для будущего отрасли.
Программисты Xiaomi уже доказали, что могут создать ИИ-модель, не уступающую западным гигантам, не имея также огромных бюджетов на ИИ-исследования и ИТ-разработку. MiDashengLM-7B — это не только технологическое достижение, но и сигнал о том, что монополия нескольких крупных ИТ-компаний на ИИ может резко закончиться.