Microsoft впустую тратит сотни миллионов долларов на GPT-4. Его конкурента построили и обучили за копейки, и он ничем не хуже
Китайская компания построила и обучила полноценного конкурента языковой модели GPT-4 всего за $3 млн. Open AI, спонсируемая Microsoft, вложила в GPT-4 более чем в 30 раз больше. Также китайцы сэкономили на видеокартах – создать достойную современную лингвистическую модель они смогли при помощи всего 2000 ускорителей.
Меньше ресурсов, больше эффективность
Китайская компания 01.ai создала полноценный аналог языковой модели GPT4 под названием Yi-Lightning, потратив на нее всего около $3 млн и задействовав массив лишь из 2000 видеокарт, пишет портал Tom’s Hardware. На обучение оригинальной GPT4 ушло, по разным оценкам, от $80 млн до $100 млн – часть этих средств принадлежит Microsoft, так как она является одним из основных инвесторов создавшей GPT4 компании OpenAI.
Как пишет Tom’s Hardware, компания 01.ai поставила свой рекорд, в том числе, потому, что Китай в настоящее время почти полностью отрезан от западных технологий в области искусственного интеллекта. В частности, в эту страну с большим трудом попадают ускорители Nvidia и AMD – это лидеры рынка, и эти компании обе американские, они вынуждены подчиняться властям своей страны в вопросах торговых ограничений.
Основатель 01.ai Кай-Фу Ли (Kai-Fu Lee) заявил, что компании из «Кремниевой долины» будут шокированы, узнав о достижениях его компании. «По слухам, GPT-5 обучили за $1 млрд. Мы верим в закон масштабирования, но когда вы делаете превосходное детальное проектирование, он уже не действует. Как китайская компания мы имеем ограниченный доступ к графическим процессорам из-за правил США», – сказал основатель 01.ai.
Возможный мировой прорыв
По оценке экспертов Tom’s Hardware, достижение 01.ai особенно примечательно из-за впечатляющей экономической эффективности компании. Резкая разница в сравнении с затратами на обучение GPT4 доказывает, что достижение возможностей ИИ высшего уровня не всегда требует огромных бюджетов, поскольку тщательное проектирование и целевая оптимизация могут дать схожие результаты за малую часть стоимости и вычислительных ресурсов.
По предварительным подсчетам, OpenAI использовала 10 тыс. графических процессоров Nvidia A100 для обучения своей модели GPT-3 и еще больше процессоров Nvidia H100 для обучения своих моделей GPT-4 и GPT-4o. К обоим этим ускорителям у Китая доступа официально нет – Nvidia пришлось создать упрощенные и менее производительные их аналоги, чтобы обойти экспортные ограничения властей США и наладить их продажи в Китай.
Возможно, обошлось без Nvidia
Какие именно ускорители использовала 01.ai для обучения своей языковой модели, компания тщательно скрывает. Но она подчеркивает, что было задействовано именно 2000 устройств, что в разы меньше по сравнению с масштабами Open AI.
Не исключено, что 01.ai пришлось считаться с санкциями и отказаться от использования топовых ускорителей Nvidia. На это указывает и сумма, про которую говорил Кай-Фу Ли. Один ускоритель Н100 стоит в пределах $30 тыс., так что если бы применялись именно они, то затраты 01.ai на обучение своей сети составили бы не $2 млн, а втрое больше.
С другой стороны, Кай-Фу Ли заявил, что его компания успела закупить ускорители Nvidia с большим запасом (хотя конкретные модели он не раскрыл). Таким образом, что-то в его словах может оказаться ложью – или размер вложений, или то, что у 01.ai есть запас ускорителей.
Никаких секретов
Кай-Фу Ли сообщил также, какие именно его компания предприняла, чтобы добиться озвученного им результата. Как пишет Tom’s Hardware, для повышения производительности своей модели 01.ai 2сосредоточилась на сокращении узких мест в своем процессе вывода, построила многослойную систему кэширования и разработала отдельный механизм вывода для оптимизации скорости и распределения ресурсов» (reducing the bottlenecks in its inference process by turning computational demands into memory-oriented tasks, building a multi-layer caching system, and designing a specialized inference engine to optimize speed and resource allocation).
Результатом этого стало ощутимое снижение расходов на вывод в сравнении аналогичными языковыми моделями – до уровня $0,1 за 1 млн токенов. На фоне конкурирующих моделей это примерно в 30 раз меньше.
«Когда у нас всего 2000 графических процессоров, команда должна определиться, как их можно использовать, – сказал Кай-Фу Ли. – Я, как генеральный директор, должен выяснить, как расставить приоритеты, и тогда нам придется не только ускорить обучение, но и быстро сделать вывод. Таким образом, наш вывод разрабатывается путем выявления узких мест во всем процессе, пытаясь превратить вычислительную проблему в проблему памяти, создавая многослойный кэш, создавая определенный механаизм вывода и т. д. Но в конечном итоге стоимость нашего вывода составляет $0,1 за 1 млн токенов».