В октябре 2024 года компания xAI Илона Маска, запустила самый большой вычислительный кластер в мире для обучения искусственного интеллекта. Суперкомпьютер Colossus AI получил 100 тысяч графических процессоров Nvidia и был развернут в рекордные сроки — за 122 дня.
И теперь мы впервые можно оказаться внутри этого вычислительного завода и посмотреть, как там все организовано, благодаря видеоролику на канале ServeTheHome.
xAI Colossus AI
В обзоре показали внутренне устройство огромного дата-центра, рассказали об охлаждении, организации сети и внешнего питания.
xAI Colossus построен на серверных системах Nvidia HGX H100, каждая из которых содержит восемь ускорителей Nvidia H100. В одну стойку установлено по восемь таких систем, что дает 64 GPU на одну стойку.
Каждая система Nvidia HGX H100 оснащена системой жидкостного охлаждения графических процессоров от Supermicro, которая предусматривает простую горячую замену охлаждения для любого GPU. Коллекторы зажаты между серверными стойками. А внизу стойки расположен блок Supermicro 4U с резервной насосной системой и системой мониторинга стойки. Стойки объединены в массивы по восемь штук, что дает 512 GPU на массив. Каждый такой массив имеет свой большой коллектор с системой распределения жидкости, четыре резервных источника питания и сетевые коммутаторы. Всего суперкомпьютер Colossus насчитывает 200 массивов и более 1500 стоек.
xAI Colossus AI
Столь мощная вычислительная система требует высокой производительной сетевой инфраструктуры, которая организована на базе Ethernet. Каждый графический процессор имеет свой выделенный сетевой контроллер NIC 400GbE и дополнительный контроллер 400 Гбит/с на сервер. Получается, что один сервер может передавать данные с пропускной способностью 3,6 Тбит/с. Также в видео показаны сервера хранения данных производства Supermicro, но без подробностей относительно их устройства и характеристик.
Для бесперебойного питания центра дополнительно задействовано 14 дизельных генератора. Также на объекте есть крупные батареи Tesla Megapack, который являются энергетическим буфером между электросетью и суперкомпьютером.
Суперкомпьютер Colossus используется для обучения больших моделей ИИ, включая новую модель Grok 3. На этих мощностях будут обучаться и будущие модели ИИ. Сейчас Colossus находится на первом этапе запуска. Уже планируется расширение за счет дополнительных 100 тысяч GPU Hopper (50 тысяч H100 и 50 тысяч H200). И, вероятно, это не последняя стадия расширения.
В декабре 2024 года Американская федеральная корпорация TVA (Tennessee Valley Authority) одобрила выделение суперкомпьютеру Colossus компании xAI Илона Маска мощности в 150 МВт, что позволило запустить объект почти в полную силу.
Вычислительный кластер для систем искусственного интеллекта xAI Colossus сможет запустить почти все свои 100 000 ускорителей Nvidia — ранее число работающих компонентов ограничивалось доступной для предприятия мощностью.
Огромный запрос объекта на электричество вызывал обеспокоенность у местных заинтересованных сторон относительно воздействия на энергосистему всего региона.
Компания Илона Маска xAI впервые запустила суперкомпьютер в июле 2024 года, и уже тогда ему требовалось значительно больше энергии, чем было доступно — первоначально было выделено лишь 8 МВт. Команда Маска попыталась восполнить пробел, используя собственные источники питания, и ещё до конца лета местная ресурсоснабжающая компания Memphis Light, Gas & Water (MLGW) модернизировала действующую подстанцию, чтобы обеспечить объекту 50 МВт, но и этого было мало.
Для одновременного запуска всех 100 000 ИИ-ускорителей требуется примерно 155 МВт мощности, то есть с выделенной властями квотой его потребности будут почти удовлетворены.
MLGW и TVA провели работу с местными жителями и заверили их, что возросший уровень энергопотребления со стороны объекта xAI не окажет отрицательного влияния на надёжность электроснабжения в районе Мемфиса.
Гендиректор MLGW Дуг Макгоуэн (Doug McGowen) отметил, что при новой квоте мощность остаётся в пределах прогнозируемой пиковой нагрузки компании, и в случае необходимости у TVA будет закуплена дополнительная мощность.
Чтобы удовлетворить возросшие с развитием отрасли ИИ потребности в электроэнергии, крупные технологические компании, включая Amazon, Google, Microsoft и Oracle, начали вкладываться в альтернативные источники, в том числе в ядерную энергетику, но она сможет быть развернута не менее чем через пять лет.
До этого времени потребителям придётся использовать для питания центров обработки данных существующую инфраструктуру, что вызывает опасения по поводу её способности справляться с растущим спросом.
Компанию xAI Маска обвиняют в незаконной установке газовых турбин в Мемфисе, загрязняющих воздух. Огромный суперкомпьютер компании xAI Илона Маска, расположенный в Мемфисе, штат Теннесси, оказался в центре скандала. Эксперты нашли десятки незарегистрированных газовых турбин, загрязняющих воздух.
Сообщается, что компания Маска скрытно установила 35 метановых турбин для питания своего суперкомпьютера, хотя ранее подавала заявку только на 15-ти.
Мэр Мемфиса Пол Янг, который давно поддерживает деятельность xAI в городе, утверждает, что компания не использует все газовые генераторы, но спутниковые снимки опровергают его слова, сообщает Interesting Engineering.
Суперкомпьютер xAI под названием Colossus используется для обучения больших моделей ИИ, включая новую модель Grok 3, и размещается в здании размером с 13 футбольных полей. Маск уже объявил о планах удвоить размер объекта.
Хотя компания уже получает 150 МВт от местной электросети (этого хватило бы на 100 тысяч домохозяйств), для стабильной работы ей пришлось подключить газовые турбины. Причиной стали перебои с напряжением.
Но вместо того, чтобы искать официальные пути решения проблемы, xAI воспользовалась юридической лазейкой: местный закон допускает временное использование генераторов без получения разрешения, если они не работают более 364 дней подряд.
Экологические организации бьют тревогу: рядом с xAI расположены жилые кварталы, жители которых давно борются с промышленным загрязнением. В данных районах зафиксированы повышенные показатели заболеваемости раком и астмой, а средняя продолжительность жизни заметно ниже по сравнению с другими районами города. Департамент здравоохранения Шелби, Агентство по охране окружающей среды и xAI отказались от комментариев, но давление экологических активистов и юридические риски могут заставить компанию пересмотреть подход.