Компания Amazon Web Services (AWS) объявила, что её новейший специализированный чип искусственного интеллекта Trainium2 теперь доступен через два новых облачных сервиса для обучения и развёртывания крупных моделей искусственного интеллекта, сообщила компания.
На конференции AWS re:Invent в Лас-Вегасе компания AWS заявила, что её новые экземпляры Amazon Elastic Compute Cloud (EC2) Trn2, оснащенные 16 чипами Trainium2, обеспечивают пиковую производительность вычислений 20,8 петафлопс, что делает их идеальными для обучения и развёртывания больших языковых моделей (LLM) с миллиардами параметров.
AWS также представила новое предложение EC2 — EC2 Trn2 UltraServers, которое включает в себя 64 взаимосвязанных чипа Trainium2 и масштабируется до пиковой мощности вычислений 83,2 петафлопс, что позволяет обучать и развёртывать крупнейшие в мире модели искусственного интеллекта, сообщила компания.
Поставщик гипермасштабного облака также сотрудничает с Anthropic, создателем Claude LLM, для создания кластера EC2 Trn2 UltraServers, который будет содержать сотни тысяч чипов Trainium2 — и позволит Anthropic создавать и развёртывать свои будущие модели. Проект, названный Project Rainier, предоставит Anthropic в пять раз больше экзафлопс, чем он использовал для обучения своих текущих моделей ИИ, сообщает AWS.
AWS сегодня также объявила о планах по созданию своего чипа искусственного интеллекта следующего поколения Trainium3 , который, как ожидается, будет в два раза производительнее и на 40% энергоэффективнее, чем Trainium2, сказал Гади Хатт, старший директор по продуктам и проектированию клиентов в Annapurna Labs AWS. 3-нанометровый Trainium3 будет доступен в конце 2025 года.
Аналитики высказывают своё мнение о Trainium2
Благодаря сегодняшним анонсам своих индивидуальных чипов AI, AWS расширяет свои предложения AI и предлагает новую недорогую альтернативу графическим процессорам Nvidia. Аналитики говорят, что у AWS есть потенциал привлечь клиентов к своим новым сервисам Trainium2, поскольку предприятия все чаще внедряют AI.
«Я думаю, это станет катализатором, который заставит клиентов рассматривать Trainium2 как альтернативу, особенно если они чувствительны к цене».
Аналитик Gartner Джим Хэр сказал, что некоторые рабочие нагрузки ИИ могут работать на ЦП. Многие рабочие нагрузки ИИ требуют графических процессоров от таких компаний, как Nvidia, которые поддерживает AWS. Но Trainium2, который обеспечивает лучшую производительность и более энергоэффективен, чем чип Trainium первого поколения от AWS, предоставляет клиентам AWS ещё один вариант из-за своих преимуществ в соотношении цены и производительности, сказал он.
Компания AWS, объявившая о планах по созданию Trainium2 год назад , заявила, что её новые экземпляры EC2 Trn2 на базе Trainium2 обеспечивают на 30–40 % лучшее соотношение цены и производительности, чем текущее поколение экземпляров EC2 на базе GPU.
«Клиенты, естественно, думают, что они перейдут на GPU для всего, что связано с ИИ, но по мере того, как клиенты переходят от экспериментов с ИИ, когда они думают: «Это здорово. Посмотрите, что я могу сделать с ИИ», к «Как мне развернуть это в больших масштабах и сделать это гораздо более экономически эффективным способом», все больше клиентов будут открыты для рассмотрения альтернатив», — сказал Хэр Data Center Knowledge.
«Trainium2 обеспечит лучшую ценовую производительность», — добавил Хэр. «Я думаю, это станет катализатором, который заставит клиентов рассматривать Trainium2 как альтернативу, особенно когда они чувствительны к цене».
Аналитик Мэтт Кимбалл из Moor Insights & Strategy сказал, что экземпляры Trn2, обеспечивающие 20,8 петафлопс пиковой производительности, ставят их в конкурентоспособное положение с графическими процессорами Nvidia и AMD. А способность Trn2 UltraServers обеспечивать более 80 петафлопс пиковой производительности делает их хорошим вариантом для обучения больших моделей, сказал он.
Кимбалл сказал, что для некоторых корпоративных организаций проект AWS с Anthropic подтвердит Trainium2 как жизнеспособную альтернативу для обучения ИИ. Некоторые предприятия, которые ранее игнорировали внутренний чип ИИ AWS, потому что он был не от Nvidia, могут присмотреться к нему повнимательнее, сказал он.
«Как бы глупо это ни звучало, многие корпоративные организации более консервативны в принятии новых технологий, поэтому такие замечательные чипы, как Trainium, остаются без внимания, потому что они не от компании, которую в прошлом году окрестили «крестным отцом ИИ», — сказал Кимбалл. «Это партнёрство говорит этим ИТ-организациям, что Trainium — как бренд и Trainium2 как чип — не только легитимны, но и поддерживают некоторые из самых требовательных потребностей ИИ в отрасли, поскольку Anthropic гонится за OpenAI».
Конкурентная среда в облаке и стратегия AWS в отношении чипов
AWS и её облачные конкуренты Google Cloud и Microsoft Azure сотрудничают с крупными производителями чипов Nvidia, AMD и Intel и предоставляют услуги на базе их процессоров. Но три облачных гиганта также считают выгодным и экономически эффективным создание собственных специализированных чипов.
Например, все три поставщика облачных услуг создали собственные внутренние процессоры для общих рабочих нагрузок и внутренние ускорители ИИ для обучения ИИ и услуг вывода.
Стратегия AWS в отношении чипов заключается в том, чтобы предоставить клиентам широкий выбор, сказал Хатт из AWS в интервью. AWS выпустила свой чип Trainium первого поколения для обучения ИИ в 2022 году и сделала доступным Inferentia2, свой чип вывода ИИ второго поколения, в 2023 году .
Помимо предложения новых сервисов EC2 на базе Trainium2, компания также предлагает несколько экземпляров EC2, поддерживающих графические процессоры Nvidia , и один экземпляр EC2, поддерживающий ускоритель Intel Gaudi.
Итог: клиенты Trainium2 получат высокую производительность и самые низкие затраты на свои рабочие нагрузки, сказал Хатт. Trainium2 предназначен для поддержки обучения и развёртывания передовых моделей LLM, мультимодальных и компьютерного зрения, добавил он.
«Мы все хотим предоставить клиентам выбор», — сказал Хатт. «Клиенты, у которых есть рабочие нагрузки, подходящие для графических процессоров, могут выбрать графические процессоры. Клиенты, которые хотят получить лучшее соотношение цены и производительности от своих чипов, выбирают Trainium/Inferentia».
Например, с Trainium2 скорость Claude Haiku 3.5 LLM от Anthropic увеличивается на 60% по сравнению с другими альтернативными чипами, сказал он.
AWS анонсирует новые инновации в инфраструктуре центров обработки данных
На конференции re:Invent в понедельник компания AWS также анонсировала новые усовершенствования инфраструктуры центра обработки данных в области электропитания, охлаждения и проектирования оборудования, которые позволят лучше поддерживать рабочие нагрузки ИИ, а также повысят отказоустойчивость и энергоэффективность.
AWS заявила, что новые усовершенствования центра обработки данных включают более эффективную систему охлаждения, которая включает установку жидкостного охлаждения и уменьшение количества вентиляторов, что приведет к снижению потребления механической энергии на 46%. AWS также заявила, что резервные генераторы смогут работать на возобновляемом дизельном топливе, что сократит выбросы парниковых газов.
Для поддержки высокоплотных рабочих нагрузок ИИ AWS заявила, что разработала инженерные инновации, которые позволят ей поддерживать шестикратное увеличение плотности мощности стойки в течение следующих двух лет. Это обеспечивается, в частности, новой полкой питания, которая эффективно распределяет питание центра обработки данных по всей стойке, согласно AWS.
Компания заявила, что новые серверы ИИ также получат преимущества от жидкостного охлаждения для более эффективного охлаждения чипов высокой плотности, таких как Trainium2, и суперкомпьютерных решений ИИ, таких как Nvidia GB200 NVL72.
«В прошлом мы использовали лишь очень небольшое количество (жидкостного охлаждения)», — рассказал Кевин Миллер, вице-президент AWS по глобальным центрам обработки данных, Data Center Knowledge. «Но сейчас мы находимся на этапе, когда начинаем быстро увеличивать объём развёртываемой нами мощности жидкостного охлаждения».
AWS также улучшила автоматизацию в своих системах управления для повышения отказоустойчивости. Системы управления, программное обеспечение, которое контролирует компоненты в каждом центре обработки данных, могут быстрее устранять неполадки, предотвращая простои или другие проблемы, сказал он.
«В некоторых случаях ручное устранение неполадок, на которое раньше уходили часы, теперь занимает всего две секунды, поскольку наше программное обеспечение автоматически просматривает все датчики, принимает решения и затем предпринимает корректирующие действия», — сказал Миллер.
Миллер сказал, что AWS уже установила эти новые инновации, которые AWS называет «компонентами центра обработки данных», в некоторых центрах обработки данных AWS. AWS продолжит устанавливать эти новые компоненты центра обработки данных в новых и существующих центрах обработки данных в будущем, сказал он.
Аналитик IDC Владимир Кроа отметил, что усовершенствования центров обработки данных AWS имеют большое значение, поскольку они обеспечивают отказоустойчивость, а также повышают эксплуатационную и энергетическую эффективность.
«Сильный — это не какой-то один компонент. Чтобы оказать реальное воздействие, нужна комбинация всех компонентов», — сказал Кроа.
Бессменный главный редактор, в незапамятные времена работал в издании РБК