Сюрприз от Meta в субботу и последние шаги OpenAI
Meta Представляет Llama 4: Новое Поколение Моделей Искусственного Интеллекта
Компания Meta недавно анонсировала выпуск своей новой линейки моделей искусственного интеллекта, известной как Llama 4. Это событие标志ует начало новой эры в экосистеме Llama, предлагая значительные улучшения и инновации в области multimodalных моделей.
Модели Llama 4
В новой линейке представлены три модели: Llama 4 Scout, Llama 4 Maverick и Llama 4 Behemoth.
Llama 4 Scout
Llama 4 Scout является компактной, но мощной моделью с 17 миллиардами активных параметров и 16 экспертами. Она может работать на единственной GPU H100 и отличается рекордным контекстным окном в 10 миллионов токенов, что позволяет ей обрабатывать большие документы, суммарные пользовательские данные и обширные кодовые базы[2][4][5].
Llama 4 Maverick
Llama 4 Maverick представляет собой более крупную модель с 17 миллиардами активных параметров и 128 экспертами. Она предназначена для распределенной работы на нескольких компьютерах и отличается высокой эффективностью по стоимости на миллион входных и выходных токенов. Maverick показывает лучшие результаты в задачах, таких как творческое письмо, кодирование, рассуждения, многоязычные задачи и анализ изображений, превосходя модели GPT-4o и Gemini 2.0 в ряде бенчмарков[2][4][5].
Llama 4 Behemoth
Llama 4 Behemoth, которая еще находится в стадии обучения, будет одной из самых мощных моделей в мире с nearly два триллиона параметров и 16 экспертами. Она была использована в качестве учителя для моделей Scout и Maverick и показывает лучшие результаты по сравнению с GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro в STEM-ориентированных бенчмарках[1][2][5].
Архитектура и Обучение
Модели Llama 4 построены на основе архитектуры mixture-of-experts (MoE), которая повышает вычислительную эффективность за счет делегирования задач специализированным экспертам. Это позволяет активировать только необходимые эксперты для конкретных задач, сокращая затраты и повышая скорость обработки[2][4][5].
Модели были обучены на больших наборах данных, включающих более 30 триллионов токенов, что в два раза больше, чем у предыдущей версии Llama 3. Обучение проводилось на 200 языках, включая более 100 языков с более чем 1 миллиардом токенов каждый. Использованиеearly fusion позволило совместно обучать модели на текстовых, изображениях и видеоданных, что существенно улучшило их multimodalные способности[1][2][4].
Технические Инновации
Llama 4 модели отличаются несколькими ключевыми инновациями:
- МетаП (MetaP): Новый метод обучения, позволяющий надежно устанавливать критические гиперпараметры модели, такие как скорости обучения и масштабы инициализации. Это позволяет хорошо переносить гиперпараметры на разные значения пакетного размера, ширины и глубины модели, а также количество обучающих токенов[1].
- FP8 Precision: Обучение моделей с использованием FP8 точности без ущерба для качества и обеспечения высокого использования FLOPs. Это позволило достигнуть 390 TFLOPs/GPU при обучении модели Llama 4 Behemoth[1].
Применение и Доступность
Модели Llama 4 Scout и Maverick уже доступны на сайте Llama.com и через платформу Hugging Face. Однако, из-за регуляторных требований, использование и распространение этих моделей запрещено для физических и юридических лиц, базирующихся в ЕС. Кроме того, компании с более чем 700 миллионами активных пользователей в месяц должны получить специальную лицензию от Meta[2][4].
Социально-Политическая Балансировка
Meta заявила, что модели Llama 4 настроены на более сбалансированный ответ на спорные политические и социальные вопросы. Llama 4 отказывается отвечать на такие вопросы менее чем в 2% случаев, по сравнению с 7% для предыдущей версии Llama 3.3. Это делает модель более нейтральной и способной к пониманию и артикуляции различных точек зрения[2][4].
Новые модели Llama 4 открывают широкие возможности для построения персонализированных multimodalных опытов, снижая затраты на развертывание искусственного интеллекта для бизнеса и обеспечивая высокую эффективность и качество обработки данных.
Share this content:



Отправить комментарий