Главная· Трекер· Новое· Поиск· Правила· FAQ· Группы

Норвежская библиотека представит LLM с использованием 2 ПБ флэш-памяти Huawei

Страницы: 1

Professor Seleznov

Норвежская Национальная библиотека разрабатывает большую языковую модель, которая понимает норвежский язык. Учреждение использует 2 ПБ флэш-памяти Huawei OceanStor Dorado в конвейере данных для обучения ИИ.

Мариус Хуснес, руководитель IT-платформы библиотеки (Nasjonlbiblioteket), обсудил проект на форуме Huawei ID Forum 2026 в Париже, заявив, что ни один коммерческий поставщик LLM не разрабатывает модели на местном языке. Он утверждал, что любая страна со своим собственным языком, не имеющая суверенной LLM, обученной на этом языке, находится в невыгодном положении.
Министерство культуры Норвегии поручило Национальной библиотеке создать суверенный ИИ, поскольку библиотека обладает крупнейшей в стране цифровой коллекцией норвежских книг, газет, веб-страниц и т. д. Как и многие государственные библиотеки, она имеет право получать копии каждой опубликованной книги и транслируемого контента. В этой области полномочия библиотеки по обязательному экземпляру распространяются не только на книги, поскольку она была обязана собирать и сохранять все культурное наследие Норвегии.

Соглашение с норвежскими газетами позволило проводить обучение по программе LLM по контенту, защищённому авторским правом.
Библиотека занималась оцифровкой своей коллекции с 2005 года и накопила 20 ПБ уникальных данных, хранящихся в формате 3-2-1 (3 копии, 2 типа носителей, 1 удалённое хранилище), что в общей сложности составляет около 60 ПБ. Процесс оцифровки исходного текста, звука, видео, статичных изображений и веб-контента включал в себя много сканирования с помощью OCR, генерировал много метаданных, а также API для онлайн-доступа.
Основная часть данных была депонирована в цифровом архиве на дисках и лентах — системе сохранения. Задача Хуснеса заключалась в том, чтобы доставить эти данные в систему обучения LLM. Он сказал, что проблема заключалась не в вычислительных мощностях, а в качестве данных, их очистке и пропускной способности конвейера.
Процесс обработки состоял из двух основных этапов. Сначала выполнялись собственные вычисления с использованием системы Nvidia DGX H200, кластера из 384 ядер ЦП и нескольких массивов флэш-памяти Huawei OceanStor Dorado общей емкостью 2 ПБ. Это хранилище с низкой задержкой для конвейеров обработки данных и подготовки обучающих данных. Конвейер включает этапы приема данных, очистки, дедупликации, нормализации формата, проверки и подготовки. После прохождения данных через конвейер они отправляются на национальный суперкомпьютер Норвегии, систему Sigma2 Olivia, для фактического выполнения обучающих запусков. Система Olivia — это система HPE Cray Supercomputing EX с 448 графическими процессорами и 64 512 ядрами ЦП. Она использует систему хранения Cray ClusterStor E1000 объёмом 5,3 ПБ.
Одной из основных проблем стало удовлетворение двух различных потребностей в системах хранения данных. Система сохранения данных объёмом 60 ПБ оптимизирована для обеспечения долговечности и экономичности, а не для быстрой обработки ввода-вывода, и имеет высокую задержку чтения, поскольку предназначена для нечастого доступа. Система хранения данных AI Pipeline разработана для высокопроизводительной параллельной обработки данных с низкой задержкой.
Хуснес узнал, что никто не говорил о проблемах, связанных с перемещением наборов данных размером в несколько петабайт из архива в систему обработки данных AI Pipeline и через неё. Его команде пришлось самой разбираться, как это сделать. Обучение по программе LLM продолжается.
Пока команда учится:

оценке — нет стандартных инструментов для суверенной норвежской программы LLM. Язык имеет две письменные формы, множество диалектов и исторические изменения. Исследователи создают свой собственный инструмент оценки на ходу;
управлению — кто контролирует доступ к суверенной программе LLM и решает, для чего ее можно использовать;
организации — созданию трёх систем, в том числе архива для сохранения, локальной среды ИИ и национального суперкомпьютера Sigma2.

Между тем в России в версию законопроекта о регулировании ИИ появился ряд заметных дополнений. Новая редакция предусматривает возможность обучения национальных и суверенных нейросетей на госданных, но только после согласования с ФСТЭК и ФСБ России. Документ также предусматривает ответственность для операторов и владельцев ИИ за обеспечение информационной безопасности моделей. Законопроект теперь также закрепляет статус ИИ как доверенного только в том случае, если модель внесена в соответствующий реестр.-Источник

Пользовательское Соглашение | Связь с администрацией

SysAdmin.Guru · Telegram-канал

Loading...

Error