|
Professor Seleznov
|
Норвежская Национальная библиотека разрабатывает большую языковую модель, которая понимает норвежский язык. Учреждение использует 2 ПБ флэш-памяти Huawei OceanStor Dorado в конвейере данных для обучения ИИ.
 Мариус Хуснес, руководитель IT-платформы библиотеки (Nasjonlbiblioteket), обсудил проект на форуме Huawei ID Forum 2026 в Париже, заявив, что ни один коммерческий поставщик LLM не разрабатывает модели на местном языке. Он утверждал, что любая страна со своим собственным языком, не имеющая суверенной LLM, обученной на этом языке, находится в невыгодном положении. Министерство культуры Норвегии поручило Национальной библиотеке создать суверенный ИИ, поскольку библиотека обладает крупнейшей в стране цифровой коллекцией норвежских книг, газет, веб-страниц и т. д. Как и многие государственные библиотеки, она имеет право получать копии каждой опубликованной книги и транслируемого контента. В этой области полномочия библиотеки по обязательному экземпляру распространяются не только на книги, поскольку она была обязана собирать и сохранять все культурное наследие Норвегии.
 Соглашение с норвежскими газетами позволило проводить обучение по программе LLM по контенту, защищённому авторским правом. Библиотека занималась оцифровкой своей коллекции с 2005 года и накопила 20 ПБ уникальных данных, хранящихся в формате 3-2-1 (3 копии, 2 типа носителей, 1 удалённое хранилище), что в общей сложности составляет около 60 ПБ. Процесс оцифровки исходного текста, звука, видео, статичных изображений и веб-контента включал в себя много сканирования с помощью OCR, генерировал много метаданных, а также API для онлайн-доступа. Основная часть данных была депонирована в цифровом архиве на дисках и лентах — системе сохранения. Задача Хуснеса заключалась в том, чтобы доставить эти данные в систему обучения LLM. Он сказал, что проблема заключалась не в вычислительных мощностях, а в качестве данных, их очистке и пропускной способности конвейера. Процесс обработки состоял из двух основных этапов. Сначала выполнялись собственные вычисления с использованием системы Nvidia DGX H200, кластера из 384 ядер ЦП и нескольких массивов флэш-памяти Huawei OceanStor Dorado общей емкостью 2 ПБ. Это хранилище с низкой задержкой для конвейеров обработки данных и подготовки обучающих данных. Конвейер включает этапы приема данных, очистки, дедупликации, нормализации формата, проверки и подготовки. После прохождения данных через конвейер они отправляются на национальный суперкомпьютер Норвегии, систему Sigma2 Olivia, для фактического выполнения обучающих запусков. Система Olivia — это система HPE Cray Supercomputing EX с 448 графическими процессорами и 64 512 ядрами ЦП. Она использует систему хранения Cray ClusterStor E1000 объёмом 5,3 ПБ. Одной из основных проблем стало удовлетворение двух различных потребностей в системах хранения данных. Система сохранения данных объёмом 60 ПБ оптимизирована для обеспечения долговечности и экономичности, а не для быстрой обработки ввода-вывода, и имеет высокую задержку чтения, поскольку предназначена для нечастого доступа. Система хранения данных AI Pipeline разработана для высокопроизводительной параллельной обработки данных с низкой задержкой. Хуснес узнал, что никто не говорил о проблемах, связанных с перемещением наборов данных размером в несколько петабайт из архива в систему обработки данных AI Pipeline и через неё. Его команде пришлось самой разбираться, как это сделать. Обучение по программе LLM продолжается. Пока команда учится:
- оценке — нет стандартных инструментов для суверенной норвежской программы LLM. Язык имеет две письменные формы, множество диалектов и исторические изменения. Исследователи создают свой собственный инструмент оценки на ходу;
- управлению — кто контролирует доступ к суверенной программе LLM и решает, для чего ее можно использовать;
- организации — созданию трёх систем, в том числе архива для сохранения, локальной среды ИИ и национального суперкомпьютера Sigma2.
Между тем в России в версию законопроекта о регулировании ИИ появился ряд заметных дополнений. Новая редакция предусматривает возможность обучения национальных и суверенных нейросетей на госданных, но только после согласования с ФСТЭК и ФСБ России. Документ также предусматривает ответственность для операторов и владельцев ИИ за обеспечение информационной безопасности моделей. Законопроект теперь также закрепляет статус ИИ как доверенного только в том случае, если модель внесена в соответствующий реестр.-Источник
|