Раскрытие цифровых архивов: междисциплинарный подход к проблеме искусственного интеллекта и изначально цифровых данных

Лиз Джайан, Анналина Капуто, Мария Владимировна Федотова


Авторы статьи, специалисты в области вычислительной техники (Анналина Капуто) и цифровых гуманитарных наук (Лиз Джайан), рассматривают актуальные в эпоху цифровых технологий проблемы учреждений, хранящих предметы культурного наследия, а именно закрытие подавляющего большинства архивных коллекций, содержащих изначально цифровые материалы. Особое внимание уделяется учреждениям культуры — библиотекам, музеям и архивам, к которым обращаются историки, литературоведы и другие ученые-гуманитарии. Доступ к большинству изначально цифровых документальных сведений, хранящихся в культурных организациях, закрыт в силу требований соблюдения конфиденциальности и авторских прав, а также по причине коммерческих и технических проблем. Даже в тех случаях, когда изначально цифровые данные являются общедоступными (например, веб-архивы), возможность ознакомиться с веб-страницами предоставляется пользователям лишь при условии личного присутствия в помещении учреждения, например Британской библиотеки или Национальной библиотеки Франции. Однако наличие достаточного объема выборочных данных для изучения и обучения моделей позволяет использовать технологии искусственного интеллекта и, в частности, алгоритмы машинного обучения для улучшения и упрощения доступа к цифровым архивам, научив машины выполнять комплексные человеческие задачи. Они варьируются от обеспечения интеллектуальной поддержки в поиске по архивам до автоматизации утомительных и трудоемких операций. В данной работе обсуждается возможность проверки информации на конфиденциальность как практическое решение, позволяющее учреждениям разблокировать цифровые архивы и предоставить доступ к информации, не являющейся конфиденциальной. Однако перспектива сделать архивы более доступными содержит потенциальные опасности, а именно: неизбежные ошибки, подходы по принципу «черного ящика», использующие непонятные алгоритмы, риски, связанные с предвзятой, неверной или неполной подачей информации. Основной вывод авторов статьи заключается в том, что реализация потенциала искусственного интеллекта может сделать цифровые коллекции архивных материалов более доступными, создавая при этом новые проблемы, особенно с точки зрения этики. В заключительной части работы авторы указывают на важность приверженности принципам справедливости, подотчетности и прозрачности в процессе расширения доступности цифровых архивов.

Ключевые слова

архивы изначально цифровых материалов;искусственный интеллект;конфиденциальность;авторское право;проверка на конфиденциальность;этика

Полный текст:



