Раскрытие цифровых архивов: междисциплинарный подход к проблеме искусственного интеллекта и изначально цифровых данных

Лиз Джайан, Анналина Капуто, Мария Владимировна Федотова

Аннотация


Авторы статьи, специалисты в области вычислительной техники (Анналина Капуто) и цифровых гуманитарных наук (Лиз Джайан), рассматривают актуальные в эпоху цифровых технологий проблемы учреждений, хранящих предметы культурного наследия, а именно закрытие подавляющего большинства архивных коллекций, содержащих изначально цифровые материалы. Особое внимание уделяется учреждениям культуры — библиотекам, музеям и архивам, к которым обращаются историки, литературоведы и другие ученые-гуманитарии. Доступ к большинству изначально цифровых документальных сведений, хранящихся в культурных организациях, закрыт в силу требований соблюдения конфиденциальности и авторских прав, а также по причине коммерческих и технических проблем. Даже в тех случаях, когда изначально цифровые данные являются общедоступными (например, веб-архивы), возможность ознакомиться с веб-страницами предоставляется пользователям лишь при условии личного присутствия в помещении учреждения, например Британской библиотеки или Национальной библиотеки Франции. Однако наличие достаточного объема выборочных данных для изучения и обучения моделей позволяет использовать технологии искусственного интеллекта и, в частности, алгоритмы машинного обучения для улучшения и упрощения доступа к цифровым архивам, научив машины выполнять комплексные человеческие задачи. Они варьируются от обеспечения интеллектуальной поддержки в поиске по архивам до автоматизации утомительных и трудоемких операций. В данной работе обсуждается возможность проверки информации на конфиденциальность как практическое решение, позволяющее учреждениям разблокировать цифровые архивы и предоставить доступ к информации, не являющейся конфиденциальной. Однако перспектива сделать архивы более доступными содержит потенциальные опасности, а именно: неизбежные ошибки, подходы по принципу «черного ящика», использующие непонятные алгоритмы, риски, связанные с предвзятой, неверной или неполной подачей информации. Основной вывод авторов статьи заключается в том, что реализация потенциала искусственного интеллекта может сделать цифровые коллекции архивных материалов более доступными, создавая при этом новые проблемы, особенно с точки зрения этики. В заключительной части работы авторы указывают на важность приверженности принципам справедливости, подотчетности и прозрачности в процессе расширения доступности цифровых архивов.

Ключевые слова


архивы изначально цифровых материалов;искусственный интеллект;конфиденциальность;авторское право;проверка на конфиденциальность;этика

Полный текст:

PDF

Литература


Dumont-Johnson M. Peut-on faire l’histoire de la femme? // Revue D’histoire De L’amérique Française. 1975. Vol. 29, № 3. P. 421—428.

Quinn P.M. The Archivist as Activist // Georgia Archive. 1977. Vol. 5, № 1. P. 25—35.

Mason K.M., Zanish-Belcher T. Raising the Archival Consciousness: How Women’s Archives Challenge Traditional Approaches to Collecting and Use, or, What’s in a Name? // Library Trends. 2007. Vol. 56. P. 344—359.

Zuboff S. The Age of Surveillance Capitalism: the Fight for a Human Future at the New Frontier of Power. New York : PublicAffairs, 2019.

Verborgh R. Getting My Personal Data Out of Facebook. 2019. URL: https://ruben.verborgh.org/facebook/ (дата обращения: 20.03.2023).

Rolan G., Humphries G., Jeffrey L. et al. More Human than Human? Artificial Intelligence in the Archive // Archives and Manuscripts. 2019. Vol. 47, № 2. P. 179—203.

Jaillant L. After the Digital Revolution: Working with Emails and Born-Digital Records in Literary and Publishers’ Archives // Archives and Manuscripts. 2019. Vol. 47, № 3. P. 285—304.

Baron J.R., Payne N. Dark Archives and E-Democracy: Strategies for Overcoming Access Barriers to the Public Record Archives of the Future // Conference for E-Democracy and Open Government, 2017. P. 3—11.

Flood A. Wendy Cope’s Archive Sold to British Library // Guardian. 2011. 20 April. URL: https://www.theguardian.com/books/2011/apr/20/wendy-cope-archive-british-library (дата обращения: 20.03.2023).

Some Sort of Record Seemed Vital: British Library Acquires the Archive of Wendy Cope // British Library. 2011. https://www.bl.uk/press-releases/2011/april/some-sort-of-record-seemed-vital-british-library-acquires-the-archive-of-wendy-cope (дата обращения: 20.03.2023).

Pledge J., Dickens E. Process and Progress: Working with Borndigital Material in the Wendy Cope Archive at the British Library // Archives and Manuscripts. 2018. Vol. 46, № 1. P. 59—69.

Cook T. Electronic Records, Paper Minds: the Revolution in Information Management and Archives in the Post-Custodial and Postmodernist Era // Archives & Manuscripts. 1994. Vol. 22, № 2. P. 300—328.

Woods K., Lee C.A. Redacting Private and Sensitive Information in Born-Digital Collections // Archiving Confere­nce. 2015. № 1. P. 2—7.

Winters J. Coda: Web Archives for Humanities Research — Some Reflections // The Web as History / ed. by Brügger N., Schroeder R. London : UCL Press, 2017. P. 238—248. URL: http://discovery.ucl.ac.uk/1542998/1/The-Web-as-History.pdf (дата обращения: 20.03.2023).

Exceptions to Copyright: Research // Intellectual Property Office. 2014. 16 p. https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/375954/Research.pdf (дата обращения: 20.03.2023).

Gooding P., Terras M., Berube L. Towards User-Centric Evaluation of UK Non-Print Legal Deposit: A Digital Library Futures White Paper. 2019 // University of Nebraska-Lincoln. URL: https://digitalcommons.unl.edu/scholcom/180/ (дата обращения: 20.03.2023).

Ames S., Lewis S. Disrupting the Library: Digital Scholarship and Big Data at the National Library of Scotland // Big Data & Society. 2020. Vol. 7, № 2. P. 1—7.

Mackinlay R. Why Is Most of the 20th Century Invisible to AI? // Information Professional — CILIP: the Library and Information Association. 19 March 2021. URL: https://www.cilip.org.uk/news/557160/Why-is-most-of-the-20th-Century-invisible-to-AI.htm (дата обращения: 20.03.2023).

Living with Machines : Corporate report. Arts and Humanities Research Council, 2020. 7 p. URL: https://www.ukri.org/publications/living-with-machines/ (дата обращения: 20.03.2023).

Jaillant L. User Experience and Access to Born-Digital Data Produced by Publishers : The Case of Carcanet Press // Books.Files: Preservation of Digital Assets in the Contemporary Publishing Industry / by ed. M. Kirschenbaum et al. College Park, MD, USA : University of Maryland and the Book Industry Study Group, 2020. P. 38—39.

Cordell R. Machine Learning + Libraries : A Report on the State of the Field. 2020. 91 p. URL: https://labs.loc.gov/static/labs/work/reports/Cordell-LOC-ML-report.pdf?loclr=blogsig (дата обращения: 20.03.2023).

Alex B., Llewellyn C. Library Carpentry: Text and Data Mining // Centre for Data, Culture and Society. University of Edinburgh, 2020. URL: http://librarycarpentry.org/lc-tdm/ (дата обращения: 20.03.2023).

Bird S., Klein E., Loper E. Natural Language Processing with Python — Analyzing Text with the Natural Language Toolkit // O’Reilly Media. 2019. URL: https://www.nltk.org/book/ (дата обращения: 20.03.2023).

Sweeney L. K-anonymity: a Model for Protecting Privacy // International Journal on Uncertainty, Fuzziness and Knowledge-based Systems. 2002. Vol. 10, № 5. P. 557—570.

Olteanu A., Garcia-Gathright J., de Rijke M. et al. FACTS-IR: Fairness, Accountability, Confidentiality, Transparency, and Safety in Information Retrieval // ACM SIGIR Forum. 2021. Vol. 53, № 2. P. 20—43.

Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. Vol. 34, № 1. P. 1—47.

Mcdonald G., Macdonald C., Ounis I. How the Accuracy and Confidence of Sensitivity Classification Affects Digital Sensitivity Review // ACM Transactions on Information Systems. 2020. Vol. 39, № 1. P. 1—34.

Souza R.R., Coelho F.C., Shah R., Connelly M. Using Artificial Intelligence to Identify State Secrets. 2016. P. 1—48. URL: https://arxiv.org/ftp/arxiv/papers/1611/1611.00356.pdf (дата обращения: 20.03.2023).

Fung B.C.M., Wang K., Chen R., Yu P.S. Privacy-Preserving Data Publishing: a Survey of Recent Developments // ACM Computing Surveys. 2010. Vol. 42, № 4. P. 1—53.

Sánchez D., Batet M. C-Sanitized: a Privacy Model for Document Redaction and Sanitization // Journal of the Association for Information Science and Technology. 2016. Vol. 67, № 1. P. 148—163.

McDonald G., Macdonald C., Ounis I. Active Learning Stopping Strategies for Technology — Assisted Sensitivity Review // Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA : Association for Computing Machinery, 2020. P. 2053—2056.

The Application of Technology-assisted Review to Born-digital Records Transfer, Inquiries and Beyond // The National Archives. 2016. URL: https://www.nationalarchives.gov.uk/documents/technology-assisted-review-to-born-digital-records-transfer.pdf (дата обращения: 20.03.2023).

Bolukbasi T., Chang K.-W., Zou J. et al Man Is to Computer Programmer as Woman Is to Homemaker? Debiasing Word Embeddings // In Proceedings of the 30th International Conference on Neural Information Processing Systems. NY, USA : Curran Associates Inc., Red Hook, 2016. P. 4356—4364.

Jo E.S., Gebru T. Lessons from Archives: Strategies for Collecting Sociocultural Data in Machine Learning // Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. New York, NY, USA : Association for Computing Machinery, 2020. P. 306—316.

Jobin A., Ienca M., Vayena E. The Global Landscape of AI Ethics Guidelines // Nature Machine Intelligence. 2019. Vol. 1. P. 389—399.

Hagendorff T. The Ethics of AI Ethics: an Evaluation of Guidelines // Minds & Machines. 2020. Vol. 30, № 1. P. 99—120.

Coeckelbergh M. AI Ethics. Cambridge : MIT Press, 2020.

Véliz C. Privacy Is Power: Why and How You Should Take Back Control of Your Data. London : Bantam Press, 2020.

Schneider J., Adams C., DeBauche S. et al. Appraising, Processing, and Providing Access to email in Contemporary Literary Archives // Archives and Manuscripts. 2019. Vol. 47, № 3. P. 305—326.

Ovenden R. Burning the Books: a History of Knowledge under Attack. Cambridge : Harvard University Press, 2020.


Ссылки

  • На текущий момент ссылки отсутствуют.




Отдел периодических изданий
Департамент — Издательство «Пашков Дом»
ФГБУ «Российская государственная библиотека»
119019, Москва, ул. Воздвиженка, д. 3/5
Телефон: +7 (499) 557-04-70, доб. 17-03
E-mail: bvpress@rsl.ru