Цифровые архивы как ответ на массовое удаление данных
Автор: Хорошко Алена
В последние месяцы администрация Дональда Трампа приняла решение о массовом удалении тысяч правительственных веб-страниц, что вызвало серьёзную обеспокоенность экспертов в области цифровых архивов.
Что было удалено?
Среди удалённых материалов оказались тысячи страниц с сайта Центров по контролю и профилактике заболеваний (CDC), а также страницы Министерства юстиции, связанные с событиями 6 января 2021 года, когда сторонники Дональда Трампа после митинга вступили в столкновение с полицией и ворвались в здание Капитолия. Дополнительно были удалены материалы, посвящённые уходу за трансгендерными пациентами на сайте Healthcare.gov, информация о гендерном разнообразии на сайте TSA, а также данные о сексуальной ориентации и дискриминации на сайтах Комиссии по равным возможностям при трудоустройстве и Бюро переписи населения.
Роль цифровых архивов
Одним из ключевых инструментов сохранения цифровой информации является Wayback Machine, управляемая некоммерческой организацией Internet Archive. Созданная в 1996 году, база данных архива содержит более 916 миллиардов веб-страниц, позволяя пользователям просматривать старые версии сайтов по введённому URL-адресу.
«Масштабы удаления контента в этот раз значительно превышают то, что мы наблюдали при прошлых сменах администраций», — отметил Грэм, директор Wayback Machine.
Кроме того, в феврале специалисты обнаружили, что с портала открытых данных правительства США, data.gov, исчезли более 2000 датасетов. Особенно активно файлы начали удаляться за две недели до инаугурации Трампа.
Сотрудничество с научными и общественными организациями
Internet Archive активно сотрудничает с такими организациями, как Инициатива по сбору и управлению экологическими данными (EDGI) и библиотеки Стэнфордского университета. Одним из ключевых проектов является архив «Конец срока полномочий», который с 2008 года собирает и сохраняет контент из правительственных источников в конце каждого президентского срока.
Проблемы сохранения цифровой информации
Цифровой контент особенно уязвим для потерь, поскольку, в отличие от физических материалов, таких как книги, веб-страницы могут быть изменены или удалены без следа. URL-адреса не гарантируют сохранность информации. Согласно исследованию Pew Research, опубликованному в мае 2024 года, 38% веб-страниц, доступных в 2013 году, исчезли спустя 10 лет, а каждая пятая правительственная страница содержит неработающие ссылки, что связано с удалением сопутствующих материалов.