Как оцифровывают архивы в Алматы
В Государственном архиве Управления культуры Алматы хранится огромное количество документов, отражающих важнейшие события политической, экономической, культурной, общественной и социальной жизни города и охватывают период с начала XX века и до наших дней. О том, как цифровые технологии помогают сохранять документы исполнительной власти, органов прокуратуры, юстиции, судов, а также организаций, учреждений и предприятий мегаполиса, рассказывает корреспондент Kazinform.
По словам работников Госархива Алматы, основная часть материалов относится к советскому периоду, а также включает в себя документы суверенного Казахстана.
В середине 90-х в обществе стала получать широкое распространение концепция возрастающей активности личности, тесно связанной с возникновением гражданского общества как основы демократического строя. И если учесть, что критерии работы с учреждениями и предприятиями по своей аналогии стандартны общим требованиям, то особенностью формирования фондов личного происхождения в Государственном архиве Алматы является прием на государственное хранение кроме документов личного происхождения — научной, творческой, общественной деятельности, — отражающих особенность фондообразователя, но и вещественных экспонатов из частных фондов и коллекций.
На сегодняшний день количество единиц хранения составляет 1 339 497 дел. Архив представляет собой современно оборудованный комплекс, выполняющий основные задачи в сфере информационно-архивного обеспечения.
— Основной состав документов, находящихся на государственном хранении, представляет бумажный носитель. С целью защиты и аутентичности предоставления информации архивных документов, сокращения использования документов на бумажных носителях, ускорения проведения поисковых операций в информационных системах Государственным архивом Алматы проводятся работы по переводу документов в цифровой формат. Действующие критерии определили необходимость оцифровки документов, в первую очередь образованных в дореволюционный период, то есть с 1908 по 1917 годы (метрические книги), а также выявленных особо ценных документов Национального архивного фонда. Поэтапное приобретение в 2022–2025 годах специальных высокоскоростых сканеров значительно увеличило объем оцифрованных документов. Так, по состоянию на 1 октября 2025 года оцифровано 135 797 дел или 18 978 948 листов. Современное сканирующее оборудование позволило создать цифровые копии с разрешением до 600 dpi на высокой скорости. С приобретением специальных высокоскоростных сканеров в 2023–2024 годах был значительно увеличен объем оцифрованных документов более чем на 36 000 дел или 5 млн листов, что вдвое превысило показатели 2022 года и суммарно равно показателям 2014–2018 годов, — рассказали в Госархиве Алматы.

Здесь признают, что впереди — немало работы по оцифровке. В первую очередь нужно определить критерии первоочередности перевода документов, отнесенных к составу Национального архивного фонда по пунктам: 1) особо ценные документы; 2) ветхие, с затухающим текстом, исполненные на кальке или папирусной бумаге; 3) наиболее востребованные физическими и юридическими лицами.
Далее необходимы создание и интеграция метаданных (обработка описей, индексация, унификация форматов), затем OCR (распознавание текста) и валидация распознанного текста для поиска и цифровая сохранность (репликация/архивные бэкапы, миграция форматов).
В зависимости от типа работы сканирование одного документа может занимать от 10 минут до 4,5 часов.
Простое сканирование листа (массовое, с автоматизацией) — современные многопоточные/планетарные сканеры могут обрабатывать от нескольких сотен до тысячи страниц в час (в зависимости от формата, двухсторонней печати и подготовки). То есть один лист — доли секунды в чистом скан-режиме.
Ветхий документ — затрата значительного объема времени, т. к. сканированию предшествуют работы по расшивке документа, проглаживанию, реставрации и сушению.
Папка (несколько десятков — сотен листов) — при массовом потоке: одна папка может быть отсканирована за 10–60 минут (при автоматизированной обработке); если требуется ручной контроль, OCR, валидация и метаданные — обработка одной папки может растянуться на несколько часов.
Полный рабочий цикл (скан → OCR → корректура → индексирование → загрузка в хранилище) — для одного сложного дела/папки реально считать от 0.5 до 4+ часов, в зависимости от уровня метаданных и качества исходников.
А вот искусственный интеллект в Госархиве Алматы для навигации по цифровым архивам не используется. Пока.
— На государственном уровне в 2024–2025 годы и далее объявлены планы создания Национального цифрового архива с применением ИИ/нейросетей: в публичных заявлениях указывалось, что Национальный цифровой архив будет доступен разработчикам нейросетей и что создается Нацархив с искусственным интеллектом (планы 2025 года). Также в 2025 году проводились семинары по внедрению «Е-Архива» и обсуждались цифровые решения. Это говорит о том, что ИИ планируется и частично внедряется для задач поиска, распознавания и анализа, но масштабного, полного ИИ-управляемого навигационного интерфейса на уровне отечественных архивов пока не существует, — заключили в Госархиве Алматы.