ИнфоРост
информационные технологии для архивов и библиотек
29 / 40

Кирилл Фесенко
Координатор проекта Летописей
23 декабря 2020 г
 
Научно-издательский проект “Электронная коллекция Летописей
Российской книжной палаты за 100 лет (1917-2017 гг.)[1] [2]
 
letopisi.dlibrary.org
 

О значении Летописей

Российская книжная палата (РКП), национальный депозитарий печатных изданий и издатель Летописей, отметила в 2017 году 100-летний юбилей своей деятельности. Переоценить значение роли РКП и Летописей для науки, государственной и общественной жизни - невозможно.

Летописи представляют собой наиболее полную перепись издательской активности в России и Советском Союзе. Российская национальная библиография состоит из десяти отдельных Летописей, охватывающих разные типы изданий: (1) книги; (2) журнальные статьи; (3) газетные статьи; (4) изоиздания; (5) рецензии; (6) нотные издания; (7) карты; (8) периодические и продолжающиеся издания; (9) библиографии и (10) авторефераты диссертаций.

В качестве библиографического указателя для всех изданий по всем отраслям знаний и практической деятельности, выходящих в России из-под печатного станка, Летописи отражают не только интеллектуальный потенциал, но и “духовные силы нашей Родины”, как отметил в 1917 году первый директор РКП С.А. Венгеров. В обращении к гражданам на заре рождения Российской книжной палаты ее первый директор призывал:

“Мы должны сохранить результаты великого подъема нашего исключительного времени для времен будущих. И современный публицист, и государственный деятель, и будущий историк должны иметь возможность на основании небывало разнообразного печатного материала наших дней составить себе исчерпывающее представление о всех надеждах, чаяниях и настроениях современной русской жизни... Давно уже назрела насущная потребность подвести итоги и произвести учет результатам русского литературного, научного и политического движения, зарегистрировать и систематизировать десятки тысяч появляющихся ежегодно книг и многие сотни тысяч статей, печатающихся в периодических изданиях”. [3]

В течение 100 лет издания и по сегодняшний день, Летописи РКП продолжают служить главным библиографическим указателем для тысяч библиотек, научно-образовательных, исследовательских и государственных учреждений в России и за ее пределами. На основе Летописей осуществляется справочная работа библиотек и информационных отделов различных учреждений, составляются научно-вспомогательные и рекомендательные библиографические указатели по всем отраслям знаний и практической деятельности, изучается история российского книгопечатания.

 
Восстановление полного комплекта Летописей в электронном виде
и улучшение доступа к нему по Интернет
 

Вместе с тем, учитывая редкость старых номеров за первые 20-30 лет издания Летописей и ветхость печатных изданий, часто использовавшихся для справочной работы, подавляющее большинство библиотек имеет в своих коллекциях неполные комплекты бумажных Летописей с существенными пропусками отдельных номеров. Можно утверждать, что сегодня нет ни одной библиотеки, имеющей в своем наличии полный комплект всех десяти серий Летописей с первого до последнего номера, включая дополнительные, специальные и указательные выпуски. Фактически, полный комплект всех номеров Летописей на сегодняшний день отсутствует и требует восстановления.

Также следует отметить, что несмотря на общепризнанную ценность содержания Летописей, библиотекари и исследователи отмечают неудобство работы с большим количеством бумажных номеров, особенно если необходимо проследить тему или автора на протяжении большого периода времени. Данный научно-издательский проект ставит своей задачей упростить работу с историческим комплектом Летописей путем сканирования и распознавания бумажных номеров и их онлайн-публикации в виде полного имиджа оригинала страниц и распознанного текста в соседнем окне с возможностью полнотекстового поиска.

В свете этих идей и в ознаменование столетия Российской книжной палаты, научно-издательский проект “Полная электронная коллекция Летописей РКП за 1917 - 2017 гг.” призван воссоздать их полный комплект в электронном виде и сделать его доступным максимально большому количеству библиотек в сети Интернет. 

Проект осуществляется Российской книжной палатой под научным руководством Елены Борисовны Ногиной, директора РКП, совместно с некоммерческим партнерством ИнфоРост/dLibrary.org. РКП в проекте играет руководящую роль, является владельцем авторских прав на Летописи, и сканирует имеющиеся номера в своем книгохранилище. НП ИнфоРост/dLibrary.org отвечает за электронно-издательскую часть проекта и членскую программу участия в нем библиотек.

 

Таблица: Полная коллекция Летописей РКП за 1917 - 2017 гг.

___________________________ _________ _________ ____________ _________________ ___________________ ___________
  Перио-дичность Первый выпуск Всего лет публикации Кол-во номеров в комплекте Кол-во биб записей в год в среднем* Всего биб записей*
___________________________ _________ _________ ____________ _________________ ___________________ ___________
             
Книжная летопись 52 1917 100 5,200 65,000 6,500,000
             
Летопись журнальных статей 52 1926 91 4,732 65,000 5,915,000
             
Летопись газетных статей 52 1936 81 4,212 12,000 972,000
             
Летопись изоизданий 4 1934 83 332 1,500 124,500
             
Летопись рецензий 12 1935 82 984 4,000 328,000
             
Нотная летопись 4 1931 86 344 400 34,400
             
Картографическая летопись 1 1931 86 86 200 17,200
             
Летопись периодических и продолжающихся изданий 1 1933 84 84    
             
Библиография российской библиографии 1 1941 76 76    
             
Летопись авторефератов диссертаций 12 1981 36 432 12,000 432,000
             
___________________________ _________ _________ ____________ _________________ ___________________ ___________
             
Всего       16,482**   14,323,100*
 
* приблизительная оценка
** плюс сотни дополнительных выпусков
 
 

Пилотная стадия проекта: проделанная работа

Всего полный комплект Летописей за сто лет насчитывает приблизительно 16,500 номеров десяти разных серий Летописей, из которых 8,620 номеров или приблизительно один миллион страниц Книжной, Журнальной и Газетной Летописей были оцифрованы и опубликованы в электронной коллекции в полном имидже по адресу http://letopisi.dlibrary.org.

Опубликованные номера Летописей располагаются в электронном архиве по отдельным сериям, далее по годам и отдельным выпускам с возможностью их просмотра на экране компьютера в нескольких альтернативных режимах чтения для удобства пользователей (“Галерея имиджей”, “Микрофильм”, “Инспектор”, “Книга”) и с возможностью увеличения размера имиджей страниц. Распознанные тексты страниц располагаются в отдельном окне рядом с отсканированными имиджами страниц для удобства сверки записей с оригиналом и их копирования из текстового окна.
   

По мере обработки отсканированных номеров и их онлайн-публикации ведется учет пропущенных номеров с целью их будущего поиска и сканирования. Как только все имеющиеся в РКП бумажные номера Летописей будут отсканированы, группа обработки изданий приступит к поиску пропущенных номеров в коллекциях крупнейших библиотек. Информация о комплектности оцифрованных Летописей и выявленных пропущенных номерах публикуется на веб-сайте проекта в разделе “Наполнение коллекции”.

Другой важной целью проекта является улучшение доступа исследователей к записям российской национальной библиографии путем оптического распознавания (OCR) отсканированных номеров чтобы по ним можно было делать полнотекстовой поиск. Распознавание тысяч отсканированных номеров и добавление полных текстов к имиджам оригинальных страниц Летописей является одним из трудоемких этапов производственного процесса.

В рамках пилотной стадии проекта были распознаны 3,443 номеров “Книжной летописи” с 1917 по 1978 гг. (всего около 300 000 страниц), по которым теперь можно делать полнотекстовой поиск [4]. Дополнительно также оцифрованы и опубликованы в архиве 5,000 номеров Летописей журнальных и газетных статей, доступных в настоящий момент в полном имидже - этот комплект номеров сейчас стоит в очереди на распознавание. 

Касательно полнотекстового поиска необходимо отметить, что поиск проводится по “сырым” распознанным текстам. При этом качество распознавания ранних, наиболее ветхих номеров летописей в некоторых случаях хуже по сравнению с более поздними номерами в силу хрупкости старой бумаги, редких разрывов страниц, блеклости печатного текста и его “протекания” на обратную сторону страниц. Недорогие бумага и печать ранних бумажных номеров Летописей с 1917 по 1945 гг. отражают трудные экономические условия, при которых библиографы РКП собирали и описывали издания, и выпускали Летописи. Вместе с тем, абсолютное большинство номеров в коллекции распознаны в хорошем качестве.

Проект ставит своей целью выявление поврежденных номеров и исправление ошибок распознавания по мере возможности. В данный момент приоритет отдается распознаванию новой партии из 5,000 номеров Летописей журнальных и газетных статей, уже имеющихся в коллекции в полном имидже.

 

Членская программа участия библиотек в проекте

Описанная выше работа заняла более четырех лет и потребовала участия большого коллектива специалистов РКП и ИнфоРост/dLibrary.org по сканированию, распознаванию и онлайн-публикации более 8 тысяч номеров Летописей, что составляет почти половину полной коллекции за 100 лет, а также их публикации в электронном архиве с доступом по Интернет. Данная работа была проделана за счет внутренних ресурсов наших организаций в качестве пилотного проекта для демонстрации информационных возможностей и пользы ресурса для библиотекарей и исследователей.

Дальнейшее развитие проекта мы предлагаем осуществлять с помощью заинтересованных в нем библиотек, для которых мы создаем экспериментальную членскую программу, предполагающую внесение ежегодного членского взноса. Членские взносы дадут проекту возможность продолжить сканирование и распознавание новых архивных номеров Летописей в следующем году (проект по трудоемкости очень большой!), а библиотеки-участники и их пользователи получат возможность дистанционного доступа к важным историческим записям национальной библиографии по Интернет. 

В области членских взносов проект ставит перед собой двоякую цель: (1) привлекать достаточно средств для контентного и функционального развития проекта и (2) сделать условия членства в проекте доступными для самого широкого круга библиотек вне зависимости от их размеров. С этой целью мы сформировали три категории членских взносов, которые варьируются в зависимости от размера библиотеки-участника проекта.

Библиотека, поддержавшая развитие проекта путем уплаты ежегодного членского взноса, становится его участником со следующими правами:

1. Доступа по Интернет к растущей электронной коллекции исторических Летописей РКП по паролю или диапазону библиотечных IP адресов. Электронная коллекция-архив Российской национальной библиографии включает в себя на сегодня 3,443 номеров “Книжной летописи” (1917-1978 гг.), 3,116 номеров “Летописи журнальных статей” (1926-1990 гг.) и 2,061 номеров “Летописи газетных статей” (1936-1987 гг.). 

Новый электронный ресурс совокупно содержит на сегодня около 11-ти миллионов библиографических описаний, что является наиболее полным электронным собранием библиографических записей об издательской деятельности в России и Советском Союзе, начиная с 1917 г.

2. Доступа к регулярным обновлениям новыми оцифрованными номерами архивных Летописей, которые будут планомерно оцифровываться и публиковаться в электронной коллекции за счет членских взносов участников. Естественно, быстрота и объем онлайн-публикации новых номеров будут зависеть от размера бюджета, формируемого за счет членских взносов участников на очередной год.

3. Участия в определении приоритетов контентного и функционального развития Электронного архива Российской национальной библиографии, а также создания на его основе новых информационных продуктов и услуг для исследователей и студентов.

В настоящее время мы активно взаимодействуем с рядом заинтересованных в проекте организаций в России и за рубежом. К участию в проекте также проявляют интерес зарубежные славистские библиотекари. Когда будет определен круг инициативных библиотек и станут понятны параметры бюджета членских взносов, мы обсудим с новыми участниками приоритеты на оцифровку новых номеров и дальнейшее развитие проекта. 

Помимо решения упомянутых задач по воссозданию полного комплекта Летописей в электронном виде и улучшения доступа к нему по Интернет, данный научно-издательский проект также служит в качестве экспериментального с долгосрочными целями исследования и развития информационных технологий и прогрессивных моделей кооперации между библиотеками, библиографами и издателями в деле создания новых библиографических ресурсов и услуг для пользы исследователей. Мы уверены, что проект откроет новые широкие возможности для совместной издательской и исследовательской работы библиографов, библиотекарей и издателей, объединенных профессиональным интересом в области развития российской национальной библиографии.

Будущее

Электронная коллекция Летописей, по мере своего роста, позволит объединить в одной базе данных более 20 миллионов библиографических записей, описывающих российские издания за последние 100 лет. Такой объемный ресурс высококачественной информации по всем отраслям знаний с возможностями дистанционной работы по Интернет и полнотекстовым поиском потенциально существенно ускорит обмен научной информацией и стимулирует создание новых электронных ресурсов и услуг для исследователей. Речь, в частности, может идти о создании специализированных электронных Указателей (периодических изданий, по тематикам, авторам и т.д.), взаимосвязи (линковании по URL адресу) биб записей с имеющимися оцифрованными материалами в других электронных библиотеках, развитии услуг по доставке документов и так далее.

Также следует отметить, что новая электронная коллекция содержит в себе библиографические записи о работах, которые не обнаруживаются в Интернете и в каталогах крупнейших библиотек России. Выявление “неизвестных” работ является еще одной долгосрочной исследовательской целью проекта электронного архива Летописей.

Среди перспективных направлений будущего контентного развития электронной библиографической коллекции можно предложить, например, онлайн-публикацию следующих изданий: (1) Летописи, вышедшие до 1917 г. (Книжная палата существует с 1727 г.); (2) Редкие исторические библиографические издания, изданные РКП в разные годы; (3) Издания краеведческой и отраслевой библиографии; (4) Национальные Летописи республик СССР, которые в разные годы отделились от основной Летописи по мере формирования национальных Книжных палат. Работа по этому направлению потребует переговоров с национальными Книжными палатами или их правопреемниками для получения соответствующих разрешений. 

Воссоздание полных исторических комплектов Летописей национальной библиографии в электронном виде с доступом по Интернет и полнотекстовым поиском предоставит исследователям и библиотекарям новый важный массив авторитетной информации по республикам бывшего СССР.

Приоритеты развития функциональности электронной коллекции/архива библиографических записей могут включать, среди прочего: (1) Развитие механизма полнотекстового поиска; (2) Исправление ошибок распознавания в оцифрованных биб записях, сшивка переносов слов; (3) Структуризацию записей по полям метаданных и добавление к коллекции системы Указателей для поиска по автору, названию, тематике, издателю, дате и месту издания, и т.д. Указатели раскроют исследователям содержание коллекции и помогут быстрее находить требуемые библиографические записи; (4) Создание онлайн-форм для упрощения работы по структуризации распознанных биб записей с возможностью добавлять тематику и другую информацию, включая URL адреса оцифрованных копий изданий, имеющихся в других электронных библиотеках.

Круг будущих возможностей в этом плане не ограничен перечисленными. Рабочая группа проекта постоянно работает над стратегией развития Электронного архива Российской национальной библиографии и новых информационных ресурсов и услуг для пользователей на его основе совместно с Российской книжной палатой и библиотеками-участниками проекта. 

Наша рабочая группа объединяет в себе коллег-библиографов, библиотекарей и издателей, разделяющих уверенность в том, что важность библиографической работы и ресурсов повышается в результате взрывообразного роста количества и используемости информационных источников разного качества в Интернете. По нашему мнению, в условиях высококонкурентной интернетовской среды библиографическому сообществу необходимо энергично искать новые пути оперативного донесения идеи важности своей работы и ее результатов - библиографических записей - до максимально широкого круга исследователей, используя наиболее прогрессивные информационные технологии. 

Совместный проект РКП/ИнфоРост/dLibrary.org по созданию электронной коллекции Летописей и организации этого проекта в качестве членского библиотечного объединения является экспериментальной работой в этой области. Мы рассчитываем, что проект послужит долгосрочной цели принципиального улучшения доступа к высококачественным источникам информации для студентов и исследователей и, в целом, продвижению библиографии как науки и практики. 

Научно-издательский проект "Электронная коллекция Летописей РКП за 100 лет (1917 - 2017 гг.)" открыт для участия всех библиотек и организаций, разделяющих цели его создания и готовых содействовать их реализации. Пожалуйста связывайтесь с нами по любым вопросам участия. Мы также будем рады предложениям библиотек по улучшению функциональности электронного архива и будущих направлениях его развития. Желающие протестировать работу электронного архива могут прислать соответствующий запрос на имейл адрес info@inforost.org.

_____________________________________________

[1] Материал подготовлен на основе выступления на научно-практической онлайн-конференции «I Грибановские чтения», посвященной 140-летию со дня рождения выдающегося библиографа Сибири Н.Н. Грибановского (18.09.1880 – 17.01.1942), 95-летию организации Национальной библиотеки Республики Саха (Якутия) и 20-летию Арктического государственного института культуры и искусств. Конференция состоялась 10-11 декабря 2020 года в Национальной библиотеке Республики Саха (Якутия),  г. Якутск.
 
[2] См. также Вновь открывая российскую национальную библиографию / К. Фесенко ; пер. М. К. Сухоруков // Библиография. ­ 2006. ­ N 6. ­ С. 11-­14.
 
[3] Обращение С.А. Венгерова опубликовано в "Книжной летописи" № 27, 1917 г.
 
 
 

[4] Касательно полнотекстового поиска необходимо отметить, что поиск производится по сырым распознанным текстам. При этом качество распознавания наиболее ранних редких номеров Летописей в некоторых случаях хуже по сравнению с более поздними номерами в силу хрупкости старой бумаги, редких разрывов страниц, блеклости печатного текста и его “протекания” на обратную сторону страниц. Вместе с тем, абсолютное большинство номеров в коллекции распознаны в хорошем качестве.

Основываясь на нашем собственном опыте полнотекстового поиска по большому распознанному архиву Летописей, два типа поисковых запросов оказались наиболее продуктивными с точки зрения ограничения количества результатов поиска:

1. Запрос на точное совпадение отдельных слов или словосочетаний. Одно слово или сочетание слов можно взять в кавычки (пример - "Институт атомной энергии") - такой запрос исключит из результатов поиска словоформы.

2. Запрос на близость слов. Запрос на близость позволяет составить запрос с ограничением на расстояние между словами. К примеру, запрос

"новогорловский завод"~2

позволит найти все случаи где оба слова отстают друг от друга не более чем на два слова между ними. Меняя цифру в конце запроса можно увеличивать или уменьшать количество и релевантность результатов поиска.

Долгосрочными целями проекта является пополнение коллекции новыми оцифрованными номерами Летописей, распознавание опубликованных в полном имидже номеров Журнальной и Газетных Летописей, исправление ошибок распознавания старых номеров, улучшение работы механизма полнотекстового поиска.