Главная → КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ → ЭЛЕКТРОННАЯ ВЕРСИЯ СЛОВАРЯ АКАДЕМИИ РОССИЙСКОЙ 1789-1794 ГОДОВ
Дата публикации: 09 декабря 2022
Автор(ы): А. Ю. ФИЛИППОВИЧ →
Публикатор: Научная библиотека Порталус
Рубрика: КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ →
Источник: (c) Научная книга, № 1, 2006, C. 58-59 →
Номер публикации: №1670547246
А. Ю. ФИЛИППОВИЧ, (c)
Одной из важных проблем современности является доступность библиотечных фондов для потенциальных читателей. Особенно это касается хранящихся в них редких и старых книг, а также различных печатных и рукописных материалов, являющихся памятниками литературы и письменности, предметом и источником научных исследований. В этом случае решением проблемы доступности является введение источников в научный оборот. Для этого используется их копирование. Особенности современных (компьютерных) издательских технологий, малые тиражи научной литературы, корпоративные интересы носителей научного знания (книговедов, филологов, историков и др.) способствуют сближению процессов копирования источников и их переиздания. Современная доступная копия какого-либо источника - это его печатное и электронное научное переиздание.
Одним из таких источников является Словарь Академии Российской 1789 - 1794 гг. (САР). Это первый толковый словарь русского языка. Он был создан 200 лет назад. В 2000 г. Московским гуманитарным институтом им. Е. Р. Дашковой был предпринят проект его переиздания. В настоящее время вышли уже пять томов печатного переиздания тиражом 600 - 1000 экз. Это переиздание факсимильного типа, максимально повторяющее оригинал. Его наборная форма послужила основой для создания электронной версии САР. Для реализации проекта была разработана специальная информационная технология (ИТ) переиздания.
Наиболее трудоемким этапом ИТ переиздания являются ввод и корректура текста. С целью уменьшения временных затрат на корректуру текста словаря и повышения ее эффективности были проведены исследования алгоритмов деятельности корректоров, частотных характеристик словарного текста и количества ошибок, возникающих в процессе его повторного ввода и вычитки.
Традиционно корректор осуществляет корректуру страницы по следующему алгоритму: он читает и сравнивает каждое слово с оригиналом, при обнаружении ошибки исправляет ее. Общее время, затрачиваемое на корректуру одной страницы, опреде-
ляется временем, затрачиваемым на тот или иной процесс, и количеством слов в корректируемом тексте.
Была предложена автоматизированная технология корректуры, которая подразумевает использование так называемого словаря спеллера. В этом случае корректор просматривает и сравнивает не все слова, а только те, которые не входят в словарь спеллера, - неизвестные, новые. Каждое новое слово он вносит в словарь спеллера.
Частотный анализ текста страниц словаря показывает, что с каждой последующей корректируемой страницей количество уже встретившихся ранее слов постоянно увеличивается. Если в словарь спеллера вносить каждое "правильное" (исправленное) слово, то при использовании автоматизированной технологии корректуры по мере заполнения этого словаря количество слов, проверяемых корректором, будет уменьшаться. Для количественной оценки эффективности автоматизированной технологии корректуры была построена ее формальная модель и проведены временные расчеты.
Исследование первого тома показало, что количество слов, сравниваемых корректором, уменьшается по мере пополнения словаря спеллера и на последней странице снижается до приблизительно 20% от общего объема.
Эффективность автоматизированной технологии корректуры зависит от соотношения времени сравнения слова и времени исправления ошибки. В случае их равенства (коэффициент К =1) суммарный выигрыш времени корректуры может достичь 62%, а при К =10 он равен 43%.
Одним из параметров, влияющих на корректуру, является количество ошибок. Исследование количества ошибок было проведено на материале раздела "Показание" САР первого тома. Сравнивались два текста: введенный с использованием технологии сканирования и окончательный вычитанный и исправленный вариант. Среднее количество ошибок на странице составило 13 (5% от ее объема). Была составлена таблица типовых ошибок и выработаны рекомендации по их автоматизированному исправлению.
Достаточно большое количество ошибок связано с особенностями графем шрифта, используемого для САР. Для набора оригинального текста словаря была выбрана так называемая Елизаветинская гарнитура. На ее основе создан компьютерный шрифт и произведена его оценка по десяти основным параметрам.
Подготовленный материал САР по представленной технологии явился основой для создания электронного издания. В его составе пять компонентов: гипертекстовая информационная система (ГТИС) САР, факсимильная копия САР, лингвистическая база данных (ЛБД), а также системы, посвященные создателям САР, и его переиздания.
ГТИС САР содержит файлы форматов HTML и PDF. Для формирования гипертекста использовался оригинал-макет переиздания словаря, 80% всех файлов были получены путем их конвертирования из формата Page Maker. Факсимильная копия САР представляет собой набор изображений страниц словаря. Исходными данными для формирования факсимильной копии страниц САР были ксерокопии страниц словаря. Эти изображения были отсканированы и обработаны. ЛБД содержит сведения о структуре словарных статей. Основными элементами логической модели БД являются: индексированный словник, частотный словник, показание, словарная статья, описание слова, гнездо. Основные сложности создания ЛБД связаны с особенностями верстки текста словаря и его структурой. Была разработана формальная модель стилевой разметки словаря. Каждый его том содержит более 10 тыс. статей. Для автоматизированного наполнения БД выработана соответствующая программа. Интерфейс ЭСАР разработан в среде Delphi, содержит 15 художественно оформленных оригинальных экранных форм. В экранные формы включены мультимедиа-элементы.
Проведенные исследования и разработки создают предпосылки для эффективного переиздания других книг XVIII в., языковая основа которых зафиксирована в САР, а форма переиздания основана на Елизаветинской гарнитуре.
Опубликовано на Порталусе 09 декабря 2022 года
Новинки на Порталусе:
Сегодня в трендах top-5
Ваше мнение ?
Искали что-то другое? Поиск по Порталусу:
Добавить публикацию • Разместить рекламу • О Порталусе • Рейтинг • Каталог • Авторам • Поиск
Главный редактор: Смогоржевский B.B.
Порталус в VK