Переглядів 332
„Автоматическая транскрипция рукописей: подходы, инструменты, проблемы“ (Онлайн-семинар Цифровая среда)
27 марта 2024 года состоялось очередное заседание научного онлайн-семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета.
На семинаре выступила Светлана Александровна Яцык (CIHAM, CNRS) с докладом «Автоматическая транскрипция рукописей: подходы, инструменты, проблемы».
Благодаря развитию технологий компьютерного зрения и повсеместному проникновению нейронных сетей задачу автоматической транскрипции печатного текста (OCR) можно считать решенной. Распознавание рукописного текста (HTR) тоже становится все более эффективным и доступным - ему и посвящено это заседание «Цифровой среды».
Были рассмотрены все этапы, необходимые для автоматической транскрипции рукописи (получение изображений; их сегментацию на зоны и строки; непосредственно распознавание текста; экспорт и обработку транскрипции). Внимание было уделено разным методам сегментации зон (обнаружение объектов vs семантическая сегментация) и строк (bounding boxes vs baselines). Были представлены возможные подходы к транскрипции на примере средневековых латинских текстов (дипломатическая или нормализующая?). Наконец, был представлен анализ различий между доступными инструментами транскрипции (Tesseract, Transkribus, kraken и eScriptorium) и постобработки (Pie, Boudams, трансформеры).
Презентация к докладу доступна по адресу: tinyurl.com/digital-sreda
Яцык Светлана Александровна - кандидат исторических наук, медиевистка, сотрудница Центра истории, археологии и литературы средневековых христианских и мусульманских миров (CIHAM, CNRS), главный редактор журнала «Vox medii aevi».
Дискутантом по докладу выступил Глеб Александрович Шмидт, исследователь, Университет Неймегена (Радбауд).
Ведущий семинара «Цифровая среда» DHRI@SFU - Андрей Юрьевич Володин (МГУ/СФУ).
Следить за новостями Института цифровых гуманитарных исследований (DHRI) удобно в телеграм-канале «Гуманитарии в цифре»: t.me/DHRIsfu