WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Математические модели, методы и алгоритмы построения размеченных корпусов текстов

На правах рукописи

Седов Алексей Владимирович

Математические модели, методы и алгоритмы

построения размеченных корпусов текстов

05.13.18 — математическое моделирование,

численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Петрозаводск — 2013 г.

Работа выполнена на кафедре теории вероятностей и анализа данных ФГБОУ ВПО "Петрозаводский государственный университет"

Научный руководитель: Рогов Александр Александрович доктор технических наук, профессор

Официальные оппоненты: Кулешов Сергей Викторович доктор технических наук, ФГБУН Санкт-Петербургский институт информатики и автоматизации РАН, ведущий научный сотрудник лаборатории автоматизации научных исследований Москин Николай Дмитриевич кандидат технических наук, доцент, ФГБОУ ВПО «Петрозаводский государственный университет», доцент кафедры информатики и математического обеспечения

Ведущая организация: ФГБОУ ВПО «Санкт-Петербургский государственный университет»

Защита состоится «26» декабря 2013 г. в 14:00 на заседании диссертационного совета Д 212.190.03 на базе ФГБОУ ВПО «Петрозаводский государственный университет», расположенного по адресу: 185910, г. Петрозаводск, пр. Ленина, 33.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.

Автореферат разослан « » ноября 2013 г.

Ученый секретарь Р. В. Воронов диссертационного совета

Общая характеристика работы

Актуальность темы. Комплексный анализ текстов необходим для решения различных задач семантического анализа. При этом возникает необходимость обработки огромного массива информации. Частично решению данной задачи служат активно создаваемые в настоящее время размеченные корпуса текстов, создание которых стало возможным благодаря современным информационным технологиям и методам математического моделирования.

Существующие корпуса текстов позволяют производить всесторонние исследования не только в рамках развития языка в определённых временных масштабах (год, век, эпоха), но также отображать внешние факторы, такие как эмоциональная окраска использованных языковых структур, языковые элементы, показывающие отношение к окружающему миру и т.

п. Корпуса текстов являются богатым источником для лексикографии. С применением современных компьютерных технологий словари могут составляться и пересматриваться гораздо быстрее, чем раньше, фиксируя текущее состояние языка. На основании корпусов создаются практически все современные системы информационного поиска. С их помощью может быть решено множество прикладных задач, таких как: статистическая обработка специальных текстов, создание систем извлечения текстовой информации, извлечение знаний из больших массивов информации, задачи интеллектуального поиска, задачи установления авторства и др.

В настоящее время созданием корпусов занимается большое количество исследователей. В качестве примера можно привести Национальный корпус русского языка (НКРЯ), Хельсинкский аннотированный корпус (ХАНКО), Корпус шведского языка, Корпус итальянского языка, Британский национальный корпус, Банк английского языка и другие. Отличительной особенностью данных корпусов является то, что для их создания привлекается большое количество специалистов, которые зачастую вручную решают задачи разбора и снятия омонимии.

При построении корпусов текстов малой размерности, создаваемых для решения специализированных задач, штат сотрудников может быть сильно ограничен и даже состоять лишь из одного исследователя. При этом решения, используемые для создания больших корпусов текстов, становятся практически неприменимыми. Для таких корпусов требуется создание компьютерной программы, которая частично автоматизировала бы процесс разбора и при этом не была бы ориентирована на конкретный язык и тип разметки.

После создания размеченного корпуса текстов возникает необходимость предоставления специалистам инструмента, позволяющего производить лингвистические исследования. В частности, этот инструмент должен позволять строить частотный словарь для определённого набора текстов, находить частоты встречаемости словоформ, биграмм, триграмм, осуществлять поиск однокоренных слов, неоднородных включений, цитат.

Таким образом, существующие корпуса удовлетворяют не всем современным запросам специалистов, а значит, разработка инструментов для создания новых корпусов и поиска статистических закономерностей текстов является актуальной исследовательской задачей.

Степень разработанности. Имеющиеся корпуса опираются в основном на современный язык и разметку. В настоящем диссертационном исследовании разработана программная среда, которая позволяет создавать мультиязычные размеченные корпуса текстов, сохраняя оригинальное написание слов. Используемые для ее создания математические модели и алгоритмы существенно отличаются от применяемых в ранее созданных корпусах. В настоящее время практически отсутствуют специализированные инструменты глубокого статистического анализа текстов.

Цель диссертационной работы — построение и разработка моделей и методов создания размеченных корпусов текстов и нахождения статистических параметров, присущих как отдельным словам, предложениям, текстам и их частям, так и всему корпусу в целом.

Для достижения поставленной цели необходимо решить следующие задачи:

1. разработать структуры баз данных, необходимые для хранения грамматической и синтаксической разметок;

2. создать компьютерные системы поддержки грамматического и синтаксического разборов;

3. разработать компьютерную систему доступа к разобранным текстам, хранящимся в базах данных;

4. провести анализ методов разбиения текста/текстов на фрагменты однородности.

Объект исследования — системы создания корпусов текстов, методы извлечения информации из текстов.

Методология и методы исследований. Для решения поставленных задач использовались методы прикладной и математической статистики, методы управления базами данных, а также методы человеко-машинного взаимодействия.

Научная новизна работы заключается в предложенных и исследованных в диссертации структурных моделях текста и анализе методов выявления неоднородных фрагментов текста.

Теоретическая и практическая значимость. Предложенные модели, методы и алгоритмы могут использоваться при создании разнообразных корпусов текстов, а также проведении исследований по анализу структуры языка, извлечению информации из текстов, выделению однородных фрагментов.

Положения, выносимые на защиту:

1. Предложенные структурные и графовые модели позволяют создавать мультиязычные корпуса текстов, а также проводить различные исследования, направленные на выявление особенностей текста.

2. Разработанные численные методы автоматизируют определения структурных особенностей единиц текста (морфологического и синтаксического разбора).

3. Разработанные численные методы позволяют определить вид данных в объединённом хранилище, который обеспечивает минимальное время доступа в зависимости от вида требуемой информации.

4. Разработанные численные методы позволяют на основании статистических характеристик выявлять фрагменты неоднородности. Полученные фрагменты могут быть полезны для решения задач поиска плагиата, задач атрибуции и распознавания.

5. Разработанный программный комплекс, реализованный в ИС СМАЛТ, содержит предложенные модели и численные методы и предназначен для создания информационных корпусов, предоставления статистической информации о них, а также проведения исследований по анализу однородности как корпуса в целом, так и отдельных его фрагментов.

Степень достоверности. Степень достоверности результатов выполненных исследований подтверждается на примере проведения анализа однородностей в текстах XIX века, текстах Ф. М. Достоевского и В. И. Даля.

Апробация работы. Результаты работы были представлены и обсуждались на следующих конференциях:

1. VI Международной научно-практической конференции «Информационная среда вуза XXI века», 26-30 сентября 2012 г., Финляндия, Куопио;

2. Международной конференции «Компьютерные технологии и математические методы в исторических исследованиях», 11-16 июля 2011 г., Петрозаводск;

3. XI Всероссийской научной конференции «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции», 17-21 сентября 2009 г., Петрозаводск;

4. XL международной научной конференции аспирантов и студентов «Процессы управления и устойчивость» Control Processes and Stability (CPS’09), 6-9 апреля 2009 г., Санкт-Петербург.

Разработанный программный комплекс был апробирован при создании корпуса русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат». Проект был поддержан грантами российского гуманитарного научного фонда № 05-04-12418в «Исследовательские базы данных «Грамматический словарь русского языка XIX века»

(рук. Рогов А. А.), № 08-04-12105в «Синтаксически размеченный корпус текстов XIX века» (рук. Рогов А. А.).

Публикации. По материалам диссертации опубликовано 10 работ [1–10], в том числе 2 статьи в изданиях, рекомендованных ВАК [1, 2].

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Подготовка к публикации полученных результатов проводилась совместно с соавторами, причем вклад диссертанта был значительным. Все представленные в диссертации результаты получены лично автором.

Структура и объём диссертации. Диссертация состоит из введения, четырёх глав, заключения, библиографического списка использованной литературы ( наименований), имеет объём 110 страниц машинописного текста, включая страницы приложений, содержит 22 рисунка и 6 таблиц.

Содержание работы Во введении приводится обоснование актуальности темы диссертации, формулируется цель диссертационного исследования, представляются основные результаты, научная новизна, практическая значимость работы, а также описывается композиционное построение диссертации.

В первой главе проводится анализ существующих электронных словарей и текстовых корпусов. Рассматриваются принципы их построения и возникающие проблемы. Одной из основных проблем при создании корпусов является вопрос автоматизации разбора, определение грамматических и синтаксических характеристик предложений и слов.

Существующие программные решения для создания корпусов ориентируются на конкретные виды грамматических и синтаксических разборов, на заранее заданный язык. В данном диссертационном исследовании моделируются структуры данных, которые могут использоваться для создания мультиязычных корпусов, исследователю лишь необходимо будет задать грамматические и синтаксические параметры (рис. 1).

Корпус () представляет собой собрание текстов. Под текстом понимается упорядоченный набор разобранных слов, разделённых знаками препинания, пробелами, переводами строк.

Каждому слову ставится в соответствие его оригинальное написание, положение (2) в тексте (номер главы, параграфа, абзаца, и т. п.) и соответствующие морфологические (3) и синтаксические параметры.

где m – количество грамматических признаков слова.

Взаимосвязь грамматических признаков можно изобразить в виде двудольного графа:

здесь — это множество различных морфологических параметров, а — множество морфологических значений. Ребро соединяет вершину из множества значений с вершиной из множества параметров в случае, если от значения зависит наличие параметра.

В качестве примера можно привести часть грамматического разбора из корпуса русских публицистических текстов второй половины XIX века (рис. 2).

Для каждого корпуса строится индивидуальный граф морфологического разбора. Более того, для некоторого набора текстов мы можем иметь несколько вариантов морфологических разборов.

Кроме морфологических параметров для каждого слова были введены дополнительные строковые параметры. Примерами таких параметров в корпусе русских публицистических текстов второй половины XIX века являются: начальная форма, современное написание. Для корпуса финноязычных газетных статей «Карьялан Саномат» это перевод.

Таким образом, каждому слову ставилась в соответствие следующая структура:

где — дополнительные строковые параметры.

Способы синтаксической разметки настолько сильно отличаются друг от друга, что невозможно предложить некоторую универсальную модель. В отличие от грамматического разбора, минимальной структурной единицей текста, в зависимости от выбранного подхода к синтаксической разметке, являются не только слова, но также части предложений и предложения целиком. В диссертационном исследовании корпус представляет собой набор текстов:

В качестве структурных единиц рассматриваются клаузы — элементарные предложения в составе сложных, вершиной которых является глагол либо, в случае отсутствия глагола, связка или элемент, играющий её роль. Формально понятие клаузы можно определить следующим образом: предложение разбивается на части и представляется как множество:

Тогда в качестве клаузы выбирается некоторое подмножество из частей предложения. = { 1, 2,..., }, причем = и, вообще говоря, пересечение клауз может быть непустым. Резюмируя это, отметим два основных момента:

1. Каждая клауза может быть разбита на несколько частей внутри одного предложения;

2. Некоторые части предложения могут входить сразу в несколько клауз.

В качестве примера приведём предложение из корпуса русских публицистических текстов XIX века, разбитое на части (заключены в фигурные скобки):

{Впрочемъ и на словахъ}, {какъ мы сказали}, {противочеловxчность сгинула только почти}, {потому что есть еще даже у насъ въ литературx... Хотя впрочемъ тамъ, гдx—то, на заднемъ ея фасx, но все-таки есть еще углы}, {гдx она засxла} {и по временамъ вырывается на свxтъ, во всей своей безобразной дикости}. В данном предложении каждая часть является отдельной клаузой, за исключением клаузы: Впрочемъ и на словахъ противочеловxчность сгинула только почти, которая разделена на две части клаузой какъ мы сказали.

Во второй главе описываются процессы автоматизации грамматического и синтаксического разборов. Процесс грамматического разбора (рис. 3) текста был разделён на 2 этапа: этап преформатирования и этап разметки.

На этапе преформатирования (рис. 4) на вход программы подается текстовый файл. Он содержит текст, который необходимо разметить. Программа автоматически разбивает текст на структурные компоненты: главы, абзацы и предложения.

Признаком новой главы является знак параграфа, расположенный первым на строке, признаком нового абзаца является табуляция. Символами конца предложения являются точка, восклицательный, вопросительный знаки и др. Разбиение на слова происходит при помощи аппарата регулярных выражений.

Несмотря на кажущуюся простоту данного процесса, на данном этапе возникло множество проблем с корректным разбиением. Рассмотрим часть проблем, решённых в диссертационном исследовании:

1. Существуют сложные знаки препинания, сигнализирующие о конце предложения: «... », «?..», «!..», «?!», «!!!» и пр. Изначально программа ставила символы конца предложения внутри этих знаков. Эта проблема была решена путем введения специальных дополнительных шаблонов для проверки, соответствующих подобным сложным знакам препинания.

2. Точка не всегда свидетельствует о завершении предложения. Зачастую точка является признаком сокращения («... г. Волошин... »). Помимо этого, названные знаки препинания ставятся внутри прямой речи, не являясь при этом сигналом завершения предложения. В результате чего предложения разделялись на несколько. Поэтому приходилось перепроверять тексты и склеивать предложения. Эта проблема решалась путем анализа следующего слова и подсчёта открывающихся и закрывающихся скобок. Правда в случае, когда следующее слово начинается с заглавной буквы, это не гарантирует, что знак стоит в конце предложения.

3. Стандартным признаком конца абзаца является наличие символов перевода строки. Однако перевод строки может использоваться и внутри текста, например в стихотворных отрывках. Поэтому была добавлена дополнительная проверка на символ конца предложения прямо перед переводом строки.

4. Составные словоформы, в общем случае, должны быть представимы набором слов, причем не обязательно подряд стоящими (союзы «если... то»).

Поэтому была добавлена возможность объединения нескольких текстоформ в одну словоформу.

Для грамматического разбора была реализована система автоматической разметки. Её работа заключается в том, что грамматический анализатор ищет теРис. 5: Схема разбора кущее разбираемое слово в составе нашего сформированного словаря (рис. 5).

В случае удачного поиска, пользователю выдается разбор найденного слова в качестве разбора «по умолчанию». Далее пользователь в случае необходимости может изменить разбор или сохранить предложенный.

Основными препятствиями автоматической разметки являются:

1. Некоторые слова остаются неразмеченными, поскольку далеко не все слова есть в словаре. Стоит отметить, что с увеличением размера словаря доля неизвестных слов уменьшается.

2. С расширением размера словаря остро проявляются проблемы омонимии.

Для одной текстоформы в словаре может содержаться несколько вариантов её разбора, поэтому встает вопрос, как выбрать из них правильный.

В качестве решения данной задачи использовался следующий метод: рассматриваются триграммы — тройки подряд идущих слов 1, 2, 3, с соответствующими им разборами 1, 2 и 3. Порядок слов считается важным.

Введём понятие вероятности разбора где (, ) — количество встречаемых в корпусе разборов слова, а ( ) — общее количество разборов слова, встречаемых в корпусе. Введём:

Основу формулы составляют два слагаемых, каждое из которых представляет собой формулу условной вероятности. Разбор 1 2 3, на котором достигается максимум функции (1 2 3 ), принимается как разбор по умолчанию в случае омонимии. Весовой коэффициент задает степень влияния каждого слагаемого на итоговую сумму. В том случае если триграммы слов 1, 2, 3 ранее не встречались в корпусе в данном порядке, рассматривается уже двойка слов, для которой приводятся аналогичные результаты. В том случае если не встречалась и двойка – в качестве разбора слова принимается то есть самый часто встречаемый в корпусе разбор слова.

Процесс синтаксического разбора во многом сходен с грамматическим разбором. Он также делится на два этапа: преформатирование и разметка. Этап преформатирования практически аналогичен этапу преформатирования грамматического разбора. Основное различие состоит в ином разбиении теста на структурные компоненты: главы, абзацы, сложные предложения и клаузы. Дальнейшее разбиение на слова при помощи регулярных выражений тоже присутствует, но используется оно в неявном виде. Отметим также, что разбиение предложения на части и объединение частей в клаузы для удобства пользователей проводится на этапе разметки.

На этапе синтаксической разметки (рис. 6) пользователь сопоставляет каждой клаузе текста одну из синтаксических схем путем выбора одной из них из списка.

Система автоматизированной синтаксической разметки опиралась на следующие эмпирические подходы:

1. Простейший статистический метод. Синтаксическая схема по умолчанию выбирается как наиболее часто используемая конструкция.

2. Анализ разбора клаузы, предшествующей текущей.

3. Анализ разбора двух предшествующих клауз.

В качестве схемы для клаузы выбиралась та, для которой величина:

была максимальной. Здесь 1, 2, 3 — схемы, соответствующие текущей и двум предыдущим клаузам, а — настроечный коэффициент.

При анализе частоты появления схем в корпусе русских публицистических текстов второй половины XIX века было получено, что схема вида 1 + встречалась более чем в 58,5% от общего числа клауз (сейчас их число равно 36224). Поэтому было решено использовать её как «схему по умолчанию» для новых клауз.

В третьей главе описывается выбор структур данных для хранения разборов и предоставления искомой информации пользователям.

В процессе проведения исследований возникли сложности, связанные с длительным временем получения результатов (от 5 секунд до нескольких минут на один запрос), а также с достаточно большим размером базы данных. На этом основании было решено произвести анализ различных структур базы данных с целью выявления «лучшей» согласно критерию средней скорости предоставления информации.

Для исследования оптимальной структуры БД, предназначенной для поиска информации о словах и текстах, использовались следующие виды поисковых запросов:

1. по слову;

2. по грамматическим признакам;

3. по синтаксическим признакам;

4. по начальной форме;

5. по слову и грамматическим признакам;

6. по слову и синтаксическим признакам;

7. по грамматическим признакам и синтаксическим параметрам;

8. по грамматическим признакам, синтаксическим параметрам, слову (словоформе, либо начальной форме);

9. выбор слов по частоте встречаемости;

10. выбор слов по частоте обращений, запросов.

Для анализа рассматривалась величина: = выполнения -го поиска в -ой базе данных, где — время -го выполнения -го поиска в -ой базе.

Тогда среднее время -го варианта поиска в -ой базе данных:

На основании полученных величин рассматривалось взвешенное время поиска:

где — номер базы данных, а — частота использования поискового запроса вида.

Для каждого вида поиска была проведена серия испытаний: три раза в день (утром, днём и вечером) на протяжении недели в течении получаса на сервер поступали поисковые запросы (случайным образом выбранные слова, грамматические и синтаксические признаки). На основании проведённых опытов было замечено, что скорость поиска практически не зависела от частоты встречаемости слова или признака. При этом скорость поиска зависела от длины искомого слова и числа введённых параметров.

Результаты некоторых экспериментов приведены в таблице:

Из данной таблицы видно, что меньше всего времени на поиск требуется для первой базы. В ней морфологические признаки для слова хранились в той же таблице, что и само слово. При этом признаки были зашифрованы (сжаты) в соответствии с таблицами зависимостей наличия одних признаков от значений других. Введённые для синтаксического разбора поля, содержащие смещения начала и конца части относительно начала текста, позволили осуществлять поиск одновременно по синтаксическим и морфологическим параметрам. При этом время работы получилось меньше, по сравнению со случаем, когда каждому слову в соответствие ставились все его разборы.

В четвертой главе рассматриваются методы выделения однородных фрагментов в текстах на основании разработанных корпусов.

Существующие современные системы, такие как системы обнаружения плагиата, существенно опираются на базы текстов. Если по каким либо причинам текст, который использовался при создании, не вошёл в поисковые базы, то система может принять фрагмент данного текста как уникальный. Следовательно, методы, которые позволяют выявлять неоднородные фрагменты в тексте, и тем самым указывать на возможность плагиата, не опираясь на собранные базы текстов, являются актуальными и своевременными.

В диссертационном исследовании рассматривается метод поиска фрагментов, имеющих отличную от основного текста синтагматику, характеризующуюся определённой последовательностью составляющих элементов — слов с частеречной принадлежностью. В основе метода лежит статистика частоты встречаемости последовательностей частей речи, состоящих из трёх или четырёх слов.

Алгоритм нахождения неоднородных фрагментов можно представить в следующем виде:

1. Разметка исходного текста.

2. Выбор размера фрагмента.

Размер фрагмента можно задавать количеством слов или предложений. Выбор размера зависит от цели исследования. В производимых экспериментах величина фрагмента изменялась от одного до пятнадцати предложений.

3. Выбор признаков.

Для проведения исследования необходимо определиться с выбором исследуемой последовательности частей речи, которую в дальнейшем будем называть признаком. Среди множества вариантов последовательностей частей речи следует выбрать ту, которая обладает наибольшей информативностью.

Существует несколько способов выбора наиболее информативных признаков. В качестве исследуемого признака можно выбрать тот, у которого статистика 2 имеет максимальную дисперсию. Для этого следует рассмотреть все возможные наборы признаков (различные варианты последовательностей частей речи), исследуемый текст разбить на фрагменты. Для каждого выбранного признака и каждого фрагмента необходимо найти статистику 2 (способ вычисления статистики описан в следующем пункте), на основе которой вычислить дисперсию. В качестве исследуемого признака можно взять признак с максимальной дисперсией.

4. Вычисление статистики 2.

Для исследуемого фрагмента текста нужно сосчитать, сколько раз выбранная последовательность слов встречается в данном фрагменте и сколько в остальной части текста. Обозначим: — число выбранных последовательностей, — общее число последовательностей во фрагменте, — общее число последовательностей в оставшемся тексте, — число выбранных последовательностей в оставшемся тексте. Тогда статистика 2 имеет вид:

5. Поиск неоднородных фрагментов.

Исходный текст необходимо разбить на все возможные фрагменты. Для каждого фрагмента вычислить статистику 2 (аналогично предыдущему пункту). Максимальное значение данной статистики будет соответствовать неоднородным фрагментам. При этом если значение превысит некоторое критическое значение, то отличие данного фрагмента от остальных будет статистически значимым с вероятностью P.

Данный алгоритм был применен для разбиения текстов Ф. М. Достоевского. В результате для текстов «Мелочи» и «Пожары» была составлена таблица 2.

Из неё видно, что для четвёрки признаков «Глагол», «Существительное», «Союз», «Существительное» дисперсия статистики 2 максимальна. Таким образом по данной четверке текст разбивается лучше всего. Результаты разбиения были представлены специалистам-филологам, которые подтвердили неоднородность выделенных фрагментов.

Таблица 2: Проверка критерия для фрагментов текстов Алгоритм выявления неоднородных фрагментов можно использовать и для решения задачи атрибуции текстов. Рассмотрим следующую задачу. Имеется n однородных текстов. В качестве таких текстов можно брать произведения, принадлежащие одному автору. Ставится задача определения степени близости неизвестного текста к этой группе. Решение данной задачи разобьём на несколько этапов. На первом этапе выбирается признак, затем по очереди выбирается один текст из группы однородных текстов. Оставшиеся произведения объединяются в один большой текст. Для каждого текста вычисляется статистика 2.

Вычисление производится аналогично пункту 4 алгоритма поиска неоднородности для фрагмента. В качестве фрагмента будет выбранный текст. В качестве оставшегося текста будет выступать полученный объединенный. Будем обозначать значения статистик через 2, 2,..., 2. На следующем этапе выбирается анализируемый текст, а в качестве второго текста берётся текст, полученный в результате объединения всех однородных. Для анализируемого текста вычисляется статистика 2. Обозначим её через 2. Если выполняется неравенство max, то искомый текст будет близок к данной группе по выбранному признаку. Близость текста к выбранной группе автоматически не означает решение задачи атрибуции. Для этого требуется критическая оценка полученного результата специалистом.

Для проверки работоспособности алгоритма в качестве однородных текстов использовались произведения, принадлежащие Ф. М. Достоевскому. В качестве неоднородных текстов – произведения В. И. Даля, М. И. Владиславлева и А. А.

Григорьева.

Таблица 3: Проверка критерия для фрагментов текстов Проведённые эксперименты (см. Таблицу 3) показали, что для четверки признаков «Предлог», «Прилагательное», «Существительное», «Глагол» максимальное значение статистики 2 среди текстов Ф. М. Достоевского было равно 0.088, при этом для других текстов минимальное значение было 0.115. Оно достигалось на тексте длиной всего в 10 предложений. Таким образом с помощью описанного алгоритма можно выделить из текста фрагменты неоднородности, имеющие разные частоты встречаемости выбранной последовательности частей речи. Найденные фрагменты могут служить подсказкой для специалиста о том, что здесь может быть текст другого автора. Данный алгоритм будет полезен при обнаружении плагиата: анализ может производиться не по всему тексту, а лишь по выделенным фрагментам неоднородности, что сократит размерность задачи.

В заключении формулируются результаты диссертационного исследования.

Заключение В работе представлены различные модели структур данных, используемых при создании корпусов текстов. На их основании были проведены исследования и выбраны структуры, позволяющие оптимально с точки зрения скорости и времени доступа хранить информацию.

Разработанные структуры данных могут быть применены для создания произвольных корпусов, в том числе для малораспространённых языков.

Наличие возможности использования оригинальной графики позволяет исследователям применять данные модели для исследования связей между исходным текстом и современной графикой.

Размеченные корпуса могут быть использованы при научных изысканиях в области истории, грамматики, лексикографии, а также при изучении соответствующих курсов студентами филологических специальностей. Кроме того, он может быть востребован специалистами по литературе XIX века.

В диссертационном исследовании рассмотрена и решена задача автоматизирования грамматического и синтаксического разбора на основании информации, уже имеющейся в корпусе.

В работе рассмотрены и предложены различные методы разбиения текста на фрагменты однородности.

Предложенные методы и алгоритмы реализованы в программном комплексе СМАЛТ, предназначенном для создания мультиязычных корпусов текстов и нахождения различной статистической информации в них. Апробация данного программного комплекса выполнялась при создании корпусов русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат».

Работа имеет законченный характер. Основными перспективными направлениями её развития являются: разработка методов, позволяющих улучшить снятие омонимии; добавление семантического разбора и анализа; добавление методов, позволяющих классифицировать жанр и общую тематику произведений;

добавление методов, позволяющих выискивать плагиат и заимствование из других источников; добавление методов выделяющих эмоциональную окраску.

Список работ, опубликованных по теме диссертации 1. Седов, А. В. Анализ неоднородностей в тексте на основе последовательностей частей речи [Электронный ресурс] / А. В. Седов, А. А. Рогов // Современные проблемы науки и образования, 2013. - № 1, Режим доступа : http://www.science-education.ru/107-8339 (дата обращения: 12.02.2013).

2. Информационная система для создания размеченных корпусов малой размерности / А. А. Котов, М. Ю. Некрасов, А. В. Седов, А. А. Рогов // Учёные записки Петрозаводского государственного университета. — 2012. — Т. 1, № 8(129). — С. 108–112.

3. Математические методы атрибуции текстов / А. А. Рогов, А. В. Седов, Ю. В. Сидоров, Т. Г. Суровцова. — Петрозаводск: Изд-во ПетрГУ, 2012. — 4. Лингвистический корпус как объект и инструмент исследований / А. В. Седов, А. А Котов, М. Ю. Некрасов, А. А. Рогов. Изд-во ПетрГУ. — Петрозаводск, 2012. — 48 с.

5. Седов, A. В. Комплекс программ по выявлению неоднородности в тексте / A. В. Седов, А. А. Рогов // Информационная среда ВУЗА XXI века. Материалы международной научной конференции. — Куопио (Финлядния), 4- декабря 2012 г. — С. 135–139.

6. Некрасов, М. Ю. Комплекс программ по созданию размеченных корпусов текстов / М. Ю. Некрасов, А. А. Рогов, A. В. Седов // Информационная среда ВУЗА XXI века. Материалы международной научной конференции. — Куопио (Финлядния), 4-10 декабря 2012 г. — С. 112–115.

7. Некоторые особенности создания размеченных корпусов текстов в устаревшей графике и орфографии / А. А. Рогов, A. В. Седов, М. Ю. Некрасов, А. А. Котов // Информационный бюллетень ассоциации «История и компьютер», № 37. Труды международной конференции «Компьютерные технологии и математические методы в исторических исследованиях». — Петрозаводск, 11-16 июля 2011. — Июль. — С. 85–91.

8. Некрасов, М. Ю. Особенности создания корпуса текстов с синтаксической разметкой / М. Ю. Некрасов, A. В. Седов // Труды XL международной научной конференции аспирантов и студентов «Процессы управления и устойчивость» Control Processes and Stability (CPS’09) / СПб.: С.–Петербургский гос.

университет, факультет прикладной математики – процессов управления. — 2009. — С. 485–490.

9. Некоторые особенности формирования электронного корпуса тестов с синтаксической разметкой / А. А. Рогов, Г. Б. Гурин, А. А. Котов и др. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всероссийской научной конференции «RCDL-2009» / Петрозаводск: КарНЦ РАН. — 2009. — С. 276–283.

10. Котов, А. А. Особенности создания электронного ресурса «материалы к синтаксическому словарю» [Электронный ресурс] / А. А. Котов, Г. Б. Гурин, А. В. Седов и др. // Российский научный электронный журнал «Электронные библиотеки», 2010, Режим доступа :

http://elbib.ru/index.phtml?page=elbib/rus/journal/2010/part2/KGSNSR (дата обращения: 8.11.2011 г.).

Подписано в печать 19.11.2013. Формат 60х84 1 /16.

Уч.-изд.л. 1,0. Тираж 100 экз. Изд. № 435.

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Отпечатано в типографии Издательства ПетрГУ 185910, г. Петрозаводск, пр. Ленина,



Похожие работы:

«Нгуен Ань Туан ИССЛЕДОВАНИЕ ОСОБЕННОСТЕЙ РАБОТЫ ЭХОПОДАВЛЯЮЩИХ УСТРОЙСТВ НА СЕТИ МОБИЛЬНОЙ СВЯЗИ ВЬЕТНАМА. Специальность 05.12.13 - Системы, сети и устройства телекоммуникаций АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва – 2012 Работа выполнена на кафедре многоканальной электросвязи Федерального государственного образовательного бюджетного учреждения высшего профессионального образования Московский технический университет связи и...»

«КОМЕЛИНА ЕЛЕНА ВИТАЛЬЕВНА Система повышения квалификации педагогов в области информатики с использованием модели информационной образовательной среды Специальность 13.00.02 – теория и методика обучения и воспитания (информатика) Авторе ферат диссертации на соискание ученой степени кандидата педагогических наук Москва-2012 Работа выполнена на кафедре математической лингвистики и информационных систем в филологии ФГАОУ ВПО Казанский (Приволжский) федеральный университет Научный...»

«Ибрагимов Солиджон Ибрагимович Административная юстиция в Центрально-Азиатских государствах: проблемы становления и развития. Специальность 12.00.14- Административное право и административный процесс АВТОРЕФЕРАТ диссертации на соискании учёной степени доктора юридических наук Москва 2013г. Работа выполнена на кафедре административного и финансового права Российского университета дружбы народов доктор юридических наук, профессор, Зеленцов Научный консультант Александр...»

«МИРОШНИЧЕНКО Владимир Алексеевич ГЕОИНФОРМАЦИОННЫЙ МЕТОД ПРЕДСТАВЛЕНИЯ И АНАЛИЗА ТЕРРИТОРИАЛЬНОЙ ОБСТАНОВКИ В СИСТЕМАХ ОХРАННОГО МОНИТОРИНГА Специальность: 25.00.35 – Геоинформатика Автореферат диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург – 2007 3 Работа выполнена в Государственной морской академии имени адмирала С.О. Макарова Научный руководитель : доктор технических наук, профессор Биденко Сергей Иванович Официальные оппоненты : доктор...»

«Корябкина Ирина Валентиновна Эффективные способы и средства описания изображений в задачах распознавания Специальность 05.13.17 - Теоретические основы информатики Автореферат диссертации на соискание ученой степени кандидата технических наук Москва 2006 Работа выполнена в Вычислительном центре им. А.А. Дородницына Российской академии наук Научный руководитель : кандидат физико-математических наук И.Б. Гуревич Официальные оппоненты : доктор технических наук, профессор В.С....»

«Довгилович Леонид Евгеньевич Разностные методы высокого порядка точности для решения акустического волнового уравнения и уравнений анизотропной упругости 01.01.07 – Вычислительная математика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2013 Работа выполнена на кафедре вычислительной математики Московского физико-технического института (государственного университета). Научный руководитель : Доктор физико-математических наук...»

«Гусева Алена Леонидовна КОНСТИТУЦИОННО-ПРАВОВОЙ МЕХАНИЗМ ЗАЩИТЫ ПРАВА НА СВОБОДУ ПРЕДПРИНИМАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ В РОССИЙСКОЙ ФЕДЕРАЦИИ 12.00.02 – конституционное право; конституционный судебный процесс; муниципальное право Автореферат диссертации на соискание ученой степени кандидата юридических наук Москва – 2013 2 Диссертация выполнена на кафедре конституционного и муниципального права Российского университета дружбы народов. Научный руководитель Еремян Виталий...»

«Кушнаренко Яна Владимировна ОБОСНОВАНИЕ АКСИОЛОГИИИ В КОНТЕКСТЕ НЕКЛАССИЧЕСКОЙ РАЦИОНАЛЬНОСТИ Специальность 09.00.01 — онтологии и теория познания Автореферат диссертации на соискание ученой степени кандидата философских наук Томск — 2004 Работа выполнена на кафедре философии и Отечественной истории Сибирского государственного университета телекоммуникаций и информатики Научный руководитель : доктор философских наук, профессор Ореховский Александр Игнатьевич. Официальные...»

«Середкин Антон Борисович АЛГОРИТМИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПОСТРОЕНИЯ ЦИФРОВЫХ МОДЕЛЕЙ МАГНИТНОГО ПОЛЯ ПО АРХИВНЫМ ДАННЫМ АЭРОМАГНИТНЫХ СЪЕМОК Специальность 25.00.35 – геоинформатика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата геолого-минералогических наук Иркутск – 2011 Работа выполнена на кафедре технологий геологической разведки в Иркутском государственном техническом университете (ИрГТУ), г. Иркутск Научный руководитель : доктор...»

«Харитонова Светлана Владимировна РАЗРАБОТКА МЕТОДИЧЕСКОГО ПОДХОДА К ОБОСНОВАНИЮ ШКАЛЫ И РАЗМЕРА ВЗНОСОВ РОССИЙСКОЙ ФЕДЕРАЦИИ В БЮДЖЕТ МЕЖДУНАРОДНОГО СОЮЗА ЭЛЕКТРОСВЯЗИ Специальность 08.00.05 – экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями, комплексами - связь и информатизация) Специальность 08.00.14 – мировая экономика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Москва - Работа...»

«УДК 519.816 (043) СЕРЕДА СЕРГЕЙ АЛЕКСАНДРОВИЧ Анализ рисков и минимизация потерь от нелегального распространения программных продуктов Специальность: 08.00.13 – Математические и инструментальные методы экономики АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата экономических наук Москва 2005 Работа выполнена на кафедре Математического обеспечения и технологий программирования Московского государственного университета экономики, статистики и информатики (МЭСИ)....»

«ГОЛОВИНА Надежда Николаевна МЕТОдИкА ИспОЛьзОВАНИя сИсТЕМ зАдАч пО ИНФОРМАТИкЕ кАк сРЕдсТВА ФОРМИРОВАНИя ИНТЕЛЛЕкТуАЛьНых уМЕНИй у сТудЕНТОВ кОЛЛЕджЕй 13.00.02 – теория и методика обучения и воспитания (информатика) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Волгоград — 2013 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Волгоградский государственный...»

«ШУЛЬГА Екатерина Петровна СТРУКТУРА И РАЗВИТИЕ КРЕАТИВНЫХ СПОСОБНОСТЕЙ МЛАДШИХ ШКОЛЬНИКОВ Специальность: 19.00.01 – общая психология, психология личности, история психологии Автореферат диссертации на соискание ученой степени кандидата психологических наук Москва 2010 Работа выполнена на кафедре социальной и дифференциальной психологии филологического факультета Российского университета дружбы народов Научный руководитель : доктор психологических наук, профессор Агапов...»

«Мерзлова Елена Юрьевна ОБ ОПТИМАЛЬНОМ УПРАВЛЕНИИ ПОЛУМАРКОВСКИМИ ПРОЦЕССАМИ ДВУМЯ ИГРОКАМИ С ПРОТИВОРЕЧИВЫМИ ИНТЕРЕСАМИ 01.01.05 – Теория вероятностей и математическая статистика Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва 2006 Работа выполнена на кафедре исследования операций Московского института электроники и математики. Научный руководитель : доктор физ.-мат. наук, профессор Каштанов В. А. Официальные оппоненты : доктор...»

«БУЛАТОВ Иван Симонович Теоретические, содержательные и методические основы курса истории информатики в подготовке учителя в педагогическом вузе 13.00.02-теория и методика обучения и воспитания (информатика) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Москва 2000 Работа выполнена в Ростовском государственном педагогическом университете Научный руководитель : доктор педагогических наук, профессор Т.С. Полякова Научный консультант : кандидат...»

«Бершев Сергей Михайлович РАЗРАБОТКА МЕТОДИКИ ФОРМИРОВАНИЯ ИННОВАЦИОННОЙ ПРОДУКТОВОЙ СТРАТЕГИИ ПРЕДПРИЯТИЯ СВЯЗИ Специальность: 08.00.05 – Экономика и управление народным хозяйством: экономика, организация и управление предприятиями, отраслями, комплексами (связь и информатизация) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Санкт-Петербург 2010 2 Работа выполнена в Государственном образовательном учреждении высшего профессионального...»

«ШАПИРО Мария Яковлевна ОПТИМИЗАЦИЯ ПРИНЯТИЯ РЕШЕНИЙ НА ФОНДОВОМ РЫНКЕ ОПЦИОНОВ И ФИНАНСОВЫХ ФЬЮЧЕРСОВ Специальность 08.00.13 – математические инструментальные методы экономики АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Москва 2007 г. 1 Диссертационная работа выполнена в отделе разработки и проектирования информационных систем и технологий Всероссийского НИИ проблем вычислительной техники и информатизации Федерального агентства по...»

«ЖАКСЫБАЕВА НАТАЛЬЯ НИКОЛАЕВНА Формирование информационной компетентности преподавателей колледжа в условиях информатизации образования 13.00.02 — Теория и методика обучения и воспитания (информатизация в системе начального, среднего и высшего образования) Автореферат диссертации на соискание ученой степени кандидата педагогических наук Республика Казахстан Алматы, 2010 Работа выполнена в Национальном центре информатизации Научные руководители: доктор...»

«Козлова Елена Александровна ЗАДАЧИ ГРАНИЧНОГО УПРАВЛЕНИЯ В УСЛОВИЯХ ПЕРВОЙ КРАЕВОЙ ЗАДАЧИ ДЛЯ СИСТЕМ ГИПЕРБОЛИЧЕСКИХ УРАВНЕНИЙ ВТОРОГО ПОРЯДКА 01.01.02 дифференциальные уравнения, динамические системы и оптимальное управление АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Белгород 2013 Работа выполнена на кафедре Прикладная математика и информатика феде рального государственного бюджетного образовательного учреждения высше го...»

«НЕФЕДОВА Мария Владимировна СТАНОВЛЕНИЕ И РАЗВИТИЕ ПЕДАГОГИЧЕСКОГО ОБРАЗОВАНИЯ В КАЗАНСКОМ ИМПЕРАТОРСКОМ УНИВЕРСИТЕТЕ (1804 — 1917 гг.) Специальность 13.00.01 – Общая педагогика, история педагогики и образования АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Казань 2013 Работа выполнена на кафедре педагогики ФГАОУ ВПО Казанский (Приволжский) федеральный университет Научный руководитель Ратнер Фаина Лазаревна доктор педагогических наук,...»














 
© 2013 www.diss.seluk.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Методички, учебные программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.