Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста


The Presentation inside:

Slide 0

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Емашова О.А. ([email protected]), Мальковский М.Г. ([email protected]) Московский Государственный Университет им. М.В. Ломоносова факультет Вычислительной Математики и Кибернетики


Slide 1

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Разрабатывается система автоматического реферирования текстов на русском языке. Методы общего назначения обрабатывают тексты по одному и тому же принципу. Однообразный подход не может обеспечить высоких результатов при реферировании широкого класса текстов. Выходом служит разбиение всего класса обрабатываемых текстов на несколько подклассов, внутри каждого из которых тексты обладают схожими свойствами. Как правило, в качестве параметра разбиения выбирается предметная область, для которой разрабатывается узкоспециальный алгоритм реферирования. Однако такие алгоритмы трудно поддаются модификации при смене предметной области. Функциональный стиль (ФС) текста является одним из эффективных параметров классификации текстов русского языка в задаче автоматического реферирования.


Slide 2

Тексты, относящиеся к разным функциональным стилям, обладают сходными характеристиками, учет которых позволяет точнее оценивать информативность слов и отрывков текста. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Научный стиль (НС) Объективность, отвлеченность от конкретного в пользу закономерностей, логичность и последовательность изложения. Обилие терминов. Именной характер речи, десемантизация глаголов. Специфическая орга-низация текста. Информацион-ная насыщенность заголовков параграфов и всего текста. Официально-деловой стиль (ОДС) Четкость формулировок и однознач-ность толкования. Особое внимание к выбору слов на этапе написания исходного текста. Регулятивный, предписывающий характер речи. Рубрикация. Использование парал-лельных синтаксических конструк-ций, оформленных в виде нумеро-ванных списков. Отсутствие побоч-ной, необязательной информации. Реквизиты.


Slide 3

Тексты, относящиеся к разным функциональным стилям, обладают сходными характеристиками, учет которых позволяет точнее оценивать информативность слов и отрывков текста. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Публицистический стиль Социально-оценочный и информационный характер речи. Использование широкого спектра выразительных языковых средств. Употребление устаревших слов, слов в переносном значении. Стремление к образности и эмоциональной насыщенности текста. Наиболее информационно значимыми частями речи в текстах являются глагол и имя существительное. Информационно-публицистические жанры (ИПЖ) Краткость. Характерная информационная загруженность первых предложений. Аналитико-публицистические жанры (АПЖ) Характерная для научного стиля организация текста.


Slide 4

Тексты, относящиеся к разным функциональным стилям, обладают сходными характеристиками, учет которых позволяет точнее оценивать информативность слов и отрывков текста. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Художественный стиль (ХС) Разнообразные по объему, составу, форме, теме и жанру тексты. Опора на общие принципы организации текста в русском языке. Реферирование как цитирование большими отрывками. Наиболее информативными частями речи по умолчанию являются имя существительное и глагол. Общий случай Оценка общих характеристик текста. Предоставление пользователю выбо-ра способа реферирования.


Slide 5

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Для оценки важности предложений используется статистическая, морфологическая и стилистическая характеристики слов исходного текста. Вес слова вычисляется по формуле: где fi – частота появления слова i в исходном тексте, N – количество слов в тексте, Pos(wi) – коэффициент информативности части речи (соответствующая координата вектора R_InfArr[3]), Kw(wi) – коэффициент, отвечающий за принадлежность слова к ключевым и/или тематически важным словам.


Slide 6

Для каждого функционального стиля разрабатывается собственный подход к оценке и способу выборки отрывков текста в конечный реферат. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Для НС и АПЖ: Inf_Sci(n , m) - начальные и конечные предложения каждого абзаца содержательно важнее, чем внутренние Для ИПЖ: Inf_News(n , m) - начальные предложения текста содержательно важнее, чем остальные Для ХС и ОДС: - нет зависимости важности предложения от его положения в тексте Для ХС и ПС: Inf_Arr[3] = {1.75 ; 1.5 ; 1.0 } - самыми информативными частями речи являются имя существительное и глагол Для НС: Inf_Arr[3] = { 1.75 ; 1.0 ; 1.5 } - самыми информативными частями речи являются имя существительное и имя прилагательное/причастие Для ОДС: - все неслужебные части речи одинаково важны


Slide 7

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста исходный текст предварительная обработка: перевод текста во внутреннее представление, морфологическая обработка текста, построение частотного словаря лексики, вычисление весов слов, предложений и параграфов в зависимости от ФС, выбор порогов сокращения в зависимости от характеристик текста и его ФС. удаление абзацев (для текстов ИПЖ этот этап пропускается) сокращение предложений с использованием модуля синтаксического анализа (для текстов ХС, ИПЖ и АПЖ этот этап пропускается) удаление предложений (для текстов ХС этот этап пропускается) завершающая обработка текста: обработка заголовков и реквизитов, перевод из внутреннего представления в обычный текст. конечный реферат


Slide 8

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Предложен подход, существенным образом учитывающий функциональный стиль реферируемого текста на русском языке. Выбраны и параметризованы пять функциональных групп. Разработаны методы реферирования, учитывающие относительную информа-тивность частей речи и распределение важности предложений внутри текста, характерные для каждой из выделенных групп текстов. Разработан общий алгоритм, настраиваемый на особенности кон-кретного текста и воплощающий разработанные методы рефери-рования документов разных функциональных групп. На основе предложенного алгоритма на языке С++ реализован программный продукт, позволяющий реферировать тексты на русском языке. Проведена проверка разработанного алгоритма автоматического реферирования на тестовом наборе текстов. Результаты


Slide 9

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста "Апофис" - стоит ли верить прогнозам астрономов? Российские астрономы не слишком верят в вероятность столкновения Земли с астероидом "Апофис- 99942" в 2029 году. Как сообщил в четверг на пресс-конференции старший научный сотрудник Главной астрономической обсерватории РАН Сергей Смирнов, малая планета "Апофис" приблизится к Земле в пятницу 13 апреля 2029 года на расстояние приблизительно 0.0002318 астрономических единиц, что составляет примерно 30-40 тыс. км. "Как известно, именно на этой высоте проходит геостационарные орбиты. Находящимся на них спутникам в случае встречи с вышеназванным астероидом грозит поломка, и обломки некоторых из них могут упасть на Землю", - сказал Смирнов. Между тем, по мнению астронома, астероид пройдет между Землей и Луной, "как маленькая щепка между большим кораблем и катером - не касаясь ни того, ни другого". Однако у населения России, хорошо знающего цену всевозможным прогнозам, особенно в области природных явлений, есть все основания проявлять если не беспокойство, то осторожность и предусмотрительность. Летящий со страшной скоростью огненный шар может повлечь самые серьезные последствия - достаточно найти на карте мира Мексиканский залив. Астероид, названный в честь древнеегипетского бога тьмы Апофиса, попал в поле зрения астрономов в июне 2004 года. Диаметр его составляет, по разным оценкам, от 400 до 600 метров, а скорость - более 30 километров в секунду. Реферат с коэффициентом 0.63 "Апофиc" - стоит ли верить прогнозам астрономов ? Российские астрономы не слишком верят в вероятность столкновения Земли с астероидом "Апофис-99942" в 2029 году . Как сообщил в четверг на пресс-конференции старший научный сотрудник Главной астрономической обсерватории РАН Сергей Смирнов , малая планета "Апофис" приблизится к Земле в пятницу 13 апреля 2029 года на расстояние приблизительно 0.0002318 астрономических единиц , что составляет примерно 30-40 тыс. км. Между тем , по мнению астронома , астероид пройдет между Землей и Луной , " как маленькая щепка между большим кораблем и катером - не касаясь ни того , ни другого " . Летящий со страшной скоростью огненный шар может повлечь самые серьезные последствия - достаточно найти на карте мира Мексиканский залив . Астероид , названный в честь древнеегипетского бога тьмы Апофиса , попал в поле зрения астрономов в июне 2004 года .


Slide 10

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Спасибо за внимание!


×

HTML:





Ссылка: