Извлечение информации


The Presentation inside:

Slide 0

Извлечение информации Лидия Михайловна Пивоварова Системы понимания текста


Slide 1

Введение Information Extraction – извлечение из текста информации определенного типа и представление ее в заданном формате (чаще всего БД) Information Retrieval Text Understanding Information Extraction


Slide 2

Мотивация Пополнение баз данных (и баз знаний) Получение входных данных для работы других систем Привлечение внимания эксперта к значимым аспектам информации


Slide 3

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт


Slide 4

– выработка общих подходов к методологии и способам оценки систем извлечения информации из текста. MUC (Message Understanding Conference), 1987-1997


Slide 5

Named Entity recognition - выделение именованных сущностей Coreference resolution - разрешение кореференции Template Element construction - добавление атрибутов к сущностям, найденным на этапе NE, с использованием CR Template Relation construction – выявление связей между отдельными сущностями Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR Дорожки MUC


Slide 6

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. Named Entity recognition: доктор Биг Хед, Хед, Билд Рокет Инкорпорейтед ракета, вторник… Сoreference resolution: доктор Биг Хед ? Хед это > ракета Template Element construction:


Slide 7

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. Template Relation construction: Scenario Template production:


Slide 8

Recall = Ncorrect /Nall-correct Precision = Ncorrect /(Ncorrect + Nincorrect ) F-mera = (?2+1 )*r*p/(?2 * r+p) Named Entity recognition F<94% Coreference resolution F<62% Template Element construction F<87% Template Relation construction F<76% Scenario Template production F<51% Оценка


Slide 9

Дальнейшее развитие ACE (Automatic Content Extraction) 1999 – 2008 По сравнению с MUC: более детальная таксономия сущностей для всех систем обязательна интерпретация метонимических связей требуется семантический анализ обрабатываемого текста Text Analysis Conference (TAC) – настоящее время


Slide 10

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт


Slide 11

Основные подходы Задача всегда предельно конкретна: определенный тип текста искомая информация представлена в виде набора полей для заполнения Текст, включающий такую информацию, предельно шаблонный Поиск осуществляется при помощи набора образцов


Slide 12

Образцы Состав образцов: Лексика, семантика Частичный синтаксис Близость, взаимное расположение частей Формат: Зависит от формата представления текста в системе Часто используются специальные языки (грамматики) Построение образцов: Вручную Машинное обучение (bootstrapping) Обобщение образцов с привлечением словарных и/или онтологических ресурсов


Slide 13

Машинное обучение Pro: не требует большого количества ручного труда по написанию правил система более гибкая, ее легко перенастроить Contra: требуется большой обучающий корпус, правильно и полностью размеченный сложно отследить в каком именно месте возникла ошибка и исправить ее «точечно»


Slide 14

Правила Pro: Может быть предпочтительна в случае сложной предметной области и/или отсутствия лингвистических ресурсов Contra Большая ручная работа, требующая специальной квалификации Трудно перенастраивать Возможны (и даже предпочтительны) гибридные подходы


Slide 15

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Анафора и кореференция Наш опыт


Slide 16

Извлечение именованных сущностей Named Entity: Стандартные примеры: персоналии, географические названия, организации… Для биологических текстов: названия генов, белков, ферментов… Не только для Information Extraction: ответы на вопросы, извлечение мнений, реферирование… Named Entity Recognition: Information Extraction в миниатюре; проще, потому что не нужно извлекать связи между понятиями


Slide 17

Основные подходы Основанный на знаниях: список имен собственных регулярные выражения, описывающие именованные сущности образцы, описывающие контекст Машинное обучение обучающий корпус определение характерных свойств поиск по этим свойствам


Slide 18

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт


Slide 19

Извлечение отношений между понятиями Отношения: Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ… Специфические для предметной области – СТРАНА-СТОЛИЦА, БЕЛОК-ФЕРМЕНТ… В тексте определяются: Свойствами именованных сущностей Лексическими свойствами контекста Синтаксическими свойствами контекста Извлечение: Правила (образцы) vs. машинное обучение Поиск: начиная с именованных сущностей vs. Начиная с отношений


Slide 20

Анафора и кореференция Извлечение информации в масштабах текста Кореференция: возможно использование экстралингвистической информации Анафора: невозможно использование экстралингвистической информации Вокруг местоимения отыскиваются существительные-кандидаты Проверяется согласование Статистики и эвристики Во многих систем не разрешается ни анафора, ни даже кореференция – трудоемкие алгоритмы, низкое качество


Slide 21

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт: Система фактографического поиска в газетных текстах Система автоматического пополнения онтологии на основе энциклопедических и толковых словарей


Slide 22

Система фактографического поиска в газетных текстах Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М., Чуприн Б. Ю.  Методы извлечения фактографической информации из текстов. Опыт разработки.  // Megaling’2007 Горизонты прикладной лингвистики и лингвистических технологий– Симферополь: Изд-во ДиАйПи, 2007. Пивоварова Л.М. Фактографический анализ текста в системе поддержки принятия решений // Вестник Санкт-Петербургского университета Сер. Филология, востоковедение, журналистика. 2010. Вып. 4 - 190-197


Slide 23

Система Factors Система, основанная на знаниях – используется онтология IntTez - http://inttez.ru/


Slide 24

Постановка задачи Задача: извлечение из текстов СМИ информации общественно-политической тематики. Факторы - различные характеристики общественно-политической ситуации(около 100). Значения факторов: Количественные - число пенсионеров; средний уровень заработной платы Оценочные - социальная напряженность; военные угрозы


Slide 25

Система Factors: - интеллектуальная среда для поддержки работы эксперта-аналитика с текстами. Режимы работы: Автоматический Диалоговый ТЕКСТЫ FACTORS


Slide 26

Функциональность: Последовательное наращивание распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой. Легкость и простота редактирования и пополнения; визуальное представление информации. Функциональная расширяемость и переносимость на другие проблемные и предметные области.


Slide 27

Образцы Текстовые – выделение в тексте релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей) Концептуальные – сборка образца из концептов онтологии (при анализе осуществляется поиск с учетом отношения «общее-частное») Смешанные


Slide 28

Образцы Фактор + значение В основном для оценочных факторов социальная напряженность > стихийный митинг Только фактор Для количественных факторов: уровень инфляции > инфляция составила 4%


Slide 29

Поиск образцов в тексте население ... право на труд ... ограничение 1) Поиск опорного элемента население ... право на труд ... ограничение 2) Поиск в окрестности других элементов население ... право на труд ... ограничение Для концептов образца – учет синонимов ограничение = ограниченный, ограничить, ущемление Параметры поиска предполагают отладку и настройку


Slide 30

Только фактор: поиск значения Собственный признак фактора – концепт, отвечающий на вопрос «количество (величина) чего?» Уровень зарплаты > заработная плата Транспортные издержки > траты Число пенсионеров > пенсионеры Онтология: собственный признак - единица измерения заработная плата - денежная единица пенсионеры - без единиц


Slide 31

Общий алгоритм поиска 1) Поиск образца 2) Определение собственного признака и единиц измерения 3) Поиск числа с единицей измерения 4) Проверка соответствия единиц измерения 5) Если число не найдено – поиск слов большой, маленький, растет, падает и их синонимов 6) Определение достоверности


Slide 32

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт: Система фактографического поиска в газетных текстах Система автоматического пополнения онтологии на основе энциклопедических и толковых словарей


Slide 33

V. Bocharov, L. Pivovarova, V. Rubashkin, B. Chuprin Ontological Parsing of Encyclopedia Information. In Computational Linguistics and Intelligent Text Processing 11th International Conference, CICLing 2010, Iasi, Romania, March 21-27, 2010. Proceedings. Lecture Notes in Computer Science. - Springer Berlin / Heidelberg – 2010 – pp. 564 – 579 Бочаров В.В., Пивоварова Л.М., Рубашкин В.Ш. Логико-лингвистический анализ текстов определений в энциклопедических и толковых словарях // Сучасні технології комп’ютерної лексикографії (на матеріалах міжнародної конференції «MegaLing’2009») : Зб. наук. пр. / НАН України, Укр. мовно-інформ. фонд [та ін.]; редкол.: Ю. Д. Апресян [та ін.].— К. : Довіра, 2009 Рубашкин В.Ш., Бочаров В.В., Пивоварова Л.М., Чуприн Б.Ю. Опыт автоматизированного пополнения онтологий с использованием машиночитаемых словарей // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010. Система автоматического пополнения онтологии на основе


Slide 34

Пополнение онтологий Пополнение онтологий – бутылочное горлышко инженерии знаний Ontology Learning – автоматическое пополнение онтологии на основе естественно-языковых текстов


Slide 35

Источник Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.: Большая Российская энциклопедия, 2001 исключены персоналии, географические названия и другие имена собственные 26375 словарных статей, 21782 различных терминов


Slide 36

Гипотеза В большинстве случаев родовой по отношению к определяемому термин представлен первым по порядку существительным (именной группой) в именительном падеже. АГРАФ - нарядная заколка для волос, с помощью которой крепили в прическах перья, цветы, искусственные локоны и т. д.


Slide 37

Примеры ПЕРИСТИЛЬ - прямоугольный двор, сад, площадь, окруженные с 4 сторон крытой колоннадой. ЯТАГАН - рубяще-колющее оружие (среднее между саблей и кинжалом) у народов Ближнего и Среднего Востока (известно с 16 в.).


Slide 38

Общий алгоритм анализа


Slide 39

сокращения (разворачиваются в полные слова, если это возможно) пометы (удаляются) текст в скобках (удаляется) Лексикографическая обработка


Slide 40

АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков Лексикографическая обработка


Slide 41

Используются компоненты АОТ Упрощённые правила (Tomita-формализм) Строится дерево зависимостей Синтаксический анализ


Slide 42

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NOUN]; [NP] -> [NP root] [PP] ; [NP] -> [PP] | [GP] | [ANP]; Упрощенные правила


Slide 43

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА ГЕНИТИВНАЯ ГРУППА АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ АБЗАЦ – ЧАСТЬ ТЕКСТА ПРЕДЛОЖНАЯ ГРУППА АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ


Slide 44

Синтаксический анализ: снятие неоднозначности


Slide 45

о чукотском море море МОРЕ (ср.р.) МОР (мр.р.) МОРА (жр.р.) МОРА отбрасывается после синтаксического анализа Неоднозначность: пример


Slide 46

АВАНПОРТ - внешняя часть порта, предназначенная для стоянки судов, ожидающих подхода к причалам, погрузки и разгрузки. ШНЕК - название винтового конвейера. ПАРАБОЛОГРАФ - прибор для вычерчивания плоских кривых 2-го порядка (парабол). Отношение между термином и определением


Slide 47

Типы выделяемых отношений


Slide 48

Правила приписывается конкретному опорному слову описывает на какой тип отношений указывает данное слово следует ли сохранять данное слово в качестве опорного или необходимо отбросить его и перейти к следующему, указанному правилом.


Slide 49

Примеры правил: тождество Обозначение Тип отношения меняется на Same Записывается следующее (по дереву) существительное СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки.


Slide 50

Явление Записывается «явление» Тип отношения меняется на Same Записывается следующее (по дереву) существительное СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения , соответствующие другому органу чувств. Примеры правил: тождество


Slide 51

Явление Записывается «явление»… атмосферное явление, физическое явление ИЗОМЕРИЯ - явление, заключающееся в существовании изомеров - соединений, одинаковых по составу и молекулярной массе, но различающихся по строению или расположению атомов в пространстве. Зачем нужен первый пункт


Slide 52

Записать – <имя отношения> - следующее существительное <имя отношения> - следующее существительное Сложные правила Общий вид правил


Slide 53

Род, вид, сорт… <Gen> - следующее существительное. ФИЛЬДЕПЕРС - высший сорт фильдекоса. ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения. Примеры правил: обобщение


Slide 54

Жанр Записать - <Gen> - следующее существительное. МИСТЕРИЯ - жанр средневекового западноевропейского религиозного театра. Примеры правил: обобщение


Slide 55

Совокупность <Part> - следующее существительное. АРХИВ - совокупность документов, образовавшихся в результате деятельности учреждений, предприятий и отдельных лиц. Примеры правил: часть


Slide 56

Cкопление Записать - <Part> - следующее существительное. ГАНГЛИЙ - анатомически обособленное скопление нервных клеток , волокон и сопровождающей их ткани . НО: ПНЕВМОТОРАКС - скопление воздуха или газов в полости плевры. Примеры правил: часть


Slide 57

Часть <Whole> - следующее существительное. АЛГЕБРА - часть математики , развивающаяся в связи с задачей о решении алгебраических уравнений. Примеры правил: целое


Slide 58

Участок Записать - <Whole> - следующее существительное. АНТИКОДОН - участок транспортной РНК, состоящий из трех нуклеотидов. НО: ИМЕНИЕ - земельный участок с усадьбой. Примеры правил: целое


Slide 59

Метод, способ <Func> - следующее существительное. ЗАИЛЕНИЕ - метод мелиорации песчаных земель. СГРАФФИТО - способ декоративной отделки стен, при котором рисунок процарапывается в верхнем слое штукатурки и обнажается нижний слой, отличающийся по цвету. Примеры правил: инструмент/назначение


Slide 60

Орудие Записать - <Func> - следующее существительное. ПЕРЕМЕТ - орудие лова рыбы (главным образом хищной). НО: артиллерийское орудие орудие труда Примеры правил: инструмент/назначение


Slide 61

Инструмент, прибор, аппарат… Записать Перейти к следующему предлогу Если это для: Func – следующее существительное. ФЕН - электрический аппарат для сушки волос. «Сложные» правила


Slide 62

Записать - <Other> - следующее существительное. АБОРТ - прерывание беременности в сроки до 28 недель (то есть до момента, когда возможно рождение жизнеспособного плода). ХОМИНГ - способность животного возвращаться со значительного расстояния на свой участок обитания, к гнезду, логову и т. д. Другие типы отношений


Slide 63

Другие типы отношений


Slide 64

18 правил 91 опорное слово, для которого существуют правило 8484 статей, для которых используются 4679 различных опорных слов 1978 опорных терминов Правила: резюме


Slide 65

Экспертная оценка, 200 словарных статей 90% случаев (179 статей) решения совпали с результатами, полученными автоматически 21 случай ошибок: 16 случаев – неточности алгоритма 5 случаев – опорное слово отсутствует в тексте определений Оценка


Slide 66

АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование, притирка и другие ). АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул. АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.


Slide 67

Результаты логико-лингвистического анализа представляются в виде таблицы единица ? измерения Пополнение онтологии


Slide 68

Указание базового концепта онтологической таксономии Формирование энциклопедической выборки Добавление терминов выборки Постредактирование Процедура пополнения


Slide 69

Базовый концепт: СУДНО Энциклопедическая выборка: балкер баржа барк барка баркас баркентина брандвахта брандер бриг бригантина бригантина газовоз газотурбоход галера галион глиссер джонка дизель-электроход землесосный снаряд землечерпальный снаряд иол катамаран катамаран кеч килектор клинкер клипер ковчег корабль военный коч кунгас ледокол лихтер лодка нис пароход парусное судно плашкоут понтон приз прорезь рыбоконсервная плавучая база рыбопромысловая база сейнер скампавея струг суда обеспечения судно на воздушной подушке судно на подводных крыльях судно научно-исследовательское тендер теплоход траулер тримаран турбоход шлюп шхуна электроход яхта С учетом отношения НИЖЕ: ШЛЮПКА: баркас вельбот гичка туз БАРЖА: шаланда Пополнение онтологии: пример


Slide 70

Источники Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval - http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172 Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007 Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction - http://www.stanford.edu/class/cs124/ Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging - http://www.stanford.edu/class/cs124/ Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты – http://mathlingvo.ru/nlpseminar/archive/s_32


×

HTML:





Ссылка: