Анализ тональности сообщений


The Presentation inside:

Slide 0

Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста


Slide 1

Введение Opinion Mining – извлечение мнений, а не фактов: Поиск отзывов о товарах и услугах (как потребителями, так и производителями) Анализ мнений для политологических, социологических и др. исследований Другие приложения: Рекомендательные системы Извлечение информации Вопросно-ответный поиск


Slide 2

Общая схема Объект O имеет (иерархический) набор свойств fi Каждое свойство может выражаться набором слов/словосочетаний wi - синонимов Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах


Slide 3

Основные задачи На уровне документа: Классификация тональности Классы: позитивный, негативный, нейтральный Предполагается, что каждый документ содержит мнение только об одном объекте и только одного субьекта На уровне предложения: Идентификация предложений, содержащих мнения Определение тональности предложения Предполагается, что каждое предложение содержит только одно мнение На уровне свойств: Определение свойств, которые оценивает субъект Сгруппировать синонимы (если они неизвестны) Идентифицировать тональность оценки


Slide 4

Классификация документов Классификация – классическая задача машинного обучения Различия с тематической классификацией только в используемых свойствах Наличие терминов и их частота (часто взвешенная) Части речи – для определения тональности принципиально важны прилагательные и наречия Оценочные слова и словосочетания (словарь или более сложная структура типа WordNet) Синтаксические зависимости – позволяют делать предположения о семантических отношениях между оценочными и тематическими словами Отрицания – могут изменить мнение на противоположное


Slide 5

Категоризация документов Список оценочной лексики (прилагательные и наречия) Для всех упоминаний объекта и/или его свойств рядом с оценочной лексикой, подсчитывается коэффициент взаимной информации: Итоговая оценка для данного упоминания: Оценка суммируется для документа в целом


Slide 6

Уровень документа и предложения Документ может быть очень противоречивым Требуется переход на уровень предложений Классификация предложений: Объективные/субъективные И затем негативные/позитивные Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa) Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств


Slide 7

Оценка свойств Идентификация свойств Группировка синонимов Определение оценок Подходы очень похожи на Information Extraction: (Named) Entity Recognition + установление фактов (оценок) Словари, образцы, машинное обучение


Slide 8

Сравнения Два вида оценок: X хороший (плохой, тяжелый, легкий, звонкий…) X лучше (хуже, выше, ниже, толще, мощнее…) чем Y Требуют более детальной обработки Типы сравнений: Градации A лучше B А такой же как B A лучше всех Сравнения по свойствам У A есть характеристики, которых нет у B У А одни свойства, у В другие А похож на В не считая некоторых свойств


Slide 9

Примеры сравнений


Slide 10

Построение словарей Вручную На основе существующих словарей и тезаурусов (WordNet) Автоматически Bootstrapping Она умная и красивая vs. Она умная, но вредная Возможно построение доменно-ориентированных словарей


Slide 11

Источники Liu B. Sentiment Analysis and Subjectivity // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 627-666 Bing Liu Web Data Mining. Lecture Slides, Chapter 11 – http://www.cs.uic.edu/~liub/WebMiningBook.html Bing Liu Opinion Mining and Summarization, tutorial - http://www.cs.uic.edu/~liub/FBS/opinion-mining-sentiment-analysis.pdf Bo Pang and Lillian Lee Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008. – http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html


×

HTML:





Ссылка: