|
| ||||||||||||
| ||||||||||||
|
2008 г.
Методы бикластеризации для анализа интернет-данныхДмитрий Игнатов,
2.5.2. Алгоритм Apriori
Рассмотрим алгоритм Apriori, ставший первым эффективным алгоритмом поиска частых множеств признаков. Алгоритм Apriori предназначен для поиска всех частых множеств признаков. Он является поуровневым, использует стратегию поиска в ширину и осуществляет его снизу-вверх. В алгоритме используются две структуры данных:
Процедура AprioriGen для
Алгоритм Apriori был разработан для извлечения частых множеств признаков из данных о покупках, которые обычно являются разреженными и слабо коррелированными. Для таких данных число частых множеств признаков невелико, и алгоритм работает очень хорошо. Позднее, когда возникла необходимость поиска частых множеств признаков в плотных, сильно коррелированных данных, оказалось, что Apriori неэффективно работает на таких массивах. Как следствие, для решения проблемы были предложены различные варианты оптимизации и расширения исходного алгоритма (например, Apriori-Close, Pascal, Zart). 2.5.3. Связь частых замкнутых множеств признаков и ФАПВ сообществе ФАП хорошо известен тот факт, что семейства частых множеств обладают решеточной структурой (см., например, [59]). Приведем определение решетки замкнутых частых множеств признаков.
Определение 2.31
Пусть дан формальный контекст
Отметим, что такая решетка изоморфна решетке понятий соответствующего контекста, а ее элементы совпадают с содержаниями понятий. Если задать ограничение на величину поддержки, то мы получим так называемую решетку-айсберг, т.е. верхнюю часть 2.6. Ассоциативные правила в контексте бикластеризацииВ сообществе DataMining ассоциативные правила являются, пожалуй, одним из наиболее востребованных инструментов для исследования признаковых зависимостей. И хотя ассоциативные правила явно не относятся к методам бикластеризации мы не только укажем на их тесную связь с ФАП, но и покажем, как менее "жесткие", чем формальные понятия, бикластеры могут быть получены с помощью ассоциативных правил.Одной из первых работ, положившей начало применению ассоциативных правил промышленного масштаба в середине 90-х годов прошлого века, была [10]. Однако ранее в анализе формальных понятий изучались так называемые частичные импликации [52], которые фактически и были переоткрыты как ассоциативные правила в сообществе DataMining. Появление раздела, посвященного задаче поиска ассоциаций, обосновано также тем, что, оказывается, с бискластеризацией их связывают не только теоретические рассмотрения, но и общие прикладные задачи. 2.6.1. Ассоциативные правила: общий взглядДадим основные определения.
Определение 2.32
Пусть дан контекст
Значение
Значение
Для аналитика обычно интересны ассоциативные правила с поддержкой supp и степенью достоверности conf не ниже заданных значений min_supp и min_conf соответственно. Для решения этой задачи можно построить все частые множества признаков. Напомним, что множество признаков
Частое ассоциативное правило получают из частого подмножества признаков
Отметим, что ассоциативные правила при значениях
2.6.2. Связь ассоциативных правил и бикластеризации
Пусть даны два соседних формальных понятия в смысле отношения покрытия
очевидно, что
|
|
CITForum © 1997–2025