|
| ||||||||||||
| ||||||||||||
|
2008 г.
Методы бикластеризации для анализа интернет-данныхДмитрий Игнатов,
2.2. Алгоритм BiMaxВ обзоре [13] проводится систематическое сравнение пяти алгоритмов бикластеризации с предложенным авторами методом BiMax. И хотя каждый из алгоритмов взятых для сравнения придерживается своей собственной вычислительной модели, авторы обзора используют их только для анализа 0/1 данных. Преобразование значений в исходных наборах данных генной экспрессии к бинарным происходит путем нормализации их логарифмов и последующей дискретизации. 2.2.1. Описание модели
Вычислительная модель предполагает, что существует только два возможных уровня генной экспрессии: изменение и отсутствие изменения для данного эксперимента. Множество из m экспериментов для n генов может быть представлено бинарной матрицей
Определение 2.19
Пара
Отметим, что такие максимальные по вложению бикластеры довольно давно и хорошо исследованы с точки зрения алгебраической структуры в рамках ФАП. Это подтверждает следующее утверждение.
Предложение 2.1
Определение максимального по вложению бикластера 2.19 и определение формального понятия 2.12 эквивалентны. Благодаря утверждению 2.1, для бикластеров, предложенных в этой вычислительной модели, можно построить иерархию по отношению покрытия, графически представляющую собой диаграмму решетки формальных понятий. 2.2.2. Описание алгоритма
Алгоритм BiMax следует стратегии "разделяй и властвуй". Первоначально алгоритм определяет области матрицы
Идея, лежащая в основе алгоритма, состоит в следующем: исходная матрица
Для обработки подматрицы 2.3. Шумоустойчивые понятияВ связи с тем, что в исходных 0/1 данных, имеющих объектно-признаковую природу, могут присутствовать ошибочные значения (пропущенные объекты/признаки или напротив лишние) использование Формального Анализа Понятий приводит к увеличению количества формальных понятий. Чтобы избежать порождения таких нерелевантных понятий, необходимы новые типы структур, учитывающие шум такого рода. В качестве одной из таких структур в работе [19] предложено понятие плотного и релевантного бимножеств (DR-bi-set). Одно из свойств DR-бимножества, называющееся плотностью, состоит в том, что внутри подматрицы, образующей такое бимножество, допускается некоторое количество нулей. Формальное понятие является частным случаем DR-бимножества, для которого число нулевых элементов внутри подматрицы равно 0. Ниже будут рассмотрены основные определения и свойства DR-бимножеств, а также приведено описание алгоритма DR-miner. 2.3.1. Описание модели DR-бимножеств
Бимножеством будем называть пару Частным случаем бимножеств являются формальные понятия. Приведем определения, которые помогут провести обобщение формальных понятий до бимножеств.
Определение 2.20
Обозначим через
Теперь формальные понятия можно ввести с помощью леммы.
Лемма 2.1
Бимножество (X,Y) является формальным понятием контекста K тогда и только тогда, когда выполняются следующие условия:
Отношение "быть более частным" (отношение "специализации") в модели вводится иначе, чем это принято для решеток понятий. А именно, требование антимонотонности для содержания понятия заменяется требованием монотонности.
Определение 2.21
Отношение "быть более частным" определяется следующим образом:
Ограничение на минимальный размер компонент бимножества выглядит следующим образом
С помощью монотонного ограничения на допустимое число нулей, приходящихся на признак или объект, можно контролировать число нулей внутри бимножества, сохраняя при этом строгую связь между компонентами бимножества.
Определение 2.22
Пусть даны бимножество
Необходимо извлекать такие бимножества
Определение 2.23
Пусть даны бимножество
Фактически, плотные и релевантные бимножества являются обобщением формальных понятий, которые можно рассматривать как бимножества при значениях
Определение 2.24
Пусть дано плотное и релевантное бимножество
Множество всех таких пар контекста |
|
CITForum © 1997–2025