|
| ||||||||||||
| ||||||||||||
Визуальные средства поиска информации в документоориентированных базах данныхВ. Плешко, Гарант-Парк Постоянно растущий поток документов, проходящих через информационное пространство предприятий, все чаще заставляет менеджеров информационных систем искать новые решения по автоматизации документооборота. Основная проблема, которая встает перед пользователем, имеющим дело с большими массивами документов - это быстрое получение необходимой информации. Современные системы автоматизации документооборота предлагают в основном следующие четыре вида поиска:
Редко случается, когда документы приходят в нескольких заранее установленных и неизменных форматах, и появляется возможность создать средства поиска документов по атрибутам. В общем случае автоматически удается отслеживать лишь минимальный набор атрибутов, как-то: время поступления документа, источник. Системы автоматизированной сортировки документов пока еще редко встречаются и довольно дороги. Автору не известно ни одной такой системы, работающей с русским языком. Самый простой выход из такой ситуации - это нанять экспертов по конкретной тематике для сортировки документов по рубрикам. Однако, как показывает опыт, с ростом потока документов, качество работы экспертов по заполнению рубрикатора снижается. Расстановка гипертекстовых ссылок опять-таки лежит целиком на плечах экспертов. Этот процесс поддается автоматизации только в простейших случаях, например, обнаружении в тексте адресов Internet или терминов из толкового словаря. Контекстный поиск - это единственный полностью автоматизируемый вид поиска. Он хорошо работает в качестве дополнения к предыдущим средствам. Но на больших объемах информации, когда нет возможности поддерживать рубрикатор или выделить атрибуты документов, и контекстный поиск является единственным инструментом, получение пользователем нужной информации сопряжено со значительными трудностями. Тот, кто хотя бы раз пользовался услугами поисковых серверов в Internet, например, http://www.altavista.com, тот наверняка сталкивался с тем, что ответ на запрос может состоять из нескольких тысяч документов. Поэтому уже сейчас необходимы дополнительные средства, не требующие специальных форматов представления документов, полностью автоматизированные и позволяющие сузить контекст поиска. Другая сторона разработки систем поиска информации - это улучшение пользовательского интерфейса. В идеале интерфейс должен быть предельно простым, и пользователь должен иметь возможность получать информацию посредством одного щелчка мыши. Естественно, что любая новая технология, позволяющая хотя бы частично решить вышеперечисленные проблемы, представляет большой интерес для любого, кому приходится сталкиваться с большими объемами информации. С начала своего существования фирма "Гарант-Парк" ( http://www.park.ru) активно занимается исследованиями по развитию методов поиска и упорядочения информации для полнотекстовых баз данных. Эти исследования напрямую связаны с деятельностью компании по разработке и поддержке WWW-версии СПС "Гарант", которая хорошо известна широкому кругу пользователей, а также молодой, но быстро развивающейся информационной системы "Парк", ориентированной на предоставление информации экономического характера. Специалисты "Гарант-Парка" постоянно следят за новинками в области новых информационных технологий и пополняют банк данных фирмы информацией о перспективных направлениях. Так, в январе этого года из нескольких кандидатов на внедрение была выбрана новая и перспективная технология, которая, по нашему мнению, может претендовать на роль дополнительного средства поиска в документоориентированных базах данных. Речь идет о методе WebSOM, предназначенном для публикации документоориентированных баз данных в виде карты плотностей на плоскости. WebSOM является аббревиатурой слов Web Self-Organization Maps, что можно перевести, как самоорганизующиеся карты (SOM) для Web. Данная технология была разработана группой ученых, возглавляемой профессором Хельсинкского Технологического Университета Т. Кохоненом. Первая публикация на эту тему в Internet была в январе 1996 года по адресу http://websom.huf.fi/websom/. Там доступны статьи с описанием метода и демонстрацией визуального представления массивов документов из групп новостей Internet. Специалистам "Гарант-Парка" пришлось адаптировать данную технологию к русскому языку, и совсем недавно демонстрационная версия русского WebSOM появилась на сервере "Гарант- Парка" по адресу http://www.park.ru/websom/. ![]() Рис.1. Пример применения метода WebSOM для 1300 документов, случайно отобранных из ИС "Парк". Документы связаны с узлами на карте. Чем ближе содержание документов, тем ближе отвечающие им узлы. Доступ к документам осуществляется щелчком мыши
Визуально (рис. 1) предметная область представлена, как карта с разнородной окраской, где
более темные области соответствуют большему числу документов. В зависимости от содержания
документов области карты поименованы. Пользователь с помощью мышки выбирает любую
точку на карте и получает соответствующие ей документы. Для получения документов,
содержание которых находится на пересечении нескольких категорий (именно так в
терминологии WebSOM называются разделы предметной области), достаточно кликнуть
мышкой в точку, расположенную между или на пересечении областей этих категорий. В общем и
целом, придумать что-либо проще, с точки зрения пользовательского интерфейса, трудно. ![]() Рис. 2 Пример семантической самоорганизующейся карты, построенной при экспериментах группы Кохонена с группой новостей comp.ai.nueral-nets. В узлах карты очень мелким шрифтом написаны, слова попавшие в узлы. В выносках приведено содержимое ряда удачных узлов.
Все это оказалось хорошо для английского языка, но как часто бывает, сломалось на русском.
Менее строгая модель построения предложений, большее влияние стиля документа и тот факт,
что большинство понятий русского языка составляют словосочетания (согласно исследованиям
профессора Г.Г. Белоногова - более 60%), привели к тому, что оригинальная модель не пошла.
Попытки специалистов из "Гарант-Парка" заставить ее удовлетворительно работать с русским
языком успехом не увенчались. В результате в адаптированном WebSOM пришлось подойти к
вопросу организации категорий по другому. Смысловой единицей в нем считается
словосочетание, а выделением категорий смысловых единиц вручную занимаются эксперты.
|
|
CITForum © 1997–2025