<<
>>

7.7.4. Классы систем интеллектуального анализа данных

Предметно-ориентированные аналитические системы очень разно­образны. Наиболее широкий подкласс таких систем называется «техническим анализом». Он представляет собой совокупность не­скольких десятков методов прогноза динамики цен и выбора опти­мальной структуры инвестиционного портфеля, основанных на раз- личных эмпирических моделях динамики рынка.
Эти методы могут быть весьма просты (например, методы, использующие вычитание грендового значения), но могут иметь достаточно оригинальную мате­матическую основу [5].

Статистические пакеты. Хотя последние версии почти всех из­вестных статистических пакетов включают наряду с традиционными статистическими методами такясе элементы Data Mining, основное внимание в них уделяется все лее классическим методикам: корреля­ционному, регрессионному, факторному анализу и др. Недостатком систем этого класса считают требование к специальной подготовке пользователя. Также отмечают, что мощные современные статистиче­ские пакеты являются слишком «тяжеловесными» для массового при­менения в финансах и бизнесе.

Есть еще более серьезный принципиальный недостаток статистиче­ских пакетов, ограничивающий их применение в Data Mining. Боль­шинство методов, входящих в состав пакетов, опираются на статисти­ческую парадигму, в которой главными объектами служат усреднен­ные характеристики выборки. А эти характеристики при исследовании реальных сложных жизненных феноменов часто являются фиктивны­ми величинами. В следующих разделах будут специально более под­робно обсуждены эти вопросы.

В качестве примеров наиболее мощных и распространенных ста­тистических пакетов можно назвать SAS (компания SAS Institute), SPSS (SPSS), STATGRAPICS, STATISTICA, STADIA и др. [5].

Нейронные сети. Это большой класс систем, архитектура кото­рых пытается имитировать построение нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных пара­метров, на основе которых нужно принимать какие-то решения, про­гнозировать развитие ситуации и т.

д. Эти значения рассматриваются как сигналы, передающиеся в вышележащий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписы­ваемых межнейронным связям. В результате на выходе нейрона са­мого верхнего слоя вырабатывается некоторое значение, которое рас­сматривается как ответ, реакция всей сети на введенные значения входных параметров. Для того чтобы сеть можно было применять в дальнейшем, ее прежде надо «натренировать» на полученных ранее данных, для которых известны и значения входных параметров, и правильные ответы на них. Эта тренировка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость отве­тов сети к известным правильным ответам.

Основным недостатком нейросетевой парадигмы является необхо­димость иметь очень большой объем обучающей выборки. Другой су­щественный недостаток заключается в том, что даже натренирован­ная нейронная сеть представляет собой черный ящик. Знания, за­фиксированные как веса нескольких сотен межнейронных связей, совершенно не поддаются анализу и интерпретации человеком (из­вестные попытки дать интерпретацию структуре настроенной иейро- сети выглядят неубедительными).

Системы рассуждений на основе аналогичных случаев. Идея систем на первый взгляд крайне проста. Для того чтобы сделать про­гноз на будущее или выбрать правильное решение, эти системы на­ходят в прошлом близкие аналоги текущей ситуации и выбирают тот же ответ, который был для них правильным. Поэтому данный метод еще называют методом «ближайшего соседа». Эти системы показыва­ют хорошие результаты в самых разных задачах.

Главным их минусом считают то, что они вообще не создают ка­ких-либо моделей или правил, обобщающих предыдущий опыт. В выборе решения они основываются на всем массиве доступных исто­рических данных, поэтому невозможно сказать, на основе каких кон­кретно факторов CBR системы строят свои ответы. Другой минус за­ключается в произволе, который допускают эти системы при выборе меры «близости». От этой меры самым решительным образом зави­сит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза.

Примеры систем [5]: KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica^ США).

Деревья решений. Деревья решений являются одним из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ..., ТО...», имеющую вид дерева (это похоже на определитель видов из ботаники или зоологии). Для того чтобы решить, к какому классу от­нести некоторый объект или ситуацию, требуется ответить на вопро­сы, стоящие в узлах этого дерева, начиная с его корня. Вопросы име­ют вид: «Значение параметра А больше X?». Если ответ положитель­ный, осуществляется переход к правому узлу следующего уровня, если отрицательный, то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.

Популярность подхода связана с наглядностью и понятностью. Но очень остро для деревьев решений стоит проблема значимости. Дело в том, что отдельным узлам на каждом новом построенном уровне дерева соответствует все меньшее и меньшее число записей данных. Дерево дробит данные на большое количество частных случаев. Чем больше этих частных случаев, чем меньше обучающих примеров по­падает в каждый такой частный случай, тем менее уверенной стано­вится их классификация. Если построенное дерево слишком «кусти­стое», состоит из неоправданно большого числа мелких веточек, то оно не будет давать статистически обоснованных ответов. Как пока­зывает практика, в большинстве систем, использующих деревья ре­шений, эта проблема не находит удовлетворительного решения. Кро­ме того, общеизвестно, и это легко показать, что деревья решений дают полезные результаты только в случае независимых признаков. В противном они лишь создают иллюзию логического вывода.

Довольно много систем используют этот метод. Самыми распро­страненными являются See5/C5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США) [5].

Эволюционное программирование.

Проиллюстрируем современное состояние данного подхода на примере системы Poly Analyst. В дан­ной системе гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором внутреннем языке программирования. Процесс построения программ строится как эволюция в мире программ (этим подход немного по­хож на генетические алгоритмы). Когда система находит программу, достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построен­ных таким образом дочерних программ те, которые повышают точ­ность. Таким образом, система «выращивает» несколько генетических линий программ, которые конкурируют между собой в точности вы­ражения искомой зависимости. Специальный транслирующий модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.), делая их легкодоступными. Для того что­бы сделать полученные результаты еще понятнее для пользовате- ля-нематематика, имеется богатый арсенал разных средств визуализа­ции обнаруживаемых зависимостей. Для контроля статистической значимости выводимых зависимостей применяется набор современ­ных методов, например рандомизированное тестирование.

Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в форме функций какого-то определенного вида. Например, в одном из наи­более удачных алгоритмов этого типа — методе группового учета ар­гументов (МГУА) зависимость ищут в форме полиномов.

Тенетические алгоритмы. Строго говоря, Data Mining — далеко не основная область применения генетических алгоритмов. Их нужно рассматривать скорее как мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Тем не менее, генетиче­ские алгоритмы вошли в стандартный инструментарий методов Data Mining и поэтому включены в данный обзор.

Пусть нужно найти решение задачи, оптимальное с точки зрения не­которого критерия.

Пусть каждое решение полностью описывается некото­рым набором чисел или величин нечисловой природы. Скажем, если нуж­но выбрать совокупность фиксированного числа параметров рынка, наибо­лее выраженно влияющих на его динамику, это будет набор имен этих параметров. Об этом наборе можно говорить как о совокупности хромо­сом, определяющих качества индивида — данного решения поставленной задачи. Значения параметров, определяющих решение, будут тогда назы­ваться генами. Поиск оптимального решения при этом похож на эволю­цию популяции индивидов, представленных их наборами хромосом. В этой эволюции действуют три механизма: отбор сильнейших — наборов хромосом, которым соответствуют наиболее оптимальные решения; скре­щивание - производство новых индивидов при помощи смешивания хро­мосомных наборов отобранных индивидов; мутации — случайные измене­ния генов у некоторых индивидов популяции. В результате смены поко­лений в конце концов вырабатывается такое решение поставленной задачи, которое уже не может быть далее улучшено.

Генетические алгоритмы имеют ряд недостатков. Критерий отбора хромосом и сама процедура являются эвристическими и далеко не гарантируют нахождения лучшего решения. Как и в реальной жиз­ни, эволюцию может «заклинить» на какой-либо непродуктивной вет­ви. И, наоборот, можно привести примеры, как два неперспективных родителя, которые будут исключены из эволюции генетическим алго­ритмом, оказываются способными произвести высокоэффективного потомка. Это особенно становится заметно при решении высокораз­мерных задач со сложными внутренними связями. Примером может служить система GeneHunter фирмы Ward Systems Group.

Алгоритмы ограниченного перебора. Алгоритмы ограниченного перебора были предложены в середине 70-х годов XX в. М.М. Бон- гард ом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множест­ва задач из самых разных областей.

Эти алгоритмы вычисляют частоты комбинаций простых логиче­ских событий в подгруппах данных. Примеры простых логических событий: X = а; X < а; X > а; а < X > b и др., где X — какой-либо параметр, а и b — константы. Ограничением служит длина комбина­ции простых логических событий. На основании анализа вычислен­ных частот делается заключение о полезности той или иной комбина­ции для установления ассоциации в данных, для классификации, прогнозирования и пр.

Наиболее яркий современный представитель этого подхода — сис­тема WizWhy предприятия WizSoft, являющаяся одним из лидеров на рынке продуктов Data Mining. Это связано с тем, что система по- стояино демонстрирует более высокие показатели при решении прак­тических задач, чем все остальные алгоритмы.

<< | >>
Источник: И. И. Мазур, В. Д. Ша­пиро. Под ред. И.И. Мазура. Управление качеством: Учеб. пособие. — М.: Высш. шк. — 334 с.. 2003

Еще по теме 7.7.4. Классы систем интеллектуального анализа данных:

  1. 12.5. Анализ данных внутренней отчетности о формировании фактической прибыли от продаж
  2. 12.1 Принципы, модели и методы планирования доходов бюджета
  3. 4.2. Классификация информационных систем
  4. 4. Основные задачи анализа данных, позволяющих сделать вывод о совершении убийств одними и теми же лицами
  5. § 3. Основные направления анализа данных уголовно-правовой статистики
  6. 1.1.3 Классы и виды систем ОБЩИЙ ВИД СИСТЕМЫ Е С ОРГАНОМ Я- УПРАВЛЕНИЯ
  7. Тема 7. Комплексный статистический анализ данных правовой статистики
  8. 7.2. Основные направления анализа данных уголовно-правовой статистики
  9. 7.4.Анализ данных и внедрение бенчмаркингового проекта
  10. 6.6. Анализ данных и подготовка заключительного отчета
  11. 4.13. Анализ данных 4.13.1. Преобразование данных
  12. 4.2.5.ПОДГОТОВКА ДАННЫХ, ОБРАБОТКА И АНАЛИЗ ИНФОРМАЦИИ
  13. 3. Изучение посредников
  14. Часть III. Сбор, подготовка и анализ данных
  15. ВЫБОР СТРАТЕГИИ АНАЛИЗА ДАННЫХ
  16. 3.2. АНАЛИЗ ДАННЫХ: МНОГОМЕРНЫЕ МЕТОДЫ