Классы систем интеллектуального анализа данных

1. Предметно-ориентированные аналитические системы.
2. Статистические пакеты
3. Нейронные сети
4. Системы рассуждений на основе аналогичных случаев (рассуждения по аналогии, метод ближайшего соседа - nearest neighbour).
5. Деревья решений.
6. Генетические алгоритмы.
7. Эволюционное программирование
Стоимость: около 5000$
8. Нелинейные регрессионные методы
9. Алгоритмы ограниченного перебора
10. Системы визуализации многомерных данных

1 Предметно-ориентированные аналитические системы ИАД
Основой таких систем явл. заложенная в них модель предм. обл-ти. Одним из наиб. типичных подклассов эт. систем явл-ся система ан-за финанс. рынков, построенная на основе методов технич. ан-за.
Он пред. собой сов-ть неск. десятков методов прогноза динамики цен и выбора оптимальной стр-ры инвестиционного портфеля, основанных на различных эмпирич. моделях динамики рынка.
Эти методы могут исп-ть мат.аппарат различ. степени сложности.
1. Вычисление трендового значения(тенденция)
2. Исп-е статистич. пок-лей
3. Спектр-й ан-з
4. Фрактальная математика
Такие с-мы следует опр-ть как специализированные ИС, как следствие им свойств-ы след. «+» :
1) Треб-я статистич. значимости удовл-ся по опр-ю , т.к. вся теория зашита в исп-ых А-ах.
2)Треб-я интерпретируемости удовл-ся по этому же принципу, ориентация на терминологию предм. обл-ти присутствует. 
3) К.правило имеет инт-сы для загрузки финансово-эк-х Д-х.
Основной «-», так же следствие специализации - не применимость в условиях др. модели рынков.
Ст-ть примерно от 300 до 1000$. Примеры: Meta Stock, Super Charts и.т.д.
2 Статистические пакеты
Основой явл-ся исп-е корреляционного, регрессион., факторного ан-за, некот. других мат. методов.
Основной «-»:Высокие требования к спец-ой подготовленности пол-ля. Для исп-ия статистич. процессора необходимо обладать матем. знаниями, для автоматизации многократных оп-ий нужно программировать на внутр. языке.
Ст-ть примерно от 1000 до 15000$
Примеры:SAS, SPSS, STATISTICA,STADIA,STATGRAPHICS.
3 Нейронные сети
Большой класс систем, тем или иным способом моделирующих нейронную сеть.
Подход эффективен в задачах распознавания образов, однако, не применим ко многим финанс. и эк-им з-нам, особенно в усл-ях эк-кой нестабильности.
Основной «-»:- необх-ть обучающей выборки большого объема;
- интерпретируемость накапливаемых знаний. 
Практика применения нейросетей для ан-за рынков показала, кроме того, след. «-»: адекват. модели, показ-ие удовлетворительный рез-т на обучающей выборке получается только при выс. сложности сети. В сл-е, когда сложность сети начинает превосходить сложность обуч. выборки обучение стан-ся не эф-ым.
Ст-ть примерно от 1500 до 8000$
Примеры:Brain Maker, Neuro Shell, OWL.
4 Системы рассуждений на основе аналогичных случаев
Основа - метод ближайшего соседа.
Пр-п действия: В прошлом нах-ся близкие аналоги наличной ситуации и выбирается тот ответ, кот. был правильным. Не смотря на простоту подхода он демонстрирует оч. хорошие рез-ты в самых разнообразных задачах.
Основной «-»:- вообще не сод-т каких либо моделей или правил, обобщающих предыдущий опыт.
- произвол, допускаемый при выборе меры близости.
Примеры: Kate tools, Patterr RecognitionWorkbench
5 Деревья решений
Д-ый метод пригоден только при решении задач классификации и поэтому ограниченно применяется в фин-о- эк-х областя, где приобладают задачи численного прогноза. В рез-те применения эт. метода к обуч. выборке созд-ся иерарх-ая стр-ра классификационных правил «если- то», имеющ. вид бинарного дерева.
Основной «+»: наглядность представления правил.
Основной «-»:Чем больше кустистость дерева, тем меньше обуч-х примеров попадает в каждый частный случай, лист. При этом перестают соблюдаться требования статич. обоснованности.
М-д последовательного набора, реализ-й в деревьях, не дает возм-ти выбрать наиболее вероятное решение (отсут-т вероятностный анализ). 
Как показывает практика в б-ве систем, исп-их деревья решений эти проблемы не нах-т удовлетворительного решения.
Ст-ть примерно 10000$
Примеры:С5.0, Clementine, SIPINA,IDIS.
6 Генетические алгоритмы
Пред. собой программно - реализованную бионику. Их основные этапы:
1. Формирование популяции правил; 2. Естеств. отбор - сокращение наименее эффективных особей; 3. Генерация новых правил, путем скрещивания, в соответствии с законами генетики.
Этапы повторяются циклически.
Основной «-»: - Критерии естест. отбора явл-ся эвристическими. Корректно и эффективно его может сформулировать только спец-т. При наличии неск. экспертов возможны различные формулировки критерия. - сложность обработки лок. экстремумов; - сложность интерпритации.
Основной «+»: высокая универсальность, в плане методов и исп-ия.
Ст-ть примерно 1000$. Примеры: GeneHunter
79. Эволюционное программирование
Самоя молодая и наиб. перспективная ветвь Data Mining реализуемая в системе PolyAnalyst. Суть метода в том, что гип-зы о виде зависимости целевой переменной от остальных переменных формируется системой в виде прог-м на некот. внутреннем языке программирования. Процесс построения этих программ строится как эволюция в мире прог. (сходство с генетич. А-ми). Когда система нах-т прог-у, лостаточно точно выражающую искомую зав-ть, она начинает вносить в нее небольшие модификации и отбирает среди построенных таким образом дочерних программ, те которые повышают точность. Спец-й транслирующий модуль сист-ы переводит найденные зависимости с внутреннего языка системы на пользовательский(формулы, табл-ы и прочее).Ст-ть примерно до 5000$
80. Нелинейные регрессионные методы
Поиск зависимости целевых переменных от остальных переменных ведется в форме функций какого то определенного вида. Пр. в 1 из А-ов этого типа - методе группового учета атрибутов, зависимость ищут в форме полиномов. Этот метод дает не менее статистически значимые рез-ты, чем Нс(нейронные сети). Полученная формула зависимости, в принципе, поддается анализу и интерпретируемости, но на практике будет слижком сложна для этого. Neuro Shell.
81. Алгоритмы ограниченного перебора
Были предложены в сер. 60х годов М.М. Бонгардом для поиска логических закономерностей в данных. продемонстрировали свою эфф-ть при решении мн-ва задач из различных областей. Эти А-мы вычисляют частоты простых логич. событий в выборках данных. Ограничением служит длина комбинации простых логич. событии. У Бонгарда она = 3. На основании ан-за вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциаций для классификаций, прогнозирования и. т. д.
Пример: WizWhy. Ст-ть: 4000$.
82. Системы визуализации многомерных данных
Графическое отображение Д-х поддерживается б-вом средств ИАД, однако, сущ-т системы специализир-ся только на визуализации. В подобных с-ах основное внимание сконцентрировано на друж-ти пользовательского интерфейса, позв-го ассоциировать с анализируемыми показателями различные параметры диаграммы рассеивания объектов(цвет, форму, ориентацию отн-но собственной оси, размеры и др. свойства графич. элементов изображения). Кроме того, системы визуализации данных снабжены удобными ср-вами масштабирования и вращения изображения.
Ст-ть: до нескольких 100$.

Категории: 

Метки: