Статистика – это математическая теория того, как узнать нечто о мире через опыт
Статистика, интеллектуальный анализ данных
В глобальном анализе данных различных процессов, используя ресурсы BIG DATA, технологии DATA MINING и статистические интеллектуальные методы MACHINE LEARNING в целях повышения эффективности и качества принимаемых решений, ранее недоступная информацию об объекте становится очевидной для новой интерпретации поведенческих и прогнозируемых эффектов развития в различных системах управления
Анализ данных и обучение модели | Нейроная сеть, предсказание | Модель аналитики |
---|---|---|
Алгоритм анализа | Построение решения |
Интеллектуальный анализ данных представляет собой процесс обнаружения пригодных к использованию сведений в крупных объемах информации. В интеллектуальном анализе данных применяются математические методы для выявления закономерностей и тенденций, существующих в данных. Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны из-за чрезмерного объема информации. Эти закономерности и тренды можно собрать вместе и определить как модель интеллектуального анализа данных с применением современных технологий Data mining и Big Data, методов статистики и машинного обучения.
Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.
Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных". Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) так же очень близко к понятию Data minig.
Большинство аналитических методов, используемые в технологии Data Mining – это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств, включая платформы и технологии обработки и передачи больших данных(Big Data).
Статистика является совокупностью методов планирования эксперимента, сбора данных, их представления и обобщения, а также анализа и получения выводов на основании этих данных. Статистика оперирует данными, полученными в результате наблюдений либо экспериментов.
Машинное обучение (Machine Learning) можно охарактеризовать как процесс получения программой новых знаний. Митчелл в 1996 году дал такое определение: "Машинное обучение - это наука, которая изучает компьютерные алгоритмы, автоматически улучшающиеся во время работы". Это обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться.
Отметим, Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственного интеллекта, машинного обучения, теории баз данных и др.
Основу методов составляют всевозможные методы классификации, моделирования и прогнозирования, нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).
Можно отметить, что Data Mining позиционируют с точки зрения:
-
Интеграции теории и эвристик.
-
Сконцентрированности на едином процессе анализа данных, включая очистку данных, обучение, интеграции и визуализации результатов.
-
Моделирования с применением методов искусственного интеллекта;
Основные методы интеллектуального анализа данных ̶ это искусственные нейронные сети, деревья решений, k-ближайшего соседа, метод опорных векторов, байесовские сети, корреляционно-регрессионный анализ, иерархические методы кластерного анализа, методы поиска ассоциативных правил (алгоритм Apriori), метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, ансамблевые методы.
Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
В целях поддержки принятия решений, основанное на поиске в данных скрытых закономерностей (шаблонов информации), так же находит свое применение в различных прикладных областях знаний.
Поддержка многими производителями ПО облачных вычислений и предоставление платформ и инструментов для необходимых интеллектуальных вычислений приближает потенциальных заказчиков к использованию этих методов.
Сфера промышленной автоматизации
В сфере промышленной автоматизации архивирование — одна из обязательных функций программного обеспечения SCADA (от англ. supervisory control and data acquisition, диспетчерское управление и сбор данных).
Периодически SCADA складывает все собранные данные в БД. Затем данные можно посмотреть в виде графиков, так называемых трендами, так же реализуется выгрузка в виде отчётов различных БД, Exsel и т.д.
Используя данные из архива БД, можно и нужно диагностировать состояние аппаратных средств и состояние исследуемых обьектов, выявление признаков, приводящих к блокировкам, аварийным ситуациям и получение новых трендов, прогнозирование их возникновения. Получать различные результаты, статистические карты анализа с целью, как улучшения управления исследуемых объектов, так и качества обслуживания программно-технических средств.