Риск использования «чистых данных»

Риск использования «чистых данных»

24.07.2020
Статьи и обзоры Софт

Майк Брукс (Mike Brooks), старший директор бизнес-подразделения APM в Aspen Technology, компании, специализирующейся на разработке программного обеспечения для оптимизации производственных активов, поделился экспертным мнением на тему особенностей использования технологий анализа данных.

В последние годы анализ данных играет ключевую роль во многих отраслях, в том числе промышленном производстве и инженерном проектировании. В сочетании с предметными знаниями аналитика может быть незаменима в определении причин перебоев и потери прибыли. Однако результаты сильно зависят от контекста данных, а выводы могут оказаться ложными.

Необходимость в указаниях

Технический директор одной молодой компании, которая занимается машинным обучением, как-то сказал: «дайте мне данные, и я решу любые проблемы». Хотел бы я повторить эти слова, но, к сожалению, это так не работает. Технологии анализа данных, в том числе машинного обучения, универсальны для всех отраслей, а предметные знания — нет. Поэтому для успешной работы нужны оба слагаемых.

Аналитическое решение должно отличать причинно-следственные связи от простой корреляции и сообщать только о реальных проблемах. Но анализ данных, в том числе машинное обучение, — не палочка-выручалочка. Чтобы с помощью аналитики находить верные ответы на вопросы, нужны указания. В противном случае возникают бессмысленные корреляции, например, знаменитое утверждение о том, что рост потребления маргарина приводит к разводам в штате Мэн. Указания — это предметные знания, которые ограничивают контекстуальные данные, определяют разумные ожидания и исключают ничего не значащие взаимосвязи.

Машинное обучение помогает обнаружить всевозможные корреляции данных, многие из которых совершенно бесполезны. Чтобы установить причинно-следственные связи, нужны знания и опыт. Какие навыки и опыт потребуются вам для создания решения, сколько времени это займет и будет ли решение масштабируемым? В некотором смысле это естественное ограничение машинного обучения.

Используя кластеризацию при работе без участия человека, система машинного обучения может обнаруживать и запоминать модели поведения. В процессе проектирования и производства с помощью кластеризации можно определить стандартные сигналы, поступающие с датчиков на установках и вокруг них. А затем, опираясь на отклонения от нормы, называемые аномалиями, можно обнаруживать сбои в работе оборудования.

Еще одна технология машинного обучения — машинное обучение с учителем — требует участия человека, который сообщает о событии и называет дату и время, когда оно произошло. При этом система машинного обучения не понимает, что произошло. Ей известны только дата и время. Чтобы определить значение события, нужны предметные знания и понимание контекста данных. Узнав о событии, система машинного обучения запоминает признаки определенного поведения, которое предшествовало событию. Например, при эксплуатации в отраслях тяжелой промышленности станок может выйти из строя из-за повреждения подшипника. Запомнив точную модель поведения при износе или сбое, ИИ анализирует новые данные, чтобы обнаружить в них повторение этой модели до того, как произойдет сбой. Упреждающие уведомления позволяют не ждать полного износа и проводить ремонт до поломки. В результате снижаются затраты на обслуживание и увеличивается время бесперебойной работы.

Специалисты предприятия понимают взаимосвязи моделей поведения станков и механику износа. Опираясь на эти знания, они направляют систему машинного обучения, помогая обнаружить верные модели поведения при сбое. Кроме того, с помощью эмпирических и неэмпирических моделей мы можем прогнозировать примерный диапазон результатов, а затем определять указания для машинного обучения, которые помогут найти точные модели поведения при износе. Контекст данных очень важен при маркировке событий, выборе переменных и управлении очисткой данных. Эффективные решения сочетают в себе знания о процессах, служащих источником данных, и опыт использования аналитических технологий. Таким образом указания должны быть жесткими и надежными.

Применение на практике

Как это работает на практике? Возьмем двухэтапный подход. Начнем с проектирования. Изучите генерирующий данные процесс, правильно промаркируйте важные события и вычислите наиболее значимые из них, например, известные физические ограничения. Используйте эту информацию в качестве указаний для очистки данных и соответствующих моделей поведения с учетом режимов работы оборудования. Завершив процесс проектирования, переключитесь в режим анализа данных.

На этом этапе вы предоставляете контекст данных: теперь алгоритмы не учитывают конкретные проблемные области. Сейчас данным, алгоритмам и моделям поведения не известны их источники: данные — это просто данные. Масштабы, единицы оборудования и источники данных разнообразны и не важны. В этом контексте нам не нужны строгие технические модели и сложные дифференциальные уравнения.

Проще говоря, указания по вводу данных играют важную роль. Чтобы прийти к верным выводам, нужны четко обозначенные наборы данных. Предметные знания определяют контекст данных. Поэтому нужно изучать тонкости каждого производственного процесса, а затем переходить от проектирования к аналитике с использованием указаний.

Майк Брукс (Mike Brooks),
старший директор бизнес-подразделения APM в Aspen Technology