Больше Big Data — больше внимания к BI

Больше Big Data — больше внимания к BI

13.01.2017
Статьи и обзоры Софт

Бизнес-аналитика сегодня напрямую связана с самыми передовыми с точки зрения технологий и перспективными с позиций практического применения областями корпоративной автоматизации. Это относится и к пресловутой Big Data, и к Интернету вещей, и к ИТ­-поддержке управления в режиме реального времени.

Средства BI (Business Intelligence), становясь все более разнообразными, а также «набирая опыт» работы с различными форматами данных и информационными источниками, постепенно становятся инструментом для целого ряда функциональных подразделений крупных и средних компаний. В этих условиях важно, чтобы взгляды на использование BI-систем со стороны поставщиков ИТ-продуктов соответствующего класса и заказчиков, которые их используют, были согласованы.

О том, насколько это в действительности так, частично дает представление конференция Teradata Partners ‘2015 компании Teradata, одного из наиболее крупных вендоров в сфере корпоративного BI. Состоялась она в конце октября в США, и на ней прозвучали десятки докладов об использовании инструментов advanced analytics со стороны корпоративных заказчиков BI-систем из многих стран. Надо сказать, что заказчики эти, представляющие фактически все ключевые отрасли, используют далеко не только решения Teradata.

Разные отрасли — смежные проблемы

Традиционно использование «продвинутой» бизнес-аналитики в различных отраслях было очень неравномерным. В последнее время положение отчасти выравнивается (на западном рынке сильнее, у нас пока в меньшей степени), но банки, телеком и ритейловый бизнес по-прежнему приковывают к себе основное внимание поставщиков. Представляется, что сохраняемое лидерство этих отраслей в основном связано с автоматизацией маркетинга и поддержки решения задач клиентской аналитики. Весьма объемный пул отраслевых (в том числе клиентских) докладов, сделанных на конференции, позволял сделать вывод о том, что в применении advanced analytics указанные отрасли продолжают лидировать. Фактически о схожих проблемах обработки клиентских данных говорили представители ведущих телекоммуникационных компаний (Verizone Wireless, Vodafone, Telefonica и др.), гранды розничной торговли (e-Bay, American Eagle), а также докладчики из крупнейших мировых финансовых структур (Raiffeisen, Mizuho Financial Group). Вместе с тем появляются и новые акценты.

Постепенно становится заметно, что к аналитическим проектам все более притягиваются смежные направления. Одно из них связано с пока не очень знакомым на отечественном рынке, но давно известном на Западе классом продуктов под названием Enterprise Search. Речь идет о некоем внутрикорпоративном варианте всем известных глобальных поисковых сервисов, предполагающем возможность формирования по запросу разного рода тематических подборок. Создаются они на основе поиска данных в любых источниках — от структурированных хранилищ до архивов текстовой и ­медиа-информации. О существенной потребности бизнеса в таких продуктах говорили, например, заказчики из Sony Pictures, где доля работы с неструктурированным контентом весьма велика.

Тесное сопряжение аналитики с другими направлениями автоматизации активно начало проявляться и в том, что решения, подсказываемые инструментами advanced analytics и принимаемые с их помощью менеджерами, должны быть гарантированно исполнены. А это в свою очередь часто требует ИТ-инструментов, функционально далеких от средств BI и тем не менее работающих в тесной интеграции с ними. Важность решения такой задачи на конференции подчеркивали, в частности, докладчики из компании Wells Fargo.

Наряду с тем вниманием, которое корпоративные заказчики продолжают уделять клиентской аналитике, растет интерес и к другим функциональным направлениям, развитие которых клиенты (в основном крупные) также пытаются обеспечить, применяя инструменты advanced analytics. Для клиенториентированных отраслей такое расширение идет в основном за счет продуктовой аналитики, а также анализа рисков и факторов, влияющих на обеспечение информационной безопасности. В розничной торговле (о чем свидетельствовали, например, доклады представителей e-Bay и HEMA) еще одной сферой, где advanced analytics начинает играть очень важную роль в обеспечении конкурентоспособности, является логистика. Такое положение, в свою очередь, приводит к формированию в крупных компаниях отраслевых стратегий в области BI и управления корпоративными данными (об одной из них было доложено сотрудниками Raiffeisen Bank), а также к созданию исследовательских лабораторий и центров компетенции.

Что касается отраслей, в которых тщательный анализ клиентских данных традиционно не стоял в списке первоочередных задач, то теперь они также начинают двигаться в этом направлении. Одна из причин тому — появление персональных или домашних устройств, позволяющих наладить интенсивную обратную связь с потребителем. Примеры подобных тенденций можно наблюдать в энергетике и медицине. Так, в калифорнийской энергокомпании PG&E (Pacific Gas and Electric Company) эффективность анализа профиля потребления энергетических ресурсов и возможность спрогнозировать использование необходимых мощностей во многом зависят от того, насколько широко применяются счетчики расходования этих ресурсов на стороне клиентов. В медицинской отрасли организации обращают внимание на клиентскую аналитику не в последнюю очередь благодаря все более широкому распространению персональных медицинских приборов (доклад представителей группы Banner Health).

В использовании «продвинутой» аналитики имеет место и целый ряд универсальных тенденций со слабой отраслевой зависимостью.

Одна из них связана с анализом информации в реальном времени, необходимость которого диктуется по крайней мере двумя причинами.

  1. Только что упомянутые персональные и домашние инструменты контроля тех или иных параметров (являющиеся своего рода «тестовым полигоном» для тотальной концепции Internet of Things) в совокупности со всепроникающей мобилизацией вычислений и персональных коммуникаций часто вынуждают компании к формированию очень оперативной обратной связи с клиентом. А такой связи должна предшествовать оперативная обработка информации.
  2. Довольно большая часть бизнеса сейчас уходит в онлайн, а там, как известно, время, которое готовы потратить заказчики на ожидание сервиса, ответа на вопрос или иной транзакции, совсем другое, чем в офлайне. И взаимодействие строится не только на прямых запросах, но и на результатах все того же анализа клиентских данных. Тут стоит еще раз сказать об упомянутой выше Sony Pictures.

И наконец, развитие аналитики в любых формах и в любых отраслях тесно сопряжено с концепцией Больших Данных, интерес к которой тоже является кумулятивным эффектом нескольких факторов:

  • растет количество внутрикорпоративных данных. Представители Verizon Wireless в своем докладе отметили, что справиться с ежедневным приростом данных в 35 Тбайт уже не может ни одна даже очень крупная обособленная система;
  • большое значение приобретают внешние по отношению к конкретному бизнесу информационные источники. Энергетические компании детально интересуются динамикой приобретения систем кондиционирования и крупной бытовой техники, продуктовый ритейл склонен изучать статистику посещаемости спортивных клубов, страховым компаниям далеко не безразлична информация о географическом перемещении населения и т. д. Не остаются без внимания ресурсы открытых данных (Open Data), чаще всего развиваемых под эгидой государственных и муниципальных структур, а также данные социальных сетей;
  • происходит консолидация на отраслевом уровне, которая далеко не в последнюю очередь оказывается информационной. В этом смысле весьма показателен доклад, сделанный на конференции сотрудниками американской ассоциации BlueCross BlueShield, чья деятельность во многом направлена на формирование единого высококачественного информационного ресурса об оказании любых медицинских услуг на территории США. А это огромный массив информации самого разного формата со множеством неочевидных внутренних связей.

Чего ждать от вендора

Чего целесообразно ждать от поставщика аналитического ПО в такой ситуации, и что в данном случае происходит фактически?

Одной из наиболее весомых тенденций в сфере корпоративного ПО становится слияние миров Open Source и коммерческих программных систем. То, что около восьмидесяти процентов программного кода открытого ПО сегодня пишется внутри коммерческих компаний, а не программистами-одиночками или коллективами «вольных художников», сегодня уже не является секретом. Но в области advanced analytics эта тенденция особенно заметна, прежде всего потому, что проявляется в виде интеграции OpenSource- и коммерческих систем на этапах проектирования архитектуры конечных решений, а не через скрытую от пользователя работу по написанию кода того или иного ПО. И характерно, что именно подобная интеграция сегодня позволяет сформировать отклик на многие потребности рынка, о которых мы только что сказали.

Небезызвестно, что отдельные направления, ныне покрываемые зонтичной концепцией advanced analytics, сегодня также (а может, даже в первую очередь) развиваются под эгидой идеологии Open Source. Яркими примерами тут являются инструменты R и Python, предоставляющие богатые возможности прикладной аналитической обработки данных.

Под этим же флагом открытого ПО в настоящее время приобретают все большую зрелость инфраструктурные решения для Big Data, где, наверное, ключевым термином являются «распределенные вычисления». Здесь можно назвать такие общеизвестные OpenSource-системы, как Hadoop, Mesos или Presto.

Наконец, решения, позволяющие обеспечивать информационную поддержку бизнеса в реальном времени, тоже тесно связаны с Open Source. В качестве соответствующих примеров назовем два проекта Apache: Spark, ориентированный на оперативную обработку интенсивных потоков данных, и Kafka, дающий возможность строить развитые системы обмена сообщениями.

Возвращаясь к конференции и соответственно к конкретному поставщику, можно сказать, что в центре внимания коммерческой компании становятся программные платформы, во многом «оркеструющие» работу того или иного подмножества вышеназванных открытых систем. Для Teradata в такой роли выступают, например, платформа Aster Discovery Platform, объединяющая в себе несколько наиболее популярных аналитических движков (Analytics Engine) для разных типов данных, или же Listener, ориентированный на обработку и маршрутизацию потоковых данных в реальном времени.

В результате, как сказал нам глава подразделения Teradata Labs Оливер Рацесбергер: «…формируется некая экосистема аналитических решений корпоративного уровня, в которой коммерческое ПО и решения Open Source взаимно дополняют друг друга. Открытые системы предоставляют мощные, интенсивно развиваемые всем заинтересованным сообществом функциональные решения для обработки информации в реальном времени, поиска данных произвольного формата, машинного обучения и других очень интересных для современного бизнеса целей. Все эти продукты часто целесообразно объединять в рамках платформ более широкой функциональности, имеющих при этом принятый в корпоративном мире уровень поддержки и понятную стратегию развития на длительный период времени. За это в свою очередь вполне могут отвечать коммерческие решения».

И еще хотелось бы отметить, что в результате такого комбинированного подхода консолидируется и отраслевая экспертиза. Если раньше тот же Hadoop воспринимался исключительно в качестве архитектурного подхода к организации распределенных вычислений, то сейчас ситуация меняется. В этом смысле весьма показателен, например, доклад представителей HortonWorks, озаглавленный «Применение Hadoop в ритейловом бизнесе», который дает понять, что на нынешнем развитом этапе применения данного фреймворка на корпоративном рынке компания, отвечающая за его развитие, готова вкладывать свои ресурсы в решение прикладных вопросов информационной поддержки. Это, безусловно, знаковый факт для крупных заказчиков, для которых аналитика больших данных на сегодня является актуальной. И те требования клиентов, о которых мы говорили в первой части статьи, в подавляющем большинстве случаев создаются именно за счет этого подхода.

Автор: Сергей Костяков