Можно ли, анализируя открытую информацию, делать далеко идущие выводы, причем верные? Вопрос риторический. Есть такие люди - аналитики, которые именно этим с разной степенью успеха и занимаются. Евгений Вербин и Иван Наймушин, автоматизировав процесс предсказания будущего, добились в этом деле неординарной точности. О своей работе они рассказали спецкорреспонденту "Денег" Алексею Ходорычу.
- Автоматизировать анализ информации - в известной степени это нонсенс. Разве может программа заменить живого аналитика? В чем заключается ваша работа?
Евгений Вербин: Конечно, заменить живого аналитика нельзя, однако его можно вооружить мощным инструментом, который поможет ему работать более эффективно. В чем суть любого аналитического исследования? Оценка ситуации и прогноз перспектив ее развития. Что подразумевает сбор и анализ информации и синтез ответа на заданный вопрос. Но ресурсы любого аналитика ограничены объемом информации, которую он может проанализировать. Можно целыми днями плотно изучать доступный поток информации, однако весь ее объем изучить физически невозможно, а ведь именно неизученная часть может содержать то, что ищет аналитик. Тем более невозможно корректно проанализировать всю доступную информацию и сделать соответствующий вывод. В этом и заключается проблема любого аналитика -- он не получает всех фактов, которые нужно сопоставить, и не может быть убежден в корректности такого сопоставления. Прикладная лингвистика -- а именно так можно определить то направление, которым занимается группа ученых, нами возглавляемая,-- позволяет более или менее корректно решить эту проблему. Грубо говоря, мы ищем ответы на вопросы, которые интересуют наших заказчиков. Вопросы могут быть как общего, так и конкретного характера. Например, насколько вероятен кризис на рынке недвижимости? Или насколько вероятен силовой наезд на ту или иную компанию и когда именно этот наезд может произойти? Мы с помощью разработанной нами системы анализируем все доступные нам источники информации, а именно печатные и электронные СМИ, а также интернет, и даем нашему заказчику ответ.
- То есть вы хотите сказать, что ответ уже содержится в тех массивах информации, которые вы анализируете?
Е. В.: Используемые нами алгоритмы позволяют увидеть в СМИ скрытые или непроявленные статистические закономерности, которые характеризуют процессы внутри и вокруг объекта исследования. Другими словами, эти алгоритмы позволяют решать задачу мониторинга процессов как задачу раннего обнаружения развития ситуации в сторону кризиса. Ведь любое событие происходит не на пустом месте. И любое развитие ситуации можно просчитать -- с той или иной вероятностью. Об этом говорят теория информации и теория вероятности, на стыке которых и находится прикладная лингвистика. Тот, кто может влиять и влияет на ситуацию в сфере политики, бизнеса, общественной жизни, может сколько угодно шифровать свои истинные намерения, более того, маскировать их, в том числе с помощью заказных публикаций, но при изучении огромных массивов информации эти намерения зачастую можно выявить, равно как и дальнейшее развитие ситуации. Информационный образ изучаемого объекта или процесса всегда содержит внутри себя (можно сказать, что на "квантовом" уровне) информацию обо всех сторонах деятельности объекта или развития процесса.
- Каким образом система работает на практике?
Иван Наймушин: Сначала вместе с заказчиками мы согласовываем вербальные образы тех или иных событий, по сути дела очерчивая пространство понятий, в котором и определяются исследуемые процессы. Образов может быть сколь угодно много, например "Вывод активов из компании X", "Конфликт менеджеров и владельцев", "Утечка конфиденциальных сведений о компании к конкурентам", "Победа претендента Y на выборах Z в первом туре" и так далее. Затем эти образы загружаются в систему, и она ищет схожесть между "эталонным", созданным заранее образом и образами событий или объектов, которые уже описаны в доступных нам текстах, а также вероятностную меру, с которой эта схожесть фиксируется. Результатом сравнения является построение зависимости меры схожести ситуации вокруг аналога во времени. Очевидно, что полученный результат уже дает ответ на вопрос - развивается ли ситуация в сторону кризиса или отходит от него. Кроме того, полученный результат позволяет, по сути дела, проверять гипотезы о развитии такого кризиса вокруг объекта исследования. Рост или снижение вероятности и является тем самым полезным для управленца сигналом от аналитика. Для уточнения прогноза могут быть введены новые образы, более того, можно посчитать и закономерности изменения меры схожести, программа позволяет это сделать.
- Какой массив информации анализирует система?
Е. В.: Около 8 Мб обновляемой по нескольку раз в день информации. Это около 300 российских и западных СМИ, включая электронные, новостные ленты, web-сайты и так далее.
- Как далеко вперед вы можете прогнозировать события?
Е. В.: Все зависит от поставленной задачи, как правило -- два-три месяца, иногда и до полугода. Можно и дальше, но ценность такого прогноза будет уже невысокой.
- Наверное, все-таки требуется некая ручная корректировка результатов такого анализа? Например, вы провели исследование, смотрите на график, на котором отображена мера схожести по месяцам или даже дням, видите, что в какой-то момент эта мера была особенно высока, и самостоятельно изучаете соответствующую часть исходной информации, чтобы прогноз был более точным...
И. Н.: Как правило, этого не требуется. Повторяю, на прогноз в целом не влияют даже публикации в интересах тех или иных операторов того или иного рынка. Вот вам пример. Сейчас одна из животрепещущих тем -- рынок недвижимости. Всех интересует, будет кризис на этом рынке или нет? Снизятся цены или не снизятся? Операторы рынка недвижимости, конечно, говорят, что слухи о кризисе преувеличены и, несмотря на то что есть некие предпосылки, кризиса удастся избежать, потому как спрос на недвижимость по-прежнему превышает предложение и так далее. Эта позиция не раз озвучивалась в прессе, и, казалось бы, наш прогноз тоже должен быть выдержан в этом духе. Однако публикации в пользу той или иной позиции нивелируются огромным массивом иной изучаемой информации, в итоге вывод не требует какой-то ручной корректировки. А вывод наш такой: при нынешней ситуации можно ожидать, что кризис разразится в конце нынешнего -- начале 2005 года. Кстати, ускорение движения рынка недвижимости в сторону кризиса, по итогам расчетов, началось еще в марте, когда еще никто о кризисе не говорил.
- Неужели на основании подобных расчетов кто-то принимает серьезные решения, как действовать в той или иной ситуации?
Е. В.: Я повторяю, наши расчеты -- лишь инструмент для аналитика. Сегодня у нас порядка 30 постоянных клиентов, в их числе "Газпром", АЛРОСА, "Автогаз", Сбербанк, госструктуры. Разумеется, они лишь учитывают наши прогнозы при принятии окончательных решений, однако то, что они продолжают с нами работать, свидетельствует, что их устраивает качество наших прогнозов,-- расчетов, которые были в дальнейшем верифицированы, очень много.
- Есть ли статистика по данному вопросу?
Е. В.: Какой-то общей статистики нет, мы ведь делаем работу по заказу. Произошла ли верификация наших выводов и прогнозов, мы иногда знать не можем. Но по известным мне случаям -- около 80%.
- Можете привести примеры?
И. Н.: В мае мы определяли вероятность наезда на нашего клиента силовых структур. Наши расчеты показали, что, скорее всего, такой наезд произойдет в июне. Так и случилось. Или вот недавний пример. В СМИ появились публикации компрометирующего характера, направленные против одного из наших заказчиков, который одновременно развивал проекты по множеству направлений. Его интересовали ответы на два вопроса: какой именно проект был целью кампании и кто заказчик? Наш расчет в дальнейшем полностью подтвердился -- мы верно определили и заказчика, и проект.
- С чем же был связан этот проект?
И. Н.: С нефтянкой.
- Ну ваш заказчик наверняка сам догадывался об этом, равно как и о том, кто его заказал.
И. Н.: Наверное, догадывался, но наш расчет, таким образом, полностью подтвердил его догадки.
- Хорошо, а можете рассказать о сбывшихся прогнозах общего характера?
Е. В.: Например, то, что сейчас называют банковским кризисом. Еще в середине апреля мы проводили исследование, показавшее, что в середине мая вероятно возникновение в банковской системе нестабильности, которая должна достигнуть пика в первой половине июля - вероятность этого была необычайно высокой, более 70%.
- Кстати, как будет дальше развиваться эта ситуация?
Е. В.: С большой уверенностью можно сказать, что на январский уровень сбалансированности банковская система вернется в первой половине сентября.
- Вы ведь просчитываете не только экономику -- можете привести пример вашей работы, скажем, в области политики?
И. Н.: По сложившейся практике мы выполняем не так уж много расчетов, связанных с собственно политическими проблемами. Но некоторые наши исследования общего характера в этой сфере позволяют увидеть любопытные закономерности, которые могут и должны учитываться в политической деятельности. Например, "текстовой образ" успешных губернаторов и градоправителей очень схож с "образом" патриарха Алексия II. И наоборот, у губернаторов, чей образ с ним не схож, проблемы нарастают -- ухудшается экономика, повышается социальная напряженность, растут криминальные проявления, бюрократизм, коррупция.
Впервые опубликовано в журнале Коммерсант Деньги, 02.08.04 г.
Обсудить в форуме.
|