ИСП РАН представил два программных комплекса для анализа данных соцсетей

Интеграция Бизнес-приложения Big Data
мобильная версия
, Текст: Татьяна Короткова

Институт системного программирования Российской академии наук (ИСП РАН) представил свои технологии «Талисман» и «Текстерра», предназначенные для анализа больших массивов данных социальных сетей. Как рассказали CNews в ИСП РАН, в недалеком будущем внедрение разработок такого рода может значительно изменить лицо глобальной информационной сети и культуру интернет-общения.

«Текстерра» — технология многоязычного интеллектуального анализа текста. В ее основе — программный комплекс, способный накапливать и анализировать информацию, устанавливать взаимосвязь между понятиями и проводить интеллектуальный анализ текстов. По словам разработчиков, «Текстерра» опирается на объем понятий и терминов, почти на порядок превышающий размеры Британской энциклопедии, и может при необходимости расширить свою базу знаний еще больше. В результате при использовании этой технологии возможно вычислять лексически сходные тексты, принадлежащие перу одного автора или написанные по единому плану, содержащие сходные семантические конструкции, и, таким образом, выявлять факт и структуру информационных «вбросов», отметили в ИСП РАН.

Система «Талисман», в свою очередь, позволяет отследить и выявить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности — ботов. Анализ производится по полным и неполным данным, указанным в профилях социальных сетей, социальным связям аккаунтов, подпискам, спискам друзей и читателей. В результате анализа определяются такие демографические атрибуты, как возраст пользователя, а также семейное положение, уровень образования и так далее.

«Если значения тех или иных атрибутов не вписываются в создаваемый программным комплексом алгоритм, можно с серьезной долей уверенности говорить о том, что выпадающий из схемы профиль социальной сети принадлежит не живому человеку, а создан искусственно, — пояснили в ИСП РАН. — Дальше приходит на помощь “Текстерра”, позволяющая вычислить множества ботов, созданных одной рукой либо ведущихся по одному лекалу-методичке».

Также технология «Талисман» позволяет на основании анализа неполных данных с использованием информации из социальных сетей вычислить примерное место проживания пользователя, его принадлежность к определенному социальному слою, приверженность той или иной идеологии и другую полезную информацию.

«Анализ такого постоянно меняющегося массива данных, как информация в соцсетях, сегодня — насущная необходимость, — убежден директор ИСП РАН Арутюн Аветисян. — Это и маркетинговый инструмент, позволяющий оценивать аудиторию, выстраивать закономерности, помогающие работать адресно с разными возрастными и социальными группами. И во многом — инструмент безопасности. В последние десятилетия неограниченная интернет-анонимность стала источником угрозы для отдельных людей или компаний, для целых народов и стран. Работа в этом направлении способна в корне изменить ситуацию».

Важным, по мнению директора ИСП РАН, является также этический аспект применения разработок института, сохранение тайны личных данных и неприкосновенности частной жизни.

«При применении подобных технологий необходимо, чтобы не нарушались права пользователей социальных сетей, не разглашались персональные данные, — уточнил Денис Турдаков, заведующий отделом информационных систем ИСП РАН. — Мы проводим научные исследования, дорабатываем “Текстерру” и “Талисман”. Всеобъемлющий анализ соцсетей пока затруднен, прорыв еще предстоит, но ждать его осталось недолго».

По информации ИСП РАН, в настоящий момент оптимизация этих программных комплексов продолжается, наращивается их функционал и мощность.