Стартапы
Елена Салапура, фото: Анна Занкович, «Про бизнес» 1 июля 2024

«Можно узнать, как компания платит налоги и сколько нанимает людей». Белорус создал сервис, который позволяет бизнесу анализировать партнеров и конкурентов

В Беларуси появился сервис, в котором можно проверить благонадежность любой организации и определить, какой бизнес не стоит открывать. Ярослав Зык вместе с командой единомышленников создал платформу Analytix.by, на которой уже сформировал профили более 400 тысяч белорусских компаний и миллиона ИП. «Про бизнес» узнал у основателя стартапа, сколько источников для этого было проанализировано и чем полученные выводы будут полезны людям бизнеса.

«Наш сервис позволит оптимизировать работу целого аналитического отдела»

— Ярослав, похожих программ в Беларуси около двадцати. В чем особенность вашей?

— Мы не просто собрали информацию в одном месте, а структурировали ее и для каждой компании создали профиль с индикаторами. Ведь если специалист не сталкивался с большим объемом данных, он не сможет провести качественный анализ и самостоятельно сделать выводы. Также на основе индикаторов мы разработали свою скоринговую систему. Благодаря ей можно оценить благонадежность компании.

Чтобы было понятнее, по обозначениям она напоминает светофор: зеленый, красный, желтый. Когда человек заходит в профиль, он сразу может определить по цвету, на каком уровне бизнес и какие риски нужно учитывать при сотрудничестве с ним. Следующий этап — это глубокая аналитика. На основе собранных профилей мы стали строить дашборды. На них видны все компании в зависимости от местоположения, размера и вида деятельности.

— Сколько лет вы занимались аналитикой до того, как появилась идея создания собственного сервиса?

— 10 лет. Ранее я работал в информационно-аналитическом отделе, где каждый отвечал за определенный сегмент источников, и никто из сотрудников не владел всей картиной об объекте анализа. Что еще хуже — мы все обрабатывали вручную. Наш же сервис позволит оптимизировать работу целого аналитического отдела.

— В чем заключалась ваша собственная мотивация?

— В развитии. Я собрал команду единомышленников из четырех человек и мы стали работать над программным обеспечением. О деньгах не думали. В нашем понимании приложение должно было приносить пользу, облегчать труд. Могу сказать, что вся моя команда профессионально выросла.

Непрограммисты научились писать программы, программисты — анализировать данные. И все научились генерировать идеи. Да, этому нужно учиться: глубоко погружаться и не бояться высказывать свое мнение.

—  Как вы собирали данные для своего сервиса? Вручную?

—  Нет. Мы написали программу, которая делает это автоматически. Сначала алгоритм собирает информацию, потом очищает и помещает в централизованное хранилище. Профиль компании формируется на основе анализа множества источников, каким-либо образом связанных с ней. Индикаторов, о которых я сказал ранее, семь: частота смены юридического адреса, юридическая активность, управленческая ротация, уровень открытости, уровень конкуренции, репутация адреса, уровень ликвидации.

На основе данных индикаторов и дополнительных метрик рассчитывается показатель уровня надежности. Он является существенным аргументом в оценке деятельности экономической единицы.

—  Каким образом происходит «очистка» собранной информации?

— Чтобы произвести «очистку», мы загружаем данные из источников в определенный слой — стейдж. Так как заполнение любых онлайн-документов происходит вручную, в них могут быть орфографические и логические ошибки. Например, люди часто неправильно указывают УНП, путают цифры.

«Можно посмотреть, добросовестно ли компания платила налоги, работают ли в ней люди, которые могут негативно повлиять на ее репутацию»

— Приведите пример анализа любой информации.

— Возьмем, к примеру, такой источник, как новость. Как правило, каждым журналистом одно и то же может быть подано по-разному. Однако благодаря алгоритмам машинного обучения и средствам искусственного интеллекта мы извлекаем из них данные, которые необходимы именно нам: время события, ключевые фигуранты, что именно происходило. Когда массив данных большой, мы можем сопоставлять факты и определять связи.

— Вы сказали, что благодаря индикаторам и скоринговой системе в виде светофора можно предвидеть риски при сотрудничестве с той или иной компанией. Что должно насторожить человека при просмотре профиля?

— Можно посмотреть, добросовестно ли компания платила налоги, работают ли в ней люди, которые могут негативно повлиять на ее репутацию. Также плохо, если в организации много наемных индивидуальных предпринимателей. Это может свидетельствовать о том, что она применяет незаконные схемы оптимизации налогообложения.

— Как вы определяли индикаторы и понимали, что хорошо, а что плохо?

— Опирались на опыт, полученный ранее, а также использовали алгоритмы машинного обучения на основе искусственного интеллекта. Они помогли нам создать критерии, которые указывают на риски.

— Какое количество источников на данный момент вы анализируете, чтобы формировать базу?

— Сейчас мы используем около 100 разных источников. Но тут важно пояснить. МАРТ, к примеру, ведет торговый реестр и две точки бытового обслуживания. Это уже будут три разных источника, но от одного государственного органа. Из каждого мы забираем разную информацию: из одного данные адресов, из другого — картографические сведения.

Бывает, что из определенного источника мы берем вообще только название. Кроме этого, выстраиваем связи по веб-сайтам. Если, к примеру, у нескольких юрлиц один веб-сайт, это говорит об их аффилированности. А любому владельцу бизнеса интересно, с кем связана компания, которую он хочет проверить, потому что она может быть ни в чем не замечена, а вот ее дочерний бизнес — да.

— Правильно понимаю, что все данные, которые вы используете, находятся в открытом доступе и вы никак не нарушаете «Закон о персональных данных»?

— Да, все верно. Мы собираем данные лишь из открытых источников, люди добровольно выставляют информацию на обозрение.

— А насколько объективна и достоверна та информация, которую люди сами же публикуют в открытом доступе? Ведь многим свойственно искажать действительность. Банальный пример — увеличивать количество продаваемой продукции в год, если речь о торговых компаниях.

— У нас для этого есть система метрик. Если информация размещена на сайте государственного органа, к ней больше доверия. Однако перед загрузкой мы все равно ее проверим и лишь после того, как алгоритм подтвердит достоверность, перенесем в наше хранилище данных. Напомню, что мы не берем данные только лишь с сайта конкретной компании, а анализируем более 100 источников.

При этом профиль дополняется информацией из новостей. К примеру, что-то произошло — инфоповод для СМИ. Они подхватили и каждый по-своему описал событие, не всегда верно трактуя факты. Наш алгоритм найдет наиболее частые совпадения и все равно расценит эту новость, как одну. Однако, если дубликатов немного и ничего не нужно «схлопывать», то алгоритм поднимает ее вверх по рейтингу достоверности.

—  Сколько на данный момент у вас компаний (профилей) в базе?

— Более 400 тысяч компаний и миллиона ИП, зарегистрированных на территории РБ. В том числе и ликвидированные.

— Как вы понимаете, что информация устарела и ее нужно обновить?

— Само хранилище данных является темпоральным — информация там имеет историю. Когда мы анализируем источник, то проставляем метку времени. В новости это может быть дата публикации, на сайте компании — дата ее основания. Наша система работает в реальном времени и данные актуализируются каждый час. Пока мы с вами разговариваем, алгоритм собрал и обновил информацию, соответственно, выводы поменялись.

— Приведите пример того, как сервис обновляет информацию. Как вы, к слову, поймете, что в компании поменялось количество сотрудников, если она сама не внесла правки?

— Мы соотнесем данные о размещенных резюме и вакансиях. Если количество размещенных резюме возросло, то мы сделаем вывод, что компания развивается и расширяет штат.

— Можно ли вывести график, на котором видно, когда было сокращение, а когда —набор?

— Да, мы сейчас идем к такому графику. Пользователи смогут сами устанавливать критерии для X и Y и получать выводы. Система будет напоминать мини-конструктор.

— Будет ли сохранятся история поиска условных интересов пользователей?

— Да, у нас уже есть функция отслеживания любого субъекта. Для этого можно поставить его на мониторинг и если, у него что-то будет меняться в профиле, интересующемуся им пользователю придет уведомление на почту или в мессенджер.

«Если наблюдается динамика закрытия компаний, то, скорее всего, были внесены изменения в законодательство. Такой бизнес начинать, вероятно, не стоит»

— Уже можете поделиться какими-то инсайтами, опираясь на свой опыт и данные сервиса?

— Из простого наблюдения: сейчас меньше регистрируется ИП и растет количество юрлиц. Причина — в изменении законодательства.

— Ярослав, любые информационные базы всегда представляли ценность для мошенников. Понимаю, что все данные взяты из открытых источников, но у вас выстроена своя система с выводами и глубокой аналитикой. Скажите, как вы защищаете свою базу?

— Мы используем маскирование данных. Если кто-то попробует нас взломать, он получит зашифрованную информацию, которая не будет иметь никакой достоверности. Если упростить, то можно сказать так: меня зовут Ярослав, а хакеры получат информацию, что меня зовут Денис.

— То есть в корне неверную информацию?

— Именно.

— Сколько времени понадобилось, чтобы реализовать проект?

— От идеи до готового сервиса прошло два года.

— С какими трудностями пришлось столкнуться в процессе создания?

— Доступность источников. Мы сталкивались с тем, что были изменены форматы подачи информации и предоставления данных. Это усложняло нам задачу — нужно было менять подход в их анализе, сборе и очистке.

— Расскажите, чем еще полезен ваш сервис, кроме того, что уже обсудили?

— К примеру, вы захотели начать цветочный бизнес. Зашли в наш сервис и смотрите количество зарегистрированных компаний, которые торгуют цветами. Если за последний месяц наблюдаете всплеск регистраций, то логично предположить, что у вас будет высокая конкуренция и стоит подумать над работой в другом сегменте. Если же наоборот наблюдается динамика закрытия компаний, то, скорее всего, были внесены изменения в законодательство, и владельцам стало невыгодно вести определенный бизнес. Его начинать, вероятно, тоже не стоит.

— Вы подталкиваете людей к подобным выводам?

— Да, мы делаем понятное описание, чтоб было удобнее работать с собранной информацией.

— Как вы планируете продвигать программу?

— Будем продавать персонифицированные учетные записи. Стоимость — 100 BYN в месяц. Также будем предоставлять API. Условно, у компании есть своя система и доступ ко всей информации на сайте ей не нужен. Она обращается к нам и мы предоставляем API, с которого можно будет забрать именно то, что ей нужно. Также мы можем делать аналитические справки — проанализировать необходимую компанию и сделать выводы. Можем обогащать источники данных пользователей. К примеру, если вы не умеете пользоваться данными, то сможете предоставить их нам, мы дополним своими и сделаем выводы. Кроме всего вышеперечисленного, планируем продавать свои программы по сбору информации.