3 декабря
Будущее глазами бэкенд-разработчиков. Регистрируйтесь на мероприятие о технологиях в электронной коммерции
1 | 3 | 6 |
В Беларуси появился сервис, в котором можно проверить благонадежность любой организации и определить, какой бизнес не стоит открывать. Ярослав Зык вместе с командой единомышленников создал платформу Analytix.by, на которой уже сформировал профили более 400 тысяч белорусских компаний и миллиона ИП. «Про бизнес» узнал у основателя стартапа, сколько источников для этого было проанализировано и чем полученные выводы будут полезны людям бизнеса.
— Ярослав, похожих программ в Беларуси около двадцати. В чем особенность вашей?
— Мы не просто собрали информацию в одном месте, а структурировали ее и для каждой компании создали профиль с индикаторами. Ведь если специалист не сталкивался с большим объемом данных, он не сможет провести качественный анализ и самостоятельно сделать выводы. Также на основе индикаторов мы разработали свою скоринговую систему. Благодаря ей можно оценить благонадежность компании.
Чтобы было понятнее, по обозначениям она напоминает светофор: зеленый, красный, желтый. Когда человек заходит в профиль, он сразу может определить по цвету, на каком уровне бизнес и какие риски нужно учитывать при сотрудничестве с ним. Следующий этап — это глубокая аналитика. На основе собранных профилей мы стали строить дашборды. На них видны все компании в зависимости от местоположения, размера и вида деятельности.
— Сколько лет вы занимались аналитикой до того, как появилась идея создания собственного сервиса?
— 10 лет. Ранее я работал в информационно-аналитическом отделе, где каждый отвечал за определенный сегмент источников, и никто из сотрудников не владел всей картиной об объекте анализа. Что еще хуже — мы все обрабатывали вручную. Наш же сервис позволит оптимизировать работу целого аналитического отдела.
— В чем заключалась ваша собственная мотивация?
— В развитии. Я собрал команду единомышленников из четырех человек и мы стали работать над программным обеспечением. О деньгах не думали. В нашем понимании приложение должно было приносить пользу, облегчать труд. Могу сказать, что вся моя команда профессионально выросла.
Непрограммисты научились писать программы, программисты — анализировать данные. И все научились генерировать идеи. Да, этому нужно учиться: глубоко погружаться и не бояться высказывать свое мнение.
— Как вы собирали данные для своего сервиса? Вручную?
— Нет. Мы написали программу, которая делает это автоматически. Сначала алгоритм собирает информацию, потом очищает и помещает в централизованное хранилище. Профиль компании формируется на основе анализа множества источников, каким-либо образом связанных с ней. Индикаторов, о которых я сказал ранее, семь: частота смены юридического адреса, юридическая активность, управленческая ротация, уровень открытости, уровень конкуренции, репутация адреса, уровень ликвидации.
На основе данных индикаторов и дополнительных метрик рассчитывается показатель уровня надежности. Он является существенным аргументом в оценке деятельности экономической единицы.
— Каким образом происходит «очистка» собранной информации?
— Чтобы произвести «очистку», мы загружаем данные из источников в определенный слой — стейдж. Так как заполнение любых онлайн-документов происходит вручную, в них могут быть орфографические и логические ошибки. Например, люди часто неправильно указывают УНП, путают цифры.
— Приведите пример анализа любой информации.
— Возьмем, к примеру, такой источник, как новость. Как правило, каждым журналистом одно и то же может быть подано по-разному. Однако благодаря алгоритмам машинного обучения и средствам искусственного интеллекта мы извлекаем из них данные, которые необходимы именно нам: время события, ключевые фигуранты, что именно происходило. Когда массив данных большой, мы можем сопоставлять факты и определять связи.
— Вы сказали, что благодаря индикаторам и скоринговой системе в виде светофора можно предвидеть риски при сотрудничестве с той или иной компанией. Что должно насторожить человека при просмотре профиля?
— Можно посмотреть, добросовестно ли компания платила налоги, работают ли в ней люди, которые могут негативно повлиять на ее репутацию. Также плохо, если в организации много наемных индивидуальных предпринимателей. Это может свидетельствовать о том, что она применяет незаконные схемы оптимизации налогообложения.
— Как вы определяли индикаторы и понимали, что хорошо, а что плохо?
— Опирались на опыт, полученный ранее, а также использовали алгоритмы машинного обучения на основе искусственного интеллекта. Они помогли нам создать критерии, которые указывают на риски.
— Какое количество источников на данный момент вы анализируете, чтобы формировать базу?
— Сейчас мы используем около 100 разных источников. Но тут важно пояснить. МАРТ, к примеру, ведет торговый реестр и две точки бытового обслуживания. Это уже будут три разных источника, но от одного государственного органа. Из каждого мы забираем разную информацию: из одного данные адресов, из другого — картографические сведения.
Бывает, что из определенного источника мы берем вообще только название. Кроме этого, выстраиваем связи по веб-сайтам. Если, к примеру, у нескольких юрлиц один веб-сайт, это говорит об их аффилированности. А любому владельцу бизнеса интересно, с кем связана компания, которую он хочет проверить, потому что она может быть ни в чем не замечена, а вот ее дочерний бизнес — да.
— Правильно понимаю, что все данные, которые вы используете, находятся в открытом доступе и вы никак не нарушаете «Закон о персональных данных»?
— Да, все верно. Мы собираем данные лишь из открытых источников, люди добровольно выставляют информацию на обозрение.
— А насколько объективна и достоверна та информация, которую люди сами же публикуют в открытом доступе? Ведь многим свойственно искажать действительность. Банальный пример — увеличивать количество продаваемой продукции в год, если речь о торговых компаниях.
— У нас для этого есть система метрик. Если информация размещена на сайте государственного органа, к ней больше доверия. Однако перед загрузкой мы все равно ее проверим и лишь после того, как алгоритм подтвердит достоверность, перенесем в наше хранилище данных. Напомню, что мы не берем данные только лишь с сайта конкретной компании, а анализируем более 100 источников.
При этом профиль дополняется информацией из новостей. К примеру, что-то произошло — инфоповод для СМИ. Они подхватили и каждый по-своему описал событие, не всегда верно трактуя факты. Наш алгоритм найдет наиболее частые совпадения и все равно расценит эту новость, как одну. Однако, если дубликатов немного и ничего не нужно «схлопывать», то алгоритм поднимает ее вверх по рейтингу достоверности.
— Сколько на данный момент у вас компаний (профилей) в базе?
— Более 400 тысяч компаний и миллиона ИП, зарегистрированных на территории РБ. В том числе и ликвидированные.
— Как вы понимаете, что информация устарела и ее нужно обновить?
— Само хранилище данных является темпоральным — информация там имеет историю. Когда мы анализируем источник, то проставляем метку времени. В новости это может быть дата публикации, на сайте компании — дата ее основания. Наша система работает в реальном времени и данные актуализируются каждый час. Пока мы с вами разговариваем, алгоритм собрал и обновил информацию, соответственно, выводы поменялись.
— Приведите пример того, как сервис обновляет информацию. Как вы, к слову, поймете, что в компании поменялось количество сотрудников, если она сама не внесла правки?
— Мы соотнесем данные о размещенных резюме и вакансиях. Если количество размещенных резюме возросло, то мы сделаем вывод, что компания развивается и расширяет штат.
— Можно ли вывести график, на котором видно, когда было сокращение, а когда —набор?
— Да, мы сейчас идем к такому графику. Пользователи смогут сами устанавливать критерии для X и Y и получать выводы. Система будет напоминать мини-конструктор.
— Будет ли сохранятся история поиска условных интересов пользователей?
— Да, у нас уже есть функция отслеживания любого субъекта. Для этого можно поставить его на мониторинг и если, у него что-то будет меняться в профиле, интересующемуся им пользователю придет уведомление на почту или в мессенджер.
— Уже можете поделиться какими-то инсайтами, опираясь на свой опыт и данные сервиса?
— Из простого наблюдения: сейчас меньше регистрируется ИП и растет количество юрлиц. Причина — в изменении законодательства.
— Ярослав, любые информационные базы всегда представляли ценность для мошенников. Понимаю, что все данные взяты из открытых источников, но у вас выстроена своя система с выводами и глубокой аналитикой. Скажите, как вы защищаете свою базу?
— Мы используем маскирование данных. Если кто-то попробует нас взломать, он получит зашифрованную информацию, которая не будет иметь никакой достоверности. Если упростить, то можно сказать так: меня зовут Ярослав, а хакеры получат информацию, что меня зовут Денис.
— То есть в корне неверную информацию?
— Именно.
— Сколько времени понадобилось, чтобы реализовать проект?
— От идеи до готового сервиса прошло два года.
— С какими трудностями пришлось столкнуться в процессе создания?
— Доступность источников. Мы сталкивались с тем, что были изменены форматы подачи информации и предоставления данных. Это усложняло нам задачу — нужно было менять подход в их анализе, сборе и очистке.
— Расскажите, чем еще полезен ваш сервис, кроме того, что уже обсудили?
— К примеру, вы захотели начать цветочный бизнес. Зашли в наш сервис и смотрите количество зарегистрированных компаний, которые торгуют цветами. Если за последний месяц наблюдаете всплеск регистраций, то логично предположить, что у вас будет высокая конкуренция и стоит подумать над работой в другом сегменте. Если же наоборот наблюдается динамика закрытия компаний, то, скорее всего, были внесены изменения в законодательство, и владельцам стало невыгодно вести определенный бизнес. Его начинать, вероятно, тоже не стоит.
— Вы подталкиваете людей к подобным выводам?
— Да, мы делаем понятное описание, чтоб было удобнее работать с собранной информацией.
— Как вы планируете продвигать программу?
— Будем продавать персонифицированные учетные записи. Стоимость — 100 BYN в месяц. Также будем предоставлять API. Условно, у компании есть своя система и доступ ко всей информации на сайте ей не нужен. Она обращается к нам и мы предоставляем API, с которого можно будет забрать именно то, что ей нужно. Также мы можем делать аналитические справки — проанализировать необходимую компанию и сделать выводы. Можем обогащать источники данных пользователей. К примеру, если вы не умеете пользоваться данными, то сможете предоставить их нам, мы дополним своими и сделаем выводы. Кроме всего вышеперечисленного, планируем продавать свои программы по сбору информации.
3 декабря
Будущее глазами бэкенд-разработчиков. Регистрируйтесь на мероприятие о технологиях в электронной коммерции
2 декабря
РКО от Белагропромбанка – широкие возможности для бизнеса
2 декабря
5 топовых советов от спикеров бизнес-конференции «RACE. Кейсы, результаты, инсайты»
1 декабря
Путь к победе длиною в девять месяцев: Белагропромбанк подвел итоги Стартап-марафона 2024
28 ноября
400 м2 светодиодных экранов, VR футбол с мировой звездой, дрифт-симулятор и AI-музыканты: что посмотреть на One AI Forum
26 ноября
Как точно рассчитать стоимость строительства дома: даем реально рабочий инструмент
26 ноября
«Обращаются не только за товаром, но и из-за грамотными консультациями»: как работает компания, предоставляющая упаковочные решения
26 ноября
Дизайнер рассказал, как красиво сочетать виниловый сайдинг разных цветов