Личный опыт
«Про бизнес» 23 января 2019

«Парсинг — это как просмотр порно, все этим занимаются». Белорусы хотят собрать данные со всего интернета

Слева направо: ведущий, Евгений Гуринович, Галина Макеева, Эдуард Коледа. Фото из личного архива

Много раз сталкиваясь с проблемой извлечения и анализа данных с сайтов, эти ребята решили упростить себе жизнь, а в итоге создали универсальную программу, которую уже качают в США. Расширение для браузера Parsers позволяет извлекать структурированные данные с веб-сайтов и визуализировать аналитику по ним без дополнительного программирования. Историю работы над проектом рассказывает его основатель и CEO Евгений Гуринович.

- Рынок парсинга (я имею в виду разнообразие предлагаемых сервисов по извлечению и обработке данных) существует уже очень давно. В этой сфере много конкурентов, но все подобные сервисы сложны в настройках, многие требуют навыков программирования, дорого стоят и отдают в основном только сырые данные. Наша программа позволяет пользователю указать нужные данные, после чего сама определяет страницы, на которых такие данные есть, и собирает в базу. Результат извлечения данных отображается на графиках. Можно сразу видеть, например, какие слова употребляются на сайте чаще всего, увидеть топовых авторов статей, посмотреть среднюю цену на недвижимость, автомобили и многое другое. Эти данные можно скачать в удобном формате или получить по API.

Парсеры решают широкий круг задач, поэтому практически каждая крупная компания их использует. Сбор данных о клиентах, конкурентный анализ, анализ цен и отзывов, контактная и энциклопедическая информация.

По моим прикидкам, каждый третий стартап использует парсер для своего проекта. Большинство пытаются написать его сами, что значительно затрудняет развитие основного продукта, потому что написать и поддерживать хороший парсер - сложная задача. Вот как мы подошли к ее решению.

Фото из личного архива Евгения Гуриновича

Было много разных проектов

Это не та история, когда все чудесным образом получилось с первого раза. Первый свой проект я запускал лет 6−7 назад вдвоем с братом. С тех пор было больше десяти проектов разной степени готовности и успешности. Мы открывали компании в других странах, общались с инвесторами, были призерами стартап-конкурсов и выиграли сервер, который и сейчас нам очень помогает в работе. Каждый проект давал бесценный опыт, который мы сейчас применяем.

Parsers мы изначально создавали для себя. За год до начала разработки я дважды столкнулся с проблемой, которая решалась с помощью парсинга. Первый раз мне необходимо было создать большую базу картинок для обучения искусственного интеллекта. Это до сих пор - одна из самых сложных, на мой взгляд, задач при создании ИИ. И решения тут может быть только 2: найти готовую базу или собирать ее самому. Мне пришлось обращаться к разработчику за написанием программы по извлечению данных с сайтов.

Второй раз я обратился за созданием парсера через полгода. Мы подключали клиентов к маркетплейсу, и необходимо было загрузить их товары к нам на сайт. Далеко не у всех владельцев интернет-магазинов есть возможность делать частые выгрузки товаров, а если и есть, то приходится с ними долго общаться и объяснять, зачем это нужно. Со своим парсером нам (я имею в виду маркетплейс) нужно было просто получить согласие на размещение у нас, а данные о товарах мы извлекали и загружали к нам на маркетплейс сами. Все стало просто, и подключать клиентов стало в десятки раз быстрее.

Универсальный парсер

Я привел только пару примеров, но на самом деле я довольно часто сталкивался с необходимостью парсить данные. Поэтому и решил написать, наконец, универсальный парсер сайтов, которым можно было бы пользоваться без знаний программирования и сложных настроек. Искать команду долго не пришлось, ведь почти каждый разработчик хоть раз сталкивался с необходимостью написать парсер для какого-нибудь сайта. Написать программу один раз и пользоваться постоянно - такая задача была интересна всем. Маркетолог тоже нашелся сразу: такой продукт для анализа конкурентов - бесценен.

Таким образом, в нашей команде собрались я, дизайнер и руководитель; мой брат Роман, который занимается серверной частью; маркетолог и front-end-разработчик, который написал расширение. Работали, оставаясь в найме, по вечерам и в выходные, бесплатно, на голом энтузиазме. И уже через пару недель выпустили первую версию в Google Chrome Store. Делать расширение (программу, которая расширяет функциональные возможности браузера) для управления парсингом было самым логичным шагом: это намного проще, чем настраивать все через веб-сервис. Никто из нас до этого не имел дело с разработкой расширения для браузера, но все получилось как нельзя лучше.

Еще год назад мы сами пользовались Parsers для личных и рабочих целей. Но вскоре об этом узнали знакомые и стали загружать себе, пользоваться, хвалить. Спустя несколько месяцев расширение Parsers начало опережать конкурентов и, что самое главное, большинство установок были из США. Тут нам повезло, что наш маркетолог специализируется именно на англоязычном трафике, и мы с самого начала экспериментировали над каналами продвижения, которые дают пользователей из США.

Фото из личного архива Евгения Гуриновича

Мы выделили 3 основных направления привлечения условно бесплатного трафика:

  • Органический трафик в Google Chrome Store
  • Продвижение сайта parsers.me (SEO, статьи)
  • Канал на YouTube.

Мы решили всерьез заняться доработкой и продвижением. Открыли ИП на первое время, я ушел из найма и все время посвятил работе над проектом. За год разработки специалисты нашего уровня получили бы за такой проект порядка $ 70 тыс. Поэтому на данном этапе я считаю эту сумму нашими личными вложениями.

Мы начали улучшать техническую часть, экспериментировать с описанием, иконкой. А тем временем Parsers вошел в топ по основным запросам и достиг 10% роста в неделю на органическом трафике. Мы начали показывать Parsers инвесторам, презентовать проект. На первом же конкурсе стартапов мы заняли 1-е место и получили положительный фидбек.

Сейчас сервис работает по фримиум-модели: у нас более 2300 активных пользователей в неделю. Часть структурированных данных пользователи могут скачать бесплатно, а остальное - по подписке. Подписка стоит от $ 20 до $ 200, в зависимости от количества собираемых данных. Мы специально сделали, чтобы основную часть небольших сайтов можно было обрабатывать бесплатно, поскольку одна из наших задач сейчас - собирать и структурировать как можно больше данных со всего интернета и сделать их доступными для разработчиков, стартаперов, исследователей. Таким образом, рано или поздно подобная аналитика перестанет быть прерогативой крупных компаний вроде Google или Facebook.

Все этим занимаются...

Около 50% веб-трафика приходится на различных ботов, в том числе - парсеров. По самым скромным подсчетам, рынок парсинга оценивается в $ 56 млрд на конец 2018 и растет минимум на 20% в год, хотя информации об этом мало. Парсинг - это как просмотр порно. Все этим занимаются, но никто об этом не говорит. К примеру, венчурные фонды парсят сайты крупных СМИ, чтобы всегда быть в курсе, о каких сферах, технологиях стали чаще писать. Вот пример парсинга сайта techcrunch.com за 15 января. Отчетливо видно, что большинство упоминаний идет о выставке CES 2019, которая прошла накануне.

Фото из личного архива Евгения Гуриновича

Мы получили ряд интересных предложений от акселераторов и инвесторов, но с инвестициями решили не спешить. Все разрабатывали за собственные средства. У нас были необходимые компетенции, чтобы развиваться самостоятельно. Основная задача сейчас - выйти на Product Hunt и получить больше фидбека от профессионального сообщества США, опробовать бизнес-модель. Мы готовились к этому событию 2 месяца и сегодня опубликовали Parsers на Product Hunt. После этого планируем привлекать инвестиции, подать заявки в акселераторы США, поближе к основной аудитории.