Это сокращенный пересказ текста Морица Мюллера-Фрайтага на Medium, где он рассказывает, как новые проекты находят данные для старта и развития. Он пишет в первую очередь про стартапы в области машинного обучения и примеры берет из них же. Но приведенные стратегии годятся не только для них. Что интереснее, они годятся даже не только для сбора данных, а для всех проблем типа “где же нам что-нибудь взять” – контент, пользователей, покупателей/продавцов.
Где же взять эти данные для старта? Вот стратегии, которые предлагает Мюллер-Фрайтаг.
1. Собирать вручную
Многие проекты требуют значительной ручной работы – люди вручную вбивают данные в систему. В Долине все популярнее становятся вакансии обучателей ботов – например, все ответы ассистента Facebook M проверяются специальными асессорами. С ростом проекта, если алгоритмы достаточно хорошие, количество ручной работы, по идее, должно уменьшаться или хотя бы не расти.
Кому подходит: почти всем
Кто использует:
* Стартапы в области чатботов (Magic, GoButler, x.ai и Clara)
* MetaMind (данные для классификации еды собираются и размечаются вручную)
* Building Radar (интерны вручную классифицируют изображения зданий)
2.Начать с узкой ниши
Количество необходимых данных зависит от размеров вашей предметной области. Если существенно ее сузить – скажем, разрабатывать не универсального чат-бота, а бота, который делает конкретную задачу одно хорошо – сбор данных существенно упрощается.
Кому подходит: вертикально интегрированным проектам (частям тематической вертикали)
Кто использует:
* Высокоспециализированные чат-боты(x.ai, Clara и GoButler)
* Deep Genomics (использует машинное обучение, чтобы изучать нюансы генома)
* Quantified Skin (использует селфи пользователей для анализа кожи)
3.Краудсорсинг
Платформы “облачных людей” вроде Amazon Mechanical Turk или CrowdFlower позволяют использовать рабочую силу миллионов реальных людей. Например, VocalIQ использовал Mechanical Turk, чтобы обучать своего цифрового помощника на запросах реальных людей. Другие проекты, вроде Clara и Facebook M, использовали специальных подрядчиков. Самое главное, чтобы задача легко формулировалась и не была слишком скучной или сложной.
Когда подходит: когда легко обеспечить контроль качества.
Кто использует:
* DeepMind, Maluuba, AlchemyAPI и много кто еще
* VocalIQ (использовали Mechanical Turk, чтобы обучить алгоритмы реальной речи)
* Snips (просили у людей их данные исследований).
4.User-in-the-loop (черт его знает, как перевести)
Идея в том, что продукт устроен так, что люди охотно делятся данными во время обычных сценариев использования, даже не осознавая, с какой целью. Google собирает данные с помощью автокомплита в поиске, Google Translate и спам-фильтров, Facebook – когда вы отмечаете знакомых на фотографиях.
Многие стартапы используют этот принцип, давая возможность людям корректировать ошибки роботов. В частности, так делают reCAPTCHA и Duolingo.
Кому подходит: для проектов для широкой аудитории с постоянным взаимодействием с пользователями.
Примеры:
* Unbabel (сообщество корректирует машинный перевод)
* Wit.ai
* Mapillary (пользователи поправляют, когда алгоритмы неправильно определяют дорожные знаки)
5.Сайд-проекты
Стратегия, популярная среди проектов, распознающих изображения. Clarifai, HyperVerge и Madbits выпускали отдельные приложения для широкой аудитории, с помощью которых собирали данные для основного бизнеса. При этом важно, чтобы приложения были достаточно полезными, даже если основной бизнес еще не завелся.
Для кого пригодится: стартапы внутри платформ
Примеры:
* Clarifai (приложение Forevery)
* HyperVerge (приложение Silver)
* Madbits (приложение Momentsia для коллажей)
6. Троянский конь
Идея в том, чтобы создать продукт, ценный даже без машинного обучения, продавать его по минимальной цене и улучшать его качество за счет собранных данных. Например, компания Recombine дешево продает тесты фертильности, чтобы создать базу данных ДНК. Некоторые даже считают, что Tesla занимается ровно тем же – продав 100 тысяч машин, по уши забитых сенсорами, они собирают крупнейшую базу данных для будущих беспилотных автомобилей.
Кому подходит: вертикально интегрированным проектам.
Кто использует:
* BillGuard (приложение против сомнительных списываний с банковских карт)
* Tesla
7.Открытые данные
Многие стартапы с переменным успехом пытались использовать общедоступные данные. Для этого использовались как открытые сервисы вроде The Common Crawl, так и данные, которые выпускали в публичный доступ корпорации вроде Yahoo или Criteo.
Некоторые данные можно собирать из веба или больших платформ (соцсетей). Farecast (продан Microsoft в 2008) тащил данные о ценах с сайтов о путешествиях. Аналогично, SwiftKey использовал терабайты данных из веба для построения языковых моделей.
Для кого: для всех проектов, которые могут найти подходящие публичные данные.
Кто использует:
* Farecast
* SwiftKey
* The Echo Nest (собирает данные с музыкальных сайтов каждый день)
* Jetpac (использует публичные данные из Instagram)
8. Данные по лицензии (API)
Еще один способ – использовать данные партнеров: либо с помощью прямого API, либо интегрируясь в чужие приложения. В любом случае, приходится платить за доступ, а потом добывать из полученных данных новую ценность.
Сервисы вроде Clearbit или Factual выступают в данном случае как провайдеры. Такие данные часто используют стартапы из финтеха и алгоритмического трейдинга (включая нестандартные данные, вроде спутниковых обзооров Orbital Insight или Rezatec).
Для кого: для проектов, которым важны чужие данные (например, конкретной отрасли)
Примеры:
* Farecast (получали данные от авиалиний)
* Decide.com (использовали данные e-commerce, чтобы предсказывать цены)
* Building Radar (использовали снимки с орбиты для контроля строительства)
9.Рыба-прилипала
Провайдером данных может быть большая компания, которая предоставляет доступ к своим данным взамен на пользу для себя. Например, стартап занимается решением проблем фрода (сомнительных финансовых операций), предоставляет свои услуги большой финансовой структуре и получает возможность обучаться на ее данных – так делали, например, Sift Science and SentinelOne. Самые большие проблемы здесь – юридические. Сложно договориться с корпорациями по вопросам корректного использования полученных данных.
Интересно для: b2b-проектов
Примеры:
* Skytree
10.Поглощения
В последнее время проекты покупаются не только из-за технологий и человеческих ресурсов, но и из-за качественных баз данных. IBM Watson, в частности, только за 2015 год приобрели по этой причине четыре стартапа в области медицинских данных.
Для кого: для больших и богатых стартапов, обычно растущих внутри корпораций.
Послесловие
Не так важно, какую стратегию вы выберете. Главное, помните: доступ к большому объему качественных тематических данных стал сейчас ключевой проблемой всех новых проектов. Иногда вы можете решить ее быстро (скажем, наняв людей, которые изображают роботов). Иногда вам придется долгое время работать в статусе ограниченной беты, дожидаясь, когда качество наконец станет соответствующим.