Аналитик-разработчик в Справочник Яндекс Карт
Яндекс Карты — один из самых известных картографических сервисов в России, который уже работает в десятках стран.
Помимо адресов домов, Карты предоставляют информацию об организациях, а строит и поддерживает базу данных о них сервис Справочник. Мы помогаем находить организации по рубрике и местоположению или названию, узнавать телефоны, сайты, часы работы и другую информацию. Пользователи могут читать и оставлять отзывы и оценки, загружать фото и видео об организациях, а их владельцы — управлять информацией через специальный кабинет Бизнеса. Наша цель — поддерживать и развивать высококачественную базу организаций во многих странах мира.
Справочник — крайне сложная система, аналитикой которой занимается отдельная группа. Прямо сейчас мы создаём и валидируем метрики качества Справочника — отвечаем на вопросы:
- О каких организациях мы не знаем и почему?
- Насколько точно мы знаем расположение, телефон, расписание работы организаций?
- Как лучше и дешевле собирать информацию об организациях?
- Как ошибки базы Справочника влияют на пользователей?
- Как по поведению пользователя понять, что мы дали хороший ответ на его запрос?
- В каких городах и странах конкуренты лучше нас и в чём именно?
- Как понять важность организации для пользователя?
- Как бороться с мошенниками, которые создают ложные организации или сообщают нам неверную информацию?
Наши колл-центры и пешеходы собирают и проверяют информацию в сотнях городов, мы оперируем терабайтами данных о запросах и действиях пользователей, их маршрутах и визитах в организации. На основе этих данных наши аналитики складывают картину реального мира, дают бизнесу оптимальные рекомендации, улучшают и удешевляют наши процессы и помогают сервису расти в новых странах.
У нас:
- Технологический стек: SQL, Python, NumPy, pandas, DataLens, CatBoost
- Обучение ML-моделей на основе регрессии или деревьев
- A/B-эксперименты на реальных пользователях
- Регулярные процессы поставки и мониторинга данных
Задачи и обязанности
Метрики полноты и точности контента
Насколько хорошо мы знаем расположение, телефоны, расписание работы организаций?
Как объединить противоречивую информацию об организации, поступающую от разных источников: пешеходов, асессоров, конкурентов, пользователей?
Как повысить качество сбора информации — за счёт обучения и проверки пешеходов и асессоров или другими способами?
Вам предстоит создать базовые метрики качества данных о транспорте: остановках, маршрутах, расписаниях.
Эффективность
Как снизить стоимость получения информации?
Какие источники информации наиболее полезны?
Как распределить бюджет на уточнение информации оптимальным образом?
В каких сегментах (городах и рубриках) вложения в сбор информации будут наиболее эффективны?
Насколько хорошо мы обрабатываем жалобы пользователей и как делать это лучше?
Онлайн-метрики поведения пользователей
Какие ошибки в данных Карт наиболее критичны для пользователей?
Как по поведению пользователя понять, что мы дали хороший или плохой ответ на его запрос?
Как построить модель и спрогнозировать, каким образом сбор данных в данном сегменте повлияет на поведение пользователей?
Требования
- Хорошо понимаете базовую математику, теорию вероятностей, статистику
- Использовали Python и pandas для анализа данных
- Аналитически мыслите, способны формализовать и декомпозировать задачи, строить гипотезы, устанавливать взаимосвязи и делать аргументированные выводы
Дополнительные требования
- Хорошо знаете SQL
- Понимаете основы ML
- Работали аналитиком или разработчиком