← Все вакансии

Аналитик-разработчик в Справочник Яндекс Карт

Яндекс Карты — один из самых известных картографических сервисов в России, который уже работает в десятках стран.

Помимо адресов домов, Карты предоставляют информацию об организациях, а строит и поддерживает базу данных о них сервис Справочник. Мы помогаем находить организации по рубрике и местоположению или названию, узнавать телефоны, сайты, часы работы и другую информацию. Пользователи могут читать и оставлять отзывы и оценки, загружать фото и видео об организациях, а их владельцы — управлять информацией через специальный кабинет Бизнеса. Наша цель — поддерживать и развивать высококачественную базу организаций во многих странах мира.

Справочник — крайне сложная система, аналитикой которой занимается отдельная группа. Прямо сейчас мы создаём и валидируем метрики качества Справочника — отвечаем на вопросы:

  • О каких организациях мы не знаем и почему?
  • Насколько точно мы знаем расположение, телефон, расписание работы организаций?
  • Как лучше и дешевле собирать информацию об организациях?
  • Как ошибки базы Справочника влияют на пользователей?
  • Как по поведению пользователя понять, что мы дали хороший ответ на его запрос?
  • В каких городах и странах конкуренты лучше нас и в чём именно?
  • Как понять важность организации для пользователя?
  • Как бороться с мошенниками, которые создают ложные организации или сообщают нам неверную информацию?

Наши колл-центры и пешеходы собирают и проверяют информацию в сотнях городов, мы оперируем терабайтами данных о запросах и действиях пользователей, их маршрутах и визитах в организации. На основе этих данных наши аналитики складывают картину реального мира, дают бизнесу оптимальные рекомендации, улучшают и удешевляют наши процессы и помогают сервису расти в новых странах.

У нас:

  • Технологический стек: SQL, Python, NumPy, pandas, DataLens, CatBoost
  • Обучение ML-моделей на основе регрессии или деревьев
  • A/B-эксперименты на реальных пользователях
  • Регулярные процессы поставки и мониторинга данных

Задачи и обязанности

Метрики полноты и точности контента

Насколько хорошо мы знаем расположение, телефоны, расписание работы организаций?

Как объединить противоречивую информацию об организации, поступающую от разных источников: пешеходов, асессоров, конкурентов, пользователей?

Как повысить качество сбора информации — за счёт обучения и проверки пешеходов и асессоров или другими способами?

Вам предстоит создать базовые метрики качества данных о транспорте: остановках, маршрутах, расписаниях.

Эффективность

Как снизить стоимость получения информации?

Какие источники информации наиболее полезны?

Как распределить бюджет на уточнение информации оптимальным образом?

В каких сегментах (городах и рубриках) вложения в сбор информации будут наиболее эффективны?

Насколько хорошо мы обрабатываем жалобы пользователей и как делать это лучше?

Онлайн-метрики поведения пользователей

Какие ошибки в данных Карт наиболее критичны для пользователей?

Как по поведению пользователя понять, что мы дали хороший или плохой ответ на его запрос?

Как построить модель и спрогнозировать, каким образом сбор данных в данном сегменте повлияет на поведение пользователей?

Требования

  • Хорошо понимаете базовую математику, теорию вероятностей, статистику
  • Использовали Python и pandas для анализа данных
  • Аналитически мыслите, способны формализовать и декомпозировать задачи, строить гипотезы, устанавливать взаимосвязи и делать аргументированные выводы

Дополнительные требования

  • Хорошо знаете SQL
  • Понимаете основы ML
  • Работали аналитиком или разработчиком
Python SQL Pandas NumPy
Откликнуться →