Общие положения Data Engineer

Data Engineer — специалист, отвечающий за проектирование, разработку, сопровождение и оптимизацию конвейеров данных (ETL/ELT), хранилищ данных и платформ для аналитики и ML. Обеспечивает доступность, качество, консистентность и производительность данных для аналитических и продуктовых команд. Действует в соответствии с архитектурными стандартами компании, политиками безопасности данных и практиками data governance.

Квалификационные требования Data Engineer

Высшее образование в области информатики, прикладной математики, IT или эквивалентный практический опыт.

Опыт разработки и эксплуатации data‑pipeline, DWH или Data Lake от 2 лет (Middle) / 4+ лет (Senior).

Уверенное владение SQL и опытом оптимизации запросов для OLAP/OLTP.

Практические навыки программирования: Python (pandas, PySpark), Scala или Java — преимущество.

Опыт работы с движками распределённой обработки: Apache Spark, Flink или аналогами.

Опыт с оркестраторами и workflow‑инструментами: Airflow, Prefect, Dagster.

Опыт работы с брокерами сообщений/стримингом: Kafka, Kinesis или RabbitMQ.

Знание облачных хранилищ и DWH: AWS Redshift, Snowflake, Google BigQuery, Azure Synapse.

Опыт инфраструктуры как кода и CI/CD для данных (Terraform, GitHub Actions, GitLab CI).

Понимание принципов data modeling (star, snowflake), нормализации/денормализации, колонковых форматов (Parquet/ORC).

Навыки обеспечения качества данных: тестирование данных, мониторинг, lineage и обработка ошибок.

Понимание требований по безопасности и соответствию (PII, GDPR) и опыт работы с маскированием/шифрованием данных.

Коммуникационные навыки для взаимодействия с аналитиками, ML‑инженерами и продуктом.

Должностные обязанности Data Engineer

Проектирование и разработка ETL/ELT‑конвейеров для интеграции данных из источников (API, базы, стримы).

Создание и поддержка архитектуры хранения: DWH, Data Lake, зоны raw/staging/warehouse/marts.

Оптимизация производительности загрузок и запросов, управление партиционированием и индексами.

Реализация потоковой обработки данных (streaming) и батч‑обработки, настройка Kafka/Spark/Kinesis.

Автоматизация оркестрации задач и зависимостей (Airflow/Prefect/Dagster), мониторинг DAG.

Внедрение и сопровождение тестирования качества данных (data tests), проверок целостности и SLA.

Поддержка и документирование схем данных, lineage, контрактов и соглашений о данных.

Настройка мониторинга, алёртинга и логирования для data‑pipeline и DWH (SLO/SLI).

Внедрение практик безопасности: контроль доступа, шифрование, маскирование PII.

Участие в проектировании схем для аналитики и ML, подготовка feature‑store или таблиц‑фич.

Интеграция CI/CD процессов для инфраструктуры и трансформаций данных (pipelines как код).

Сопровождение инцидентов и участие в пост‑мортемах, оптимизация процессов восстановления.

Наставничество младших инженеров, участие в code review и формировании стандартов разработки данных.

Отчетность Data Engineer

Data Engineer подотчётен руководителю команды данных / Data Platform Lead / CTO и предоставляет:

ежедневные/еженедельные отчёты по статусу конвейеров и инцидентам;

метрики по SLA/SLI, latenсy, throughput и качеству данных;

отчёты по выполненным задачам, релизам и изменению схем;

документацию по lineage, контрактам и runbooks для восстановления;

оценки трудоёмкости и рисков при изменениях в data‑архитектуре.

Права Data Engineer

Запрашивать у продуктовых и аналитических команд спецификации источников данных и доступы для интеграции.

Останавливать или возвращать на доработку конвейер/релиз при выявлении критических нарушений качества или безопасности данных.

Предлагать и внедрять инструменты и процессы (orchestration, DWH, monitoring) в рамках согласуемого бюджета.

Настраивать и управлять доступами к дата‑платформе в согласии с политиками безопасности.

Вносить предложения по стандартизации схем, naming conventions и процессам governance.

Критерии эффективности и ответственность Data Engineer

Основные KPI: доступность и своевременность data‑pipeline (SLA), качество данных (error rate), latency/throughput, время восстановления (MTTR), скорость доставки актуальных датамартов.

Примеры целевых значений: Процент успешных прогонов ETL/ELT в SLA ≥ 99.5%; Среднее время обработки критичных задач (латентность) ≤ согласованного SLA (например, batch < 1 час, stream < 1–5 сек); Bug escape rate (ошибки данных в аналитике) < 1% от релизов; MTTR при падении пайплайна ≤ 30–120 минут (в зависимости от критичности).

Data Engineer несёт ответственность за корректность и надежность конвейеров, соответствие данных соглашениям о качестве и соблюдение требований безопасности. За нарушения применяются меры согласно внутренним регламентам и трудовому законодательству.

