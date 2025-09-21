Должностные обязанности Data Engineer
Общие положения Data Engineer
Data Engineer — специалист, отвечающий за проектирование, разработку, сопровождение и оптимизацию конвейеров данных (ETL/ELT), хранилищ данных и платформ для аналитики и ML. Обеспечивает доступность, качество, консистентность и производительность данных для аналитических и продуктовых команд. Действует в соответствии с архитектурными стандартами компании, политиками безопасности данных и практиками data governance.
Квалификационные требования Data Engineer
- Высшее образование в области информатики, прикладной математики, IT или эквивалентный практический опыт.
- Опыт разработки и эксплуатации data‑pipeline, DWH или Data Lake от 2 лет (Middle) / 4+ лет (Senior).
- Уверенное владение SQL и опытом оптимизации запросов для OLAP/OLTP.
- Практические навыки программирования: Python (pandas, PySpark), Scala или Java — преимущество.
- Опыт работы с движками распределённой обработки: Apache Spark, Flink или аналогами.
- Опыт с оркестраторами и workflow‑инструментами: Airflow, Prefect, Dagster.
- Опыт работы с брокерами сообщений/стримингом: Kafka, Kinesis или RabbitMQ.
- Знание облачных хранилищ и DWH: AWS Redshift, Snowflake, Google BigQuery, Azure Synapse.
- Опыт инфраструктуры как кода и CI/CD для данных (Terraform, GitHub Actions, GitLab CI).
- Понимание принципов data modeling (star, snowflake), нормализации/денормализации, колонковых форматов (Parquet/ORC).
- Навыки обеспечения качества данных: тестирование данных, мониторинг, lineage и обработка ошибок.
- Понимание требований по безопасности и соответствию (PII, GDPR) и опыт работы с маскированием/шифрованием данных.
- Коммуникационные навыки для взаимодействия с аналитиками, ML‑инженерами и продуктом.
Должностные обязанности Data Engineer
- Проектирование и разработка ETL/ELT‑конвейеров для интеграции данных из источников (API, базы, стримы).
- Создание и поддержка архитектуры хранения: DWH, Data Lake, зоны raw/staging/warehouse/marts.
- Оптимизация производительности загрузок и запросов, управление партиционированием и индексами.
- Реализация потоковой обработки данных (streaming) и батч‑обработки, настройка Kafka/Spark/Kinesis.
- Автоматизация оркестрации задач и зависимостей (Airflow/Prefect/Dagster), мониторинг DAG.
- Внедрение и сопровождение тестирования качества данных (data tests), проверок целостности и SLA.
- Поддержка и документирование схем данных, lineage, контрактов и соглашений о данных.
- Настройка мониторинга, алёртинга и логирования для data‑pipeline и DWH (SLO/SLI).
- Внедрение практик безопасности: контроль доступа, шифрование, маскирование PII.
- Участие в проектировании схем для аналитики и ML, подготовка feature‑store или таблиц‑фич.
- Интеграция CI/CD процессов для инфраструктуры и трансформаций данных (pipelines как код).
- Сопровождение инцидентов и участие в пост‑мортемах, оптимизация процессов восстановления.
- Наставничество младших инженеров, участие в code review и формировании стандартов разработки данных.
Отчетность Data Engineer
Data Engineer подотчётен руководителю команды данных / Data Platform Lead / CTO и предоставляет:
- ежедневные/еженедельные отчёты по статусу конвейеров и инцидентам;
- метрики по SLA/SLI, latenсy, throughput и качеству данных;
- отчёты по выполненным задачам, релизам и изменению схем;
- документацию по lineage, контрактам и runbooks для восстановления;
- оценки трудоёмкости и рисков при изменениях в data‑архитектуре.
Права Data Engineer
- Запрашивать у продуктовых и аналитических команд спецификации источников данных и доступы для интеграции.
- Останавливать или возвращать на доработку конвейер/релиз при выявлении критических нарушений качества или безопасности данных.
- Предлагать и внедрять инструменты и процессы (orchestration, DWH, monitoring) в рамках согласуемого бюджета.
- Настраивать и управлять доступами к дата‑платформе в согласии с политиками безопасности.
- Вносить предложения по стандартизации схем, naming conventions и процессам governance.
Критерии эффективности и ответственность Data Engineer
- Основные KPI: доступность и своевременность data‑pipeline (SLA), качество данных (error rate), latency/throughput, время восстановления (MTTR), скорость доставки актуальных датамартов.
- Примеры целевых значений:
- Процент успешных прогонов ETL/ELT в SLA ≥ 99.5%;
- Среднее время обработки критичных задач (латентность) ≤ согласованного SLA (например, batch < 1 час, stream < 1–5 сек);
- Bug escape rate (ошибки данных в аналитике) < 1% от релизов;
- MTTR при падении пайплайна ≤ 30–120 минут (в зависимости от критичности).
- Data Engineer несёт ответственность за корректность и надежность конвейеров, соответствие данных соглашениям о качестве и соблюдение требований безопасности. За нарушения применяются меры согласно внутренним регламентам и трудовому законодательству.
