Обучение

Сообщение об ошибке

Обучение

Сообщение об ошибке

Data Science: почему стоит заниматься Data и кто «добывает новую нефть»?

6 марта 2024

Весь мир — это данные. А ты в нём — «парочка» бит (±1,05х10^19 байт).

Всем привет! Меня зовут Анна, я работаю в различных Data-направлениях на протяжении 3+ лет, и в этой статье обсудим сферу Data Science: понятие и направления, навыки и инструменты, перспективы Data-профессии и требования к джуну, советы и рекомендации для начинающих.


5 фактов об Анне:

1. Опыт работы — 3+ лет в направлениях Data Engineering, BI Analytics, Oracle Database Administration.

2. Магистр управления («Электронное правительство») с опытом научной деятельности 6 лет.

3. Навыки работы с несколькими РСУБД, хранилищами данных (в т. ч. облачными), инструментами визуализации, Python для ML- и ETL-задач, Data Quality. 

4. 40+ научных англо- и русскоязычных публикаций и 11 научных работ.

5. Сферы интересов: AI, ML, BigData, FinTech, цифровизация экономики, имитационное моделирование.

Что такое Data Science?

По оценкам экспертов, объем информации в мире увеличивается вдвое каждые десять лет, по другим источникам — каждые четыре года. Согласно прогнозу IDC, к 2025 году общий объем цифровых данных, генерируемых во всем мире, вырастет более чем вчетверо — с 40 Зеттабайт (как это было в 2020 году) до 175 Зеттабайт (Источник: CloudMTS).

Компании активно решают проблему растущего объёма данных с помощью внедрения Data-driven подхода. Его суть в том, что люди, опираясь на данные, принимают эффективные стратегические бизнес-решения. По словам Джеффа Хеллера, вице-президента по технологиям и операциям компании Faction, в 2024 году многие предприятия по всему миру будут внедрять архитектуру «данные в первую очередь» (Data-first), чтобы упростить свои стратегии управления данными.

Data Science (англ. «наука о данных») — это направление, которое включает в себя инструменты, методы и технологии, помогающие обрабатывать данные и использовать их для достижения целей.


Data Science — это не самостоятельная наука, а сочетание нескольких смежных дисциплин: математики и статистики, программирования, бизнес-аналитики и стратегического планирования.

Data Science — это работа с большими данными (англ. Big Data).

Big Data — огромные объёмы неструктурированной информации (банковские транзакции кредитных карт, база данных запросов в Google и др.). Иногда можно встретить иную трактовку данного термина — набор инструментов для работы с огромными массивами данных.

Какие есть профессии в Datа?

Итак, перейдём к конкретным профессиям в Data. На мой взгляд, основными являются следующие:

  1. Data Engineer (инженер данных);

  2. Data Analyst (аналитик данных);

  3. Data Scientist (учёный данных).


Data Engineer — специалист, который обеспечивает сбор данных из различных источников и готовит их для работы Data Analyst и Data Scientist.

Направления в вакансиях

Навыки

  • Data Engineer

  • ETL Engineer

  • Big Data Engineer

  • Data Quality Engineer

  • Software Data Engineer и др.

  • Алгоритмы и структуры данных

  • SQL

  • Linux (Ubuntu/RedHat)

  • Python/R, Java/Scala

  • PowerBI/Tableau и др.

  • Знание основ SQL и NoSQL баз данных

  • ETL-инструменты, инструменты для работы с Big Data (Apache Spark/Apache Airflow и др.)

  • Облако (AWS/Azure)

  • Хранилища данных (Teradata/ Hadoop и др.)

  • Git (BitBucket/GitHub)

  • Docker/Kubernetes

Data Analyst — специалист, который ищет инсайты в данных, создаёт визуализации и даёт ответы на запросы от бизнеса, коммуницирует с бизнесом.

Направления в вакансиях

Навыки

  • Data Analyst

  • BI Analyst

  • Product Analyst

  • Game Analyst

  • Marketing Analyst и др.

  • SQL

  • Математика (в т. ч. статистика)

  • Linux (Ubuntu/RedHat)

  • Python/R

  • PowerBI/Tableau и др.

  • A/B-тестирование

  • Коммуникабельность

Data Scientist — специалист, который работает с большими массивами данных, ищет в них закономерности, строит прогнозные модели и др.

Направления в вакансиях

Навыки


  • Data Scientist

  • MLOps Engineer

  • ML Engineer

  • ML Architect и др.

  • Алгоритмы и структуры данных

  • Математика

  • SQL

  • Linux (Ubuntu / RedHat)

  • Python / R

  • ML-алгоритмы

  • SAS/ SPSS

  • Git (BitBucket/GitHub)

  • Инструменты для работы с Big Data (Apache Spark/ Apache Airflow и др.)

  • Docker/Kubernetes

Для лучшего понимания приведу пример диаграммы этапов построения ML-модели, разработанной в рамках одного из моих научных исследований:


Стоит отметить, что чем крупнее компания, тем выше вероятность, что там будут работать и Data Engineer, и Data Analyst, и Data Scientist. В стартапах компетенции всех трех специалистов (сбор данных, их анализ и построение моделей) может совмещать один человек.

P.S. Речь об English не велась, так как в данной сфере всем специалистам по умолчанию необходим минимум В2. Но если компания не работает с иностранными клиентами, то он нужен на уровне чтения профессиональной литературы, так как её на английском очень много.

Как выбрать Data-направление?

Перепробовать всё!

Каждое направление интересно по-своему и имеет свои особенности. Если любишь и хорошо знаешь математику — тебе в Data Science, если любишь «щупать» и «причёсывать» данные, но математику пока не подтянул (или не хочешь подтягивать), то — в Data Engineering. Data Analyst часто называют отличным «входом» в Data, так как там есть немного обработки и анализа данных (Data Engineering) и немного статистики (Data Science).

Что нужно Junior для получения первого оффера?

  1. Горящие глаза с желанием ДО КОНЦА ЖИЗНИ учиться.

  2. Уверенное знание теории баз данных, SQL, работа с консолью, алгоритмы и структуры данных.
    P.S. Средства визуализации (PowerBI/Tableau) и Python желательно, но не обязательно.

  3. Все остальные скиллы доучиваются обычно в процессе работы в зависимости от специфики сферы компании или проекта.

  4. Навыки работы в команде.

  5. Коммуникативные навыки.

!!!В последнее время требования к джунам возросли, поэтому лучше осваивать всё по максимуму, проходить как можно больше собеседований и делать работу над ошибками.

Почему стоит заниматься Data и (ну, конечно же) сколько платят?

  1. Востребованность специалистов последние 10 лет (рост объёмов данных, новые инструменты).

  2. Интересное направление как для усидчивых и скрупулёзных (Data Engineer, Data Scientist), так и для гиперобщительных (Data Analyst) персонажей.

  3. Огромный плюс, на мой взгляд, — это идеальная сфера для проведения научных исследований.

  4. Большое сообщество первоклассных профессионалов.

  5. Удобство перехода из «чистой» разработки или аналитики в данную сферу.

  6. Высокая заработная плата: на старте, в основном, джунам в любом направлении предлагают 400-600$ (при наличии знаний по базовой теории, небольшого pet-проекта и классных soft-скилов). Далее всё зависит только от вас: темпа обучаемости и способности учиться самостоятельно, навыков коммуникации и др.

Data Engineer

3 250 BYN (1000$)

Data Analyst

2 850 BYN (880$)

Data Scientist

6 400 BYN (2000$)

Медианная месячная заработная плата в Беларуси по данным Glassdoor.

Всем успехов в увлекательном Data-приключении!

Открыта к замечаниям и предложениям по данной статье, а также к новым идеям для других статей. С удовольствием пообщаюсь на смежные темы в LinkedIn и Telegram: @annushka251.

Сделать первый шаг в перспективную и высокооплачиваемую профессию Дата-сайентиста можно на курсе «Основы Data Science».


Полная, частичная перепечатка или любое иное использование материалов с сайта IT-Academy разрешается только с указанием активной гиперссылки, ведущей на первоисточник (точный адрес страницы на www.it-academy.by).