Hỏi - đáp Nơi cung cấp thông tin nghề nghiệp và giải đáp những thắc mắc thường gặp của bạn

Sự khác nhau giữa Data Engineer, Data Scientist và Software Engineer

Mọi người đang dần cảm thấy data engineering là một subset của software engineering và rất nhiều software engineer đang làm việc với data. Vai trò của dữ liệu trong ngành phần mềm ngày càng quan trọng, những nhánh chuyên môn làm việc với dữ liệu dần được phân biệt rõ ràng hơn. Vậy đâu là sự khác nhau giữa software engineer, data engineer và data scientist?

Bài báo cáo của LinkedIn chỉ ra những kĩ năng mà mỗi vai trò thường có. Nhìn vào biểu đồ bên dưới, bạn thấy bản thân nên gọi mình là software engineer, data scientist hay data engineer?

Software Engineer

Là người làm applications và systems. Là người tham gia vào mọi giai đoạn từ thiết kế, viết code đến testing và review. Vai trò này tạo ra sản phẩm (và sản phẩm đó tạo ra data).

Công việc của vai trò này bao gồm:

  • Phát triển frontend & backend
  • Ứng dụng web
  • Ứng dụng mobile
  • Phát triển hệ điều hành
  • Thiết kế phần mềm

Data Engineer

Là người xây dựng systems tổng hợp, lưu trữ và xuất dữ liệu từ một số app và system tạo ra bởi software engineers. Data engineer sở hữu một ngách kĩ năng của software engineer. 40% data engineer ban đầu là software engineer, đây là một trong những hướng phát triển nghề nghiệp thường thấy.

Công việc của vai trò này bao gồm:

  • Cấu trúc dữ liệu nâng cao
  • Điện toán phân tán (distributed computing)
  • Lập trình đồng thời (concurrent programming)
  • Kiến thức về một số công cụ mới: Hadoop, Spark, Kafka, Hive, v.v.
  • Tạo ETL/data pipelines

Data Scientist

Là người tạo hệ thống phân tích trên toàn bộ data, đó có thể là mẫu phân tích 1 lần để team hiểu về hành vi người dùng, hoặc thuật toán machine learning để implement vào code base của software engineers và data engineers.

Công việc của vai trò này bao gồm:

  • Data modeling
  • Machine learning
  • Thuật toán
  • Business Intelligence dashboards

Data team sẽ còn thay đổi

Một số xu hướng cho thấy cấu trúc đội ngũ làm việc với data sẽ còn có nhiều thay đổi. Quá trình ETL đã trở nên dễ dàng hơn nhờ công cụ mới (như Stitchdata.com) cho phép software engineer quản lí data pipelines. Các công ty lớn kéo data engineers ra khỏi đội ngũ software engineer để tạo một team làm việc tập trung với data. Trong một số trường hợp, data scientists đảm nhiệm cả công việc tổng hợp và phân tích data.

Định nghĩa và yêu cầu đối với cả ba vai trò này ắt hẳn sẽ liên tục cải biến, bởi suy cho cùng thì data chỉ có thể tăng lên theo thời gian.

Via Kipalog