Marketer Phương Quyên
Phương Quyên

Content Executive @ Brands Vietnam

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ phân tán là một trong những công cụ mạnh mẽ để nhận diện mối quan hệ giữa hai biến số hoặc phân nhóm dữ liệu để phát hiện các mẫu hình và các giá trị ngoại lai. Đối với marketer, đây có thể là công cụ quan trọng giúp nhìn ra khoảng trống trên thị trường hoặc dự đoán các giá trị tiếp theo dựa trên cách các biến tác động lẫn nhau.

Data Visualization được phát triển nhằm cung cấp các bối cảnh sử dụng những loại biểu đồ phổ biến thường gặp và những biểu đồ phức tạp để phục vụ việc đọc – hiểu thông tin quan trọng từ dữ liệu. Bằng cách kết hợp giữa chia sẻ góc nhìn chuyên gia và các ví dụ/bài tập cụ thể, series hy vọng các bạn có thể thành thạo việc “tạo hình” data hơn.

Định nghĩa

Biểu đồ phân tán (hay còn gọi là đồ thị phân tán, biểu đồ điểm) sử dụng các dấu chấm để biểu diễn giá trị của hai biến số định lượng khác nhau. Vị trí của mỗi dấu chấm trên trục hoành và trục tung thể hiện giá trị tương ứng của từng điểm dữ liệu. Biểu đồ phân tán chủ yếu được sử dụng để quan sát và biểu diễn mối quan hệ giữa hai biến số định lượng. Các dấu chấm trong biểu đồ không chỉ thể hiện giá trị của từng điểm dữ liệu riêng lẻ, mà còn giúp hình thành các mẫu hình khi dữ liệu được nhìn nhận một cách tổng thể.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ phân tán sử dụng các dấu chấm để biểu diễn giá trị của hai biến số định lượng khác nhau.
Nguồn dữ liệu: ChartExpo

Mục đích sử dụng

Việc nhận diện các mối quan hệ tương quan là một trong những ứng dụng phổ biến nhất của biểu đồ phân tán. Thông thường, trục hoành (trục x) thường biểu diễn biến độc lập, còn trục tung (trục y) biểu diễn biến phụ thuộc. Biến độc lập là yếu tố mà bạn chủ động thay đổi hoặc kiểm soát trong quá trình đo lường hay thí nghiệm và không bị tác động bởi các yếu tố khác trong phép đo. Ngược lại, biến phụ thuộc là yếu tố bị ảnh hưởng bởi biến độc lập.

Mục đích chính của biểu đồ phân tán là thể hiện mối quan hệ giữa hai biến này. Khi bạn thay đổi giá trị của biến độc lập, biểu đồ sẽ cho thấy biến phụ thuộc thay đổi như thế nào. Thông qua đó, bạn có thể quan sát được xu hướng hoặc độ tương quan giữa hai yếu tố đang được phân tích. Ví dụ với biểu đồ trên, nếu bạn muốn biết ngân sách marketing ảnh hưởng ra sao đến doanh số, bạn sẽ đặt ngân sách marketing ở trục x (biến độc lập) và doanh số ở trục y (biến phụ thuộc).

Trong những trường hợp như vậy, biểu đồ thường giúp người đọc dự đoán giá trị phù hợp nào của trục tung khi đã biết giá trị theo trục hoành. Mối quan hệ giữa các biến có thể được mô tả theo nhiều cách: tương quan dương hay âm, mạnh hay yếu, tuyến tính hoặc phi tuyến.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Mối quan hệ giữa các biến có thể được mô tả theo nhiều cách: tương quan dương hay âm, mạnh hay yếu, tuyến tính hoặc phi tuyến.
Nguồn: Atlassian

Bên cạnh đó, biểu đồ phân tán còn hữu ích trong việc phân nhóm các điểm dữ liệu dựa trên mức độ tập trung của chúng. Chẳng hạn với biểu đồ dưới đây, người biểu diễn có thể dựa vào sự thay đổi tỷ lệ thâm nhập thị trường trong ngành thực phẩm thuộc FMCG để phân chia các ngành hàng nhỏ thành các nhóm có đặc điểm tăng trưởng khác nhau.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ phân tán thể hiện mức thay đổi tỷ lệ thâm nhập thị trường của các ngành hàng thực phẩm thuộc FMCG.
Nguồn dữ liệu: Kantar Insight Handbook 2022

Biểu đồ so sánh sự thay đổi về tỷ lệ thâm nhập trong ngành thực phẩm của FMCG giữa hai giai đoạn gồm 2018-2019 (tạm gọi giai đoạn 1) với giai đoạn 2020 – MAT P8/2021 (tạm gọi giai đoạn 2).

* MAT (moving annual total) là số liệu của 12 tháng gần nhất. Với ví dụ trên, MAT P8’ 21 nghĩa là số liệu của 12 tháng gần nhất tính đến tháng 8/2021

Biểu đồ được chia thành bốn phần rõ rệt, giúp chúng ta dễ dàng nhận ra xu hướng của từng nhóm ngành hàng. Góc trên bên phải là nhóm “Growth Upholder” – đây là những ngành hàng có mức độ thâm nhập tăng trưởng mạnh cả 2giai đoạn. Những mặt hàng nằm trong khu vực này như trà đóng chai, cà phê pha sẵn, xúc xích, cháo ăn liền hay tương cà đều là những sản phẩm thiết yếu, được người tiêu dùng tiếp tục lựa chọn nhiều hơn qua các năm, kể cả trong thời điểm dịch bệnh.

Góc dưới bên phải là nhóm “COVID Accelerator”, tức là các ngành hàng không tăng trưởng rõ rệt trong giai đoạn 1, nhưng lại bất ngờ bùng nổ về mức độ tiêu dùng trong giai đoạn 2, nhiều khả năng do ảnh hưởng từ đại dịch khiến hành vi tiêu dùng thay đổi. Ví dụ tiêu biểu ở đây là mì ống, sữa đặc và bơ thực vật - những mặt hàng gắn liền với nhu cầu nấu nướng tại nhà.

Trong khi đó, góc trên bên trái là nhóm “Hindered”, bao gồm các sản phẩm từng có tăng trưởng tốt trước đây nhưng chững lại hoặc giảm ở giai đoạn 2. Các ngành hàng như nước đóng chai, nước ép, bánh snack hoặc kẹo cao su thuộc nhóm này. Điều này cho thấy người tiêu dùng có thể đang ưu tiên lại chi tiêu, tập trung nhiều hơn vào các mặt hàng thiết yếu.

Cuối cùng, góc dưới bên trái là nhóm những ngành hàng không tăng trưởng ở cả hai giai đoạn, cho thấy sự suy giảm dài hạn và có thể cần được xem xét lại về vai trò trong danh mục kinh doanh.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Ngoài ra, biểu đồ phân tán còn giúp nhận biết các khoảng trống bất thường trong dữ liệu, cũng như các điểm ngoại lệ. Những yếu tố này rất hữu ích khi cần phân đoạn dữ liệu, chẳng hạn như trong quá trình xây dựng chân dung người dùng (user personas).

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ phân tán giúp nhận biết các khoảng trống bất thường (gap in values) trong dữ liệu, cũng như các điểm ngoại lệ.
Nguồn: Atlassian

Biểu đồ minh họa dưới đây mô tả mối quan hệ giữa đường kínhchiều cao của một nhóm cây giả định. Mỗi dấu chấm đại diện cho một cây; trục hoành thể hiện đường kính của cây (tính bằng centimet), còn trục tung thể hiện chiều cao (tính bằng mét).

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ phân tán thể hiện chiều cao cây theo đường kính.
Nguồn dữ liệu: Atlassian

Từ biểu đồ, ta có thể nhận thấy mối tương quan dương chặt chẽ giữa đường kính và chiều cao cây. Ngoài ra, cũng có thể quan sát được một điểm ngoại lệ – một cây có đường kính lớn bất thường so với phần còn lại, nhưng chiều cao lại không tương xứng. Đây có thể là một trường hợp đặc biệt cần được xem xét kỹ hơn.

Một ví dụ khác để minh họa cho việc dữ liệu chia thành nhiều nhóm như biểu đồ dưới đây: Một công ty mỹ phẩm có kế hoạch phát triển một sản phẩm chăm sóc môi mới và tiến hành khảo sát thị trường để xem liệu có khoảng trống nào chưa được khai thác hay không.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ phân tán so sánh trực tiếp mức độ đánh giá giữa hai nhóm người tiêu dùng nam và nữ về các sản phẩm chăm sóc môi hiện hành.
Nguồn dữ liệu: Storytelling with data

Quá trình phân tích cho thấy các sản phẩm chăm sóc môi hiện hành có xu hướng phân cực giữa hai nhóm người tiêu dùng nam và nữ. Cụ thể, các sản phẩm thường được thiết kế để phù hợp rõ ràng với một giới, tạo ra sự chênh lệch trong mức độ ưa chuộng và đánh giá giữa hai nhóm. Phát hiện này mở ra một cơ hội tiềm năng cho doanh nghiệp phát triển một sản phẩm trung tính hơn, có thể thu hút cả nam và nữ.

Ở đây, vai trò của biểu đồ phân tán phù hợp trong giai đoạn khám phá dữ liệu ban đầu, với mục tiêu tìm ra những xu hướng ẩn hoặc các mẫu hành vi tiêu dùng không dễ thấy. Trường hợp này, biểu đồ phân tán giúp so sánh trực tiếp mức độ đánh giá giữa hai nhóm và cho phép nhận diện những khoảng trống trên thị trường. Cần lưu ý rằng trong nghiên cứu này, hai biến đều không phụ thuộc lẫn nhau nên việc thay đổi hai trục không ảnh hưởng đến kết quả nghiên cứu.

Cách biểu diễn

Thông thường, dữ liệu dùng để xây dựng biểu đồ phân tán thường bao gồm hai cột số liệu:

  • Một cột thể hiện biến độc lập (independent variable): Biến được cho là ảnh hưởng hoặc tác động đến biến còn lại.
  • Một cột thể hiện biến phụ thuộc (dependent variable): Biến có giá trị thay đổi dựa trên biến độc lập.

Lấy đề bài sau làm ví dụ, một doanh nghiệp triển khai chương trình thử nghiệm nhỏ, nhằm nâng cao hiệu suất của các nhân viên phân tích mới được tuyển dụng. Chương trình kéo dài một năm, với lộ trình đào tạo toàn diện và chuyên sâu.

Hàng tháng, tất cả các nhân viên phân tích trong tổ chức đều được đánh giá hiệu suất ở mức “dưới trung bình”, “trung bình” hoặc “trên trung bình” so với các đồng nghiệp khác ở ba văn phòng toàn cầu.

Bước 1 – Chuẩn bị dữ liệu và xác định mục tiêu vẽ biểu đồ

Trong ví dụ này, bộ dữ liệu mẫu ghi nhận:

  • Số tháng làm việc của các nhân viên đã tham gia chương trình đào tạo thử nghiệm (biến độc lập).
  • Số tháng được đánh giá “trên trung bình” về hiệu suất làm việc (biến phụ thuộc).

Mục tiêu của biểu đồ là trực quan hóa mối quan hệ giữa thời gian làm việc và số tháng được đánh giá cao.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Bảng dữ liệu thô về mối quan hệ giữa thời gian làm việc và số tháng được đánh giá cao của tất cả các nhân viên.
Nguồn dữ liệu: Storytelling with Data

Bước 2 – Tạo biểu đồ phân tán bằng công cụ trực quan hoá

Giả sử người biểu diễn sử dụng Microsoft Excel, ta sẽ chọn toàn bộ dữ liệu của hai cột số liệu số tháng làm việcsố tháng có hiệu suất trên trung bình. Sau đó chọn Insert biểu đồ Scatter (biểu tượng các điểm rời rạc). Trong đó,

  • Trục X: Biểu diễn biến độc lập – “Số tháng làm việc”.
  • Trục Y: Biểu diễn biến phụ thuộc – “Số tháng hiệu suất trên trung bình”.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ phân tán thể hiện sự tương quan giữa số tháng làm việc và số tháng có hiệu suất trên trung bình của nhân viên.
Nguồn dữ liệu: Storytelling with data

Bước 3 – Định dạng và làm rõ thông tin

Sau khi có biểu đồ, người biểu diễn có thể cân nhắc loại bỏ các đường kẻ thừa và chỉnh sửa trục cùng tiêu đề để được một biểu đồ phân tán đơn giản, gọn gàng với các điểm dữ liệu được đánh dấu bằng vòng tròn đen giống nhau. Từ đây, người biểu diễn có thể tiếp tục tinh chỉnh hoặc bổ sung các yếu tố cần thiết cho mục tiêu phân tích.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Người biểu diễn có thể tiếp tục tinh chỉnh hoặc bổ sung các yếu tố cần thiết cho mục tiêu phân tích.
Nguồn dữ liệu: Storytelling with Data

Quan sát phân bố các điểm dữ liệu cho thấy không có xu hướng tăng rõ rệt giữa thời gian làm việc và số tháng hiệu suất cao. Một số nhân viên làm việc lâu đạt nhiều tháng hiệu suất trên trung bình, nhưng cũng có trường hợp kết quả thấp hơn hẳn. Điều này gợi ý rằng thời gian làm việc chỉ là một trong nhiều yếu tố ảnh hưởng đến hiệu suất, và cần phân tích thêm các yếu tố khác để rút ra kết luận chắc chắn.

Cách đọc

Sau khi tạo biểu đồ, bước tiếp theo là hình dung các vùng dữ liệu. Một cách phổ biến để đọc thông tin chính tốt hơn là chia biểu đồ thành các phần dựa trên giá trị trung bình hoặc một ngưỡng cụ thể. Cách chia này giúp truyền đạt kết quả một cách trực quan, đồng thời giúp nhóm nghiên cứu nhận ra các cụm dữ liệu, xu hướng hoặc khoảng trống.

Ví dụ, bạn quản lý một đội xe buýt và muốn đánh giá chi phí cho mỗi dặm thay đổi như thế nào theo số dặm đã đi. Lúc này, ta có thể sử dụng biểu đồ phân tán để mô tả. Người biểu diễn có thể thêm một đường ngang cho mức chi phí trung bình của đội xe, từ đó hướng sự chú ý của người đọc vào đúng điểm tối ưu chi phí (vào khoảng 2.600 dặm)

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ phân tán giúp đánh giá chi phí cho mỗi dặm thay đổi như thế nào theo số dặm đã đi.
Nguồn dữ liệu: Storytelling with Data

Hoặc xem xét thêm ví dụ sau: Một công ty thu thập thông tin về các nhà quản lý thông qua khảo sát phản hồi từ cấp dưới, từ đó “lượng hóa” năng lực quản lý của họ dựa trên đánh giá của chính đội nhóm mà họ dẫn dắt. Đồng thời, công ty cũng có quy trình đánh giá hiệu suất định kỳ, trong đó mỗi nhân viên, bao gồm cả các nhà quản lý, đều nhận được một điểm đánh giá từ cấp trên của mình.

Khi kết hợp hai chỉ số này trên cùng một biểu đồ phân tán, mỗi nhà quản lý sẽ được biểu diễn bằng một điểm dữ liệu. Kết hợp với việc phân vùng dữ liệu, người đọc có thể dễ dàng quan sát bức tranh tổng thể, từ những trường hợp mà cả hai thước đo đều cao (các nhà quản lý hiệu quả nhất) hoặc đều thấp (những trường hợp cần hỗ trợ hoặc thay thế) và cả những trường hợp “lệch pha”, nghĩa đạt điểm cao ở một thước đo nhưng thấp ở thước đo còn lại.

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Biểu đồ thể hiện mối quan hệ giữa “Manager Score” (điểm quản lý) và “Performance Score” (điểm hiệu suất) của các quản lý, qua đó phân loại họ thành các nhóm khác nhau.
Nguồn dữ liệu: Storytelling with Data

Ngoài việc chia biểu đồ thành các vùng, một bước quan trọng khác trong quá trình đọc thông tin từ biểu đồ phân tán là xác định hình dạng tổng thể của dữ liệu. Hãy thử lùi lại và quan sát toàn cảnh: các điểm dữ liệu có xu hướng nằm dọc theo một đường thẳng tăng dần hay giảm dần, hay chúng tạo thành một đường cong hoặc một hình dạng đặc biệt nào đó?

Người biểu diễn có thể thêm đường xu hướng (trendline) để giúp người xem dễ hình dung hơn về mối quan hệ giữa hai biến. Nếu các điểm dữ liệu nằm càng sát với đường xu hướng, điều đó cho thấy mối quan hệ giữa hai biến càng mạnh. Trong trường hợp đường xu hướng là đường thẳng, ta đang quan sát một mối quan hệ tuyến tính; nếu là đường cong, mối quan hệ đó có tính phi tuyến (ví dụ về chi phí xe buýt ở trên).

Data Visualization #6.1: Scatter Plot – Hướng dẫn toàn diện về biểu đồ phân tán

Người biểu diễn có thể thêm đường xu hướng (trendline) để giúp người xem dễ hình dung hơn về mối quan hệ giữa hai biến.
Nguồn: Data Camp

Tuy nhiên, cũng có khi dữ liệu phân tán ngẫu nhiên, không hình thành xu hướng rõ ràng và đó cũng là một phát hiện quan trọng, cho thấy mối liên hệ giữa hai biến là yếu hoặc không tồn tại.

Từ những ví dụ trên, có thể thấy biểu đồ phân tán là một bản đồ trực quan giúp người đọc nhận diện mối quan hệ giữa các biến, phân nhóm dữ liệu, phát hiện khoảng trống thị trường và cả các điểm ngoại lệ đáng chú ý. Việc đọc hiểu biểu đồ phân tán một cách linh hoạt sẽ giúp marketer và nhà phân tích dữ liệu đưa ra quyết định sáng suốt hơn.

phần tiếp theo, chúng ta sẽ đi sâu vào những trường hợp “đặc biệt” của biểu đồ này để hiểu đa dạng ứng dụng của Scatter Plot.

Đây là series đào sâu cách sử dụng biểu đồ trong những bối cảnh khác nhau. Nếu bạn đọc có bất kỳ ví dụ minh họa hay biểu đồ cụ thể nào cần chuyên gia phân tích, hãy để lại bình luận cho Brands Vietnam nhé!

Bạn có thể xem lại các bài viết khác cùng chuyên mục tại đây.

Phương Quyên / Brands Vietnam
* Nguồn: Brands Vietnam