Marketer Nhung Nguyễn
Nhung Nguyễn

MarCom Manager @ Buzzmetrics

Các công cụ social listening thu thập dữ liệu như thế nào?

Đây là một trong serie các bài viết cho thấy bức tranh thực sự về cách hoạt động của các công cụ lắng nghe và theo dõi mạng xã hội, đặc biệt là Buzzmetrics, một công cụ đang được dùng để theo dõi các chiến dịch và thương hiệu quản lý bởi các tập đoàn lớn Samsung, Coca-Cola, Unilever và các Agencies global như Ogilvy, Maxus, Leo Burnett, Phibious, Performics… tại Việt Nam.

Social Listening là một mô hình kinh doanh biến thể của ngành nghiên cứu thị trường. Và cũng giống như các quy trình nghiên cứu thị trường truyền thống, social media research cũng phải trải qua 5 giai đoạn:

  1. Thu thập dữ liệu
  2. Lấy mẫu
  3. Phân loại dữ liệu
  4. Phân tích dữ liệu
  5. Trình bày báo cáo nghiên cứu

Thu thập dữ liệu là bước đầu tiên trong quá trình thực hiện nghiên cứu trên social media. Các công cụ social listening sẽ phải xây dựng một tổ hợp dữ liệu cho mỗi nước mà mình nghiên cứu (panel) và việc này có thể mất vài tháng đến nhiều năm. Đồng thời cho mỗi chiến dịch, các agency sẽ yêu cầu bổ sung các kênh được dùng cho chiến dịch đó như microsite, fanpage mới mà công cụ social listening sẽ phải đáp ứng. Việc thu thập dữ liệu toàn bộ thị trường là cần thiết và cho phép nhà nghiên cứu cho ra các nghiên cứu về xu hướng và ngành hàng.

Hiện nay có 2 phương pháp chính để thu thập dữ liệu: Từ khóa (Keywords) và Trang (Sites).

THU THẬP DỮ LIỆU BẰNG KEYWORDS

Phương pháp này được áp dụng đối với các global social networks như Facebook, Google Plus, Youtube, Twitter , Instagram… trong đó các công cụ social listening sẽ kết nối với các API (Application Programming Interface – Giao diện lập trình ứng dụng) của các social networks và yêu cầu cho phép lấy những dữ liệu có chứa keywords.

  • Ưu điểm: cho phép lấy dữ liệu của toàn bộ social network, bao gồm các trang cá nhân
  • Nhược điểm: Tương tự như công cụ search hashtags của facebook, việc lấy data bằng API phụ thuộc sự hạn chế của các social networks. API không ổn định và có thể thay đổi dẫn đến việc dữ liệu được trả lại bới API có thể không đầy đủ và không nhất quán theo thời gian. Hiện tại không có một thống kê rõ ràng việc lấy dữ liệu bằng API có thể lấy được bao nhiêu % thảo luận.

THU THẬP DỮ LIỆU THEO SITES

Là việc thu thập dữ liệu theo trang (page) trong đó các trang có dữ liệu muốn thu thập phải được liệt kê trong hệ thống. Phương pháp này giúp thu thập toàn bộ dữ liệu của các kênh được bao phủ. Hệ thống sẽ truy cập vào các website cần thu thập, click vào các đường link bài viết, tìm đọc bài viết và ghi nhận lại những thông tin có giá trị nghiên cứu một cách hiệu quả mà không làm ảnh hưởng tới các website đang thu thập.

Với phương pháp thu thập dữ liệu bằng sites, hệ thống thực hiện các thao tác như một người dùng (user) khi truy cập vào trang cần thu thập. Sau khi click vào Thread, hệ thống sẽ sao chép toàn bộ nội dung hiển thị trên màn hình bao gồm Title, Replies, Authors, URL,… Sau đó hệ thống sẽ quay lại mỗi trang sớm nhất có thể để tìm ra thread mới và replies mới cho thread cũ.

Mỗi replies sẽ được tính là 1 mention và mỗi thread cũng được tính là 1 mention. Do đó, một thread có 100 replies sẽ được tính là 101 mentions, hay 101 ý kiến người tiêu dùng.

  • Ưu điểm: Cho phép đảm bảo 100% toàn bộ dữ liệu trong trang
  • Nhược điểm: Việc lấy dữ liệu theo trang có thể dẫn đến tình trạng thiếu dữ liệu tạm thời vì các lý do sau:

- Cấu trúc site thay đổi

- Site blocking: việc thu thập dữ liệu tự động nếu lạm dụng tài nguyên của các website sẽ bị chặn bởi admin

- Site down: Không thể truy cập để thu thập dữ liệu khi trang đang bảo trì hoặc xảy ra vấn đề

- Các vấn đề đến từ đường truyền internet

Để xây dựng danh sách tất cả các trang forums, báo điện tử và fanpages ở Việt Nam là một quá trình dài. Vì thế các công cụ social listening nước ngoài thường bị thiếu dữ liệu do việc thu thập danh sách sites không đủ, hoặc khi gặp một trong các vấn đề trên thì không có nhân sự để giải quyết ngay tức thì.

Trong quá trình đảm bảo đầy đủ dữ liệu cho các chiến dịch và thương hiệu các công cụ social listening như Buzzmetrics phải sử dụng một bộ phận nhân lực áp dụng nhiều phương pháp hỗ trợ bởi máy tính để kiểm tra xem dữ liệu trên các kênh quan trọng có được thu thập đủ hay không. Đây là sự khác biệt giữa các công cụ miễn phí và giải pháp social listening trọn gói, đó là sự đảm bảo đầy đủ dữ liệu cho khách hàng.

Công nghệ social listening cũng như công nghệ search engine, đó là mô hình tổng hợp dữ liệu thị trường. Một công cụ social listening phải lưu trữ dữ liệu tối thiểu 2 năm để phục vụ các mục đích nghiên cứu. Áp lực lưu trữ và xử lý dữ liệu cũng tăng theo thời gian vì thế khoản đầu tư vào hệ thống cơ sở hạ tầng phần cứng cũng là rất lớn và liên tục.

Author: Nhung Nguyen

Buzzmetrics là một giải pháp lắng nghe và nghiên cứu mạng xã hội (Social Listening) toàn diện nhất Việt Nam, có độ phủ toàn bộ các mạng xã hội trên thế giới và trong nước, bao gồm facebook, twitter, youtube, google+, instagram, linkedin, zing, zalo, noi.vn, hơn 1000 forums, 8000+ báo điện tử và blogs. Buzzmetrics được tin dùng bởi Coca-Cola, Samsung, Unilever và là đối tác chiến lược của các agencies hàng đầu như Ogilvy, Phibious, Leo Burnett, Maxus, Sofresh... Sự khác biệt của Buzzmetrics nằm ở khả năng nghiên cứu chuyên sâu theo từng ngành hàng, mang lại cho các thương hiệu các Insight chất lượng và thiết thực dựa trên phản hồi trong thời gian thực của người tiêu dùng.