Tìm hiểu về “big data” qua buổi trò chuyện cùng CTO của Datamart Solutions

Sự thật là big data thực ra không phải nói về data, mà là nói về cái thứ đằng sau nó, tức là công nghệ big data. Cụm từ này ám chỉ một xu hướng công nghệ mới có thể đáp ứng được tầm nhìn về việc xử lý một lượng dữ liệu, mà có thể lúc bắt đầu thì không đáng kể, nhưng nó có tốc độ tăng trưởng bùng nổ mỗi ngày.

Big data là gì? – Thực chất Big data có phải chỉ là câu chuyện của data? Trong mục chuyên gia nói kỳ này, cùng TopDev tìm hiểu về khái niệm Big data đã quá phổ biến trong làng công nghệ, và những công việc xung quanh một data scientist.

TopDev vinh dự được trò chuyện cùng anh Phạm Hoàng Việt – CTO/ CIO tại Datamart Solutions. Anh Việt hiện là Founder của Datamart Solutions – một startup đã đoạt giải Quán quân startup Việt 2018 với giải pháp bán hàng đa kênh tự động PowerSell. Anh đã dành khoảng thời gian dài làm việc tại các tổ chức, trường đại học lớn tại Châu Âu, sau đó trở về Việt Nam và làm việc tại Lazada ở vị trí Data Scientist.

* Anh có thể giới thiệu sơ lược về bản thân và công việc hằng ngày của mình tại Datamart Solutions được không?

Xin chào, mình là Việt, đồng sáng lập của Datamart Solutions, cùng với 3 người bạn nữa. Hiện tại mình đang phụ trách mảng kiến trúc và định hướng công nghệ cho tổ chức.

Đó là về mặt chức danh. Còn công việc hàng ngày của mình thì không hoàn toàn theo chức danh này, mà nó theo một vai trò khác: nhà đồng sáng lập. Nó khác nhau ở chỗ là mình phải suy nghĩ khá nhiều về việc hôm nay phải làm gì để mang lại giá trị tốt nhất cho tổ chức, tất nhiên trong giới hạn về năng lực. Chính vì thế mà mỗi ngày của mình thì đều có thể khác nhau rất nhiều: lúc thì mình code, lúc thì thiết kế, lúc thì test, lúc thì vận hành monitor, lúc thì làm sản phẩm, lúc thì làm chiến lược...

* Anh hãy chia sẻ thêm về hành trình của mình từ khi tốt nghiệp đến hiện tại?

Mình tốt nghiệp cuối 2014, và từ đó đến nay thì mình chỉ kinh qua 2 công ty, là Lazada và công ty hiện tại. Thực ra là bọn mình đã có ý tưởng về Datamart từ trước đó, tuy nhiên khi tốt nghiệp ra thì bọn mình cũng cảm thấy chưa đủ năng lực cũng như thời cơ để khởi nghiệp nên quyết định đầu quân vào một môi trường khởi nghiệp hết sức mạnh mẽ như Lazada để học hỏi cũng như là tìm kiếm các cơ hội. Đến cuối 2016 thì cơ hội đến và bọn mình rời Lazada để lập ra Datamart, và một trong những khách hàng đầu tiên của bọn mình lại chính là Lazada. Và rồi sau đó khoảng 1 năm thì bọn mình chuyển hướng sang xây dựng Powersell, là một nền tảng giải pháp cho tập khách hàng vừa và nhỏ, tuy nhiên lại có nhiều tiềm năng hơn, và đó là các nhà bán hàng trên kênh thương mại điện tử và các trang mạng xã hội như Facebook hay Instagram. Hành trình đó bắt đầu từ giữa 2017 và đã trải qua vài phiên bản, hiện tại là phiên bản thứ 5.

* Trước đây anh là một CIO và hiện tại là CTO. Theo anh, công việc của 2 vị trí này khác nhau như thế nào tại một công ty chuyên về làm về data?

Như mình đã nói ở trên công việc chính của mình nó không phụ thuộc vào chức danh. Còn nói về sự khác nhau giữa CIO đối với CTO tuỳ thuộc rất nhiều vào hoàn cảnh mỗi tổ chức. Thông thường CIO tập trung vào xây dựng và vận hành các hệ thống thông tin nội bộ, còn CTO thì có 3 điểm chính.

Thứ nhất về mặt đối ngoại là người phát ngôn về năng lực công nghệ của một tổ chức. Về mặt đối nội thì là người có tiếng nói quyết định về các chủ đề công nghệ bên trong tổ chức. Và điểm thứ ba, là nội tâm, tức là luôn luôn đặt câu hỏi cho bản thân về việc tìm kiếm những năng lực công nghệ có thể mang lại được giá trị giúp cho sự bền vững và phát triển của tổ chức. Và những công việc này thì bất kể là công ty có làm về data hay không đều tồn tại hết.

* Datamart Solutions là gì? Những giải pháp đặc biệt của Datamart Solutions có thể kể đến?

Datamart là công ty cung cấp các giải pháp cho hệ sinh thái thương mại điện tử dựa trên nền tảng thu thập, lưu trữ và phân tích dữ liệu thị trường. Thời kỳ đầu, đối tượng khách hàng của Datamart là bản thân các sàn thương mại điện tử. Họ cần một đối tác cho họ bức tranh toàn cảnh được cập nhật liên tục về thị trường, để có thể đưa ra những quyết định mang tính chiến lược về marketing và sales. Sau đó, Datamart xây dựng giải pháp PowerSell để giúp đỡ các nhà bán hàng trên TMĐT (đặc biệt các nhà bán hàng trên đa kênh) có thể vận hành các gian hàng của họ một cách hiệu quả, nhanh chóng, và kinh tế.

Datamart cũng đang phát triển các giải pháp cho Brand, trong đó brand intelligence phân tích không những tình hình bên ngoài thị trường, như xu hướng tiêu dùng, mức độ cạnh tranh, mà còn là tình hình nội tại, như hành vi khách hàng, các chỉ số kinh doanh của brand.

Dữ liệu đến từ cả nguồn nội bộ lẫn dữ liệu public.

* Anh hãy chia sẻ điều thú vị trong quá trình giải quyết bài toán của khách hàng.

Đôi khi những giải pháp ngờ nghệch và thô sơ lại làm nên kết quả tốt hơn là những suy nghĩ phức tạp. Đó là bài học về sự cân bằng giữa theo đuổi mục tiêu công nghệ và mục tiêu kinh doanh.

* Liệu anh có thể chia sẻ một số sự thật thú vị về thị trường thương mại điện tử thông qua quá trình tiếp cận rất nhiều data của các bên hoạt động trong lĩnh vực này được không? Lượng dữ liệu hiện có của Datamart Solution đã “nói” cho anh điều gì mà mọi người vẫn đang lầm tưởng về E-commerce?

Thực ra ngược lại, phần lớn kết quả phân tích lại có thể được lý giải bởi các sự kiện diễn ra trong xã hội.

Ví dụ như đợt COVID này, nhiều người nghĩ là trong khi cách ly thì mua sắm qua TMĐT sẽ tăng. Trên thực tế thì đúng là như vậy, bình thường thì mức tăng trưởng của TMĐT mỗi tháng là tầm 6-7%, tuy nhiên trong đợt COVID này thì mức tăng trưởng là tầm 14-15% một tháng. Mặc dù vậy thì nó cũng vẫn chưa được cao như mức kỳ vọng của nhiều người.

Ngoài ra thì trong đợt này thì lượng đặt hàng mua webcam tăng chóng mặt, thì có thể lý giải là do nhu cầu làm việc ở nhà. Tương tự như vậy là nhu cầu bao cao su.

* Theo quan điểm của anh, Data là một nghề hay là kỹ năng?

Mình không có quan điểm về việc data là nghề hay kĩ năng, vì đó là suy nghĩ mang tính áp đặt, gượng ép. Data là một loại sở hữu có giá trị.

* Liệu có vấn đề gì mà anh nhận thấy mọi người, đặc biệt là các bên truyền thông đang hiểu sai về data/ big data?

Có. Sự thật là big data thực ra không phải nói về data, mà là nói về cái thứ đằng sau nó, tức là công nghệ big data. Cụm từ này ám chỉ một xu hướng công nghệ mới có thể đáp ứng được tầm nhìn về việc xử lý một lượng dữ liệu, mà có thể lúc bắt đầu thì không đáng kể, nhưng nó có tốc độ tăng trưởng bùng nổ mỗi ngày.

Sự bùng nổ này được thể hiện rõ ràng khi nhìn vào bản đồ công nghệ big data, chỉ trong hơn 15 năm đổ lại, đã có hàng trăm công nghệ big data mới ra đời. Chúng chủ yếu được phát triển song song bởi các tổ chức có nhu cầu xử lý dữ liệu, mà các công nghệ hiện có ở thời điểm đó không đáp ứng được.

* Quá trình từ việc khai thác data cho đến khi có thể đưa ra quyết định (decision-making) diễn ra như thế nào? Bao gồm những bước gì?

  • Chuẩn bị dữ liệu: Vấn đề gì? Lĩnh vực nào? Cụ thể loại dữ liệu nào? Lấy từ đâu? Làm thế nào lấy?
  • Tổ chức dữ liệu: Lưu trữ như thế nào? Loại bỏ những gì, giữ lại những gì? Sắp xếp thứ tự ra sao?
  • Phân tích và thể hiện dữ liệu: Chuyện gì đã xảy ra trong quá khứ, đang xảy ra trong hiện tại, có thể xảy ra trong tương lai hay không?
  • Ra quyết định: Thực hiện hành động gì? Thay đổi định hướng/ chiến lược ra sao?

* Theo anh thấy, những vấn đề và thách thức khi làm việc với data là gì?

Chủ yếu đến từ việc thiếu kiểm soát đối với nguồn cung cấp dữ liệu:

  • Nguồn cung không ổn định
  • Dữ liệu sai, thiếu, rác (do vô tình hay chủ đích)
  • Tính an toàn và riêng tư của đối tượng gắn với dữ liệu

* Hiện em thấy có rất nhiều tranh cãi về việc data thế nào mới có thể gọi là “big” (có ý kiến rằng tầm cỡ Google, Facebook hay chính phủ Trung Quốc mới là đang sở hữu big data), vậy quan điểm của anh là như thế nào về vấn đề này?

Nếu coi sở hữu là khả năng thu thập dữ liệu thì bất cứ doanh nghiệp nào cũng có khả năng sở hữu big data. Còn nếu coi sở hữu là tạo ra dữ liệu từ nội tại, thì thông thường chỉ có các doanh nghiệp phục vụ trực tiếp người tiêu dùng phổ thông, hoặc các tổ chức nghiên cứu các hiện tượng trong tự nhiên như vật lý, sinh học, thì mới tạo ra nhiều dữ liệu đến mức cần các công nghệ về big data. Nhưng dù là hiểu theo cách nào, thì không phải chỉ lớn cỡ Google, Facebook, hay các chính phủ mới sở hữu big data.

* Một số startup ở Việt Nam tuyên bố sử dụng “big data” trong công ty của mình thường bị các nhà đầu tư bác bỏ về câu chuyện “big data” ấy. Theo anh liệu việc các startup sở hữu big data có “khả thi” hay không? Anh có quan điểm như thế nào về vấn đề này?

Theo như cách hiểu của mình về big data như giải thích ở trên thì việc startup sử dụng big data là điều hết sức bình thường. Ví dụ: Datamart có giai đoạn thu thập đến trên 300 triệu mảnh dữ liệu mỗi ngày để xây dựng bức tranh toàn cảnh về thị trường, với tần suất cập nhật rất cao để phục vụ nhu cầu khách hàng lớn. Trên thực tế thì nhà đầu tư thường ít bác bỏ về câu chuyện sử dụng big data. Họ hay bác bỏ câu chuyện startup sử dụng AI hơn, và thực tế thì đúng là như vậy, vì hầu hết mọi người hiểu sai về AI, và đánh đồng nó với các phương pháp phân tích dữ liệu. (có thể giải thích thêm nếu cần).

* Theo anh những ngành nào (như Ecommerce, fintech, banking…) và những nền tảng nào (như Facebook, Google…) có tiềm năng khai thác được nhiều data giá trị nhất tại Việt Nam và trên thế giới thời điểm hiện tại?

Gần như bất cứ lĩnh vực nào bây giờ cũng sẽ hưởng lợi từ big data, vì đây là thời kỳ số hoá và bùng nổ về thông tin. Điều này đặc biệt đúng đối với các ngành phục vụ số đông, như bán lẻ, sức khoẻ, du lịch, viễn thông, tài chính. Ngoài ra thì còn có một xu hướng nữa giữa các nền tảng sở hữu dữ liệu, đó là xu hướng hợp tác kết nối dữ liệu để tạo ra cái gọi là “customer 360”, tức là một bản thông tin hoàn chỉnh về một khách hàng, đến từ nhiều nguồn dữ liệu khác nhau thuộc nhiều lĩnh vực khác nhau có tương tác với khách hàng đó. Như vậy giá trị của dữ liệu càng được nâng cao, vì hiểu biết về khách hàng trở nên rõ ràng và chuẩn xác hơn, do được tổng hợp từ nhiều góc nhìn khác nhau.

* Việc xây dựng một cấu trúc dữ liệu ở quy mô lớn và với tốc độ tăng trưởng nhanh sẽ có những khó khăn gì và đòi hỏi những khả năng gì để quản lý?

Về mặt kỹ thuật thì có thể dễ dàng tìm ra một số những quy chuẩn về nguyên tắc thiết kế một hệ thống như vậy. Ví dụ:

  • Đảm bảo không có tình trạng thắt cổ chai
  • Đối với các business hoạt động dựa trên các giao dịch, thì cần đảm bảo một số các tiêu chuẩn an toàn cho giao dịch như ACID. Những tiêu chuẩn này thì đã được thiết lập trên các CSDL riêng lẻ, nhưng khi nhìn toàn bộ hệ thống như một khối, thì đòi hỏi đội ngũ kỹ thuật phải tự thiết lập tiêu chuẩn này.
  • Giảm thiểu tối đa độ trễ trong truy xuất. Các hệ thống dữ liệu lớn thì thường có kiến trúc tương đối phức tạp (vì họ có nhiều cách sử dụng dữ liệu), với các tương tác đi qua nhiều modules, nên nếu không chặt chẽ về mặt kiến trúc thì sẽ dẫn đến độ trễ cao.
  • Các vấn đề về tính toàn vẹn của dữ liệu. Đối với dữ liệu lớn, bất cứ một thao tác backup hay recover, hay sửa chữa dữ liệu cũng có thể tốn hàng ngày, thậm chí hàng tuần.

Tuy nhiên vấn đề khó khăn nhất thực ra không phải là kĩ thuật, mà là tiền và thời gian. Đây thường là 2 yếu tố cản trở tầm nhìn của một hệ thống với quy mô lớn và tăng trưởng nhanh trong thời gian dài.

* Làm thế nào để quản lý và phân loại để biết được những dữ liệu nào là bị “out-of-date”?

Bản thân dữ liệu thì không có sự lỗi thời hay không lỗi thời, mà sự lỗi thời chỉ xuất hiện khi dữ liệu được dùng để trả lời một câu hỏi/ vấn đề cụ thể. Và muốn biết thì dựa trên sự thay đổi của câu trả lời theo thời gian.

Các hệ thống làm việc với dữ liệu gắn với thời gian thì thường có cơ chế archiving dữ liệu theo khoảng thời gian, để khi cần thì có thể lấy ra xử lý một cách hiệu quả.

* Đối với dữ liệu phi cấu trúc (unstructured data) nói chung thì những khó khăn về mặt kỹ thuật thường gặp phải là gì?

  • Nhiều dữ liệu nên tốn chỗ chứa
  • Nhiều dữ liệu nên cơ chế post-processing sẽ chậm
  • Khó phân tích, phải sử dụng các phương pháp tách lọc phức tạp.

* Để theo đuổi các công việc về data thì theo anh cần có tố chất và kỹ năng như thế nào? Nên học những kiến thức nền tảng nào?

Người đi theo ngành này cần có sự hứng thú với số liệu; khả năng xâu chuỗi và lập luận logic; khả năng tìm kiếm thông tin trong dữ liệu. Về việc học nói chung là có 2 kiểu học:

  • Học kiểu “ăn xổi”: tức là cứ “nhè” các công nghệ và công cụ phổ biến mà học. Kiểu này thì làm được việc ngay, đặc biệt là các vị trí fresh hoặc junior, hoặc trên đó một chút.
  • Học kiểu nền tảng:
    • Data engineer: học về cấu trúc dữ liệu, về các thuật toán lưu trữ, hệ điều hành, lập trình, tối ưu hoá hệ thống, nói chung là cơ bản về khoa học máy tính. Sau đó mới học đến các công nghệ thịnh hành.
    • Data analyst: học về kinh doanh, kinh tế, cơ bản về xác suất, thống kê. Sau đó thì học cách sử dụng các công cụ trình bày dữ liệu như Excel hay PowerBI.
    • Data scientist: học chuyên sâu về toán (giải tích và đại số tuyến tính hoặc phi tuyến tính), xác suất thống kê, machine learning. Sau đó thì học cách sử dụng các công nghệ, công cụ phân tích và hiển thị dữ liệu. Xu hướng hiện nay có khá nhiều bạn học làm data scientist theo hướng này nhưng chỉ chú trọng vào những thứ thời thượng như deep-learning. Đây cũng là một lựa chọn, tuy nhiên các bạn này về sau sẽ thiếu hẳn một kỹ năng, là tóm tắt và truyền tải thông điệp từ dữ liệu ra ngôn ngữ kinh doanh. Năng lực này thường có ở những người giỏi về xác suất thống kê và một số các thuật toán machine learning cổ điển.

* Làm về data có rất nhiều vị trí và chuyên môn khác nhau, anh có thể cho biết các vị trí liên quan đến ngành data và các giai đoạn phát triển của từng vị trí không?

Về giai đoạn phát triển thì mình không đủ kinh nghiệm để chia sẻ. Tuy nhiên mình có lời khuyên là không nên đóng khung mình vào một con đường phát triển sự nghiệp nào cả, vì nó sẽ trở thành gánh nặng cản trở. Thế giới thay đổi từng ngày, cơ hội mới đến, cơ hội cũ ra đi liên tục. Chỉ cần luôn có tinh thần học hỏi, cầu tiến, và có sự cân bằng giữa năng lực và sở thích/ đam mê, thì sự nghiệp tự nó sẽ phát triển.

* Cảm ơn anh Việt đã mang đến những chia sẻ mới mẻ và đa dạng về khía cạnh big data.

Hy vọng qua bài phỏng vấn này, các bạn độc giả sẽ hiểu hơn cái thú vị khi làm việc với dữ liệu, cũng như thu thập cho mình một số kinh nghiệm, lời khuyên khi theo đuổi công việc Data Engineer.

* Nguồn: TopDev TV