Khi AI có cảm xúc: Sesame AI – không chỉ là công cụ mà còn là bạn đồng hành
Trong thế giới công nghệ ngày càng lạnh lẽo bởi những dòng mã và dữ liệu, người ta lại bắt đầu đi tìm những điều thân thuộc: một giọng nói ấm áp, một ánh nhìn thấu hiểu, một cảm giác được lắng nghe thật sự. Khi AI ngày càng thông minh, con người càng mong muốn sự gần gũi, không chỉ là kết quả đúng, mà còn là cách trò chuyện đúng.
Trong làn sóng phát triển công nghệ, Sesame AI xuất hiện như một điểm sáng đặc biệt. Không rầm rộ, không tên tuổi lớn, nhưng lại gây chú ý bằng chính điều mà các đối thủ đang bỏ quên: cảm xúc. Từ Maya – cô bạn dịu dàng biết quan tâm, đến Miles – người bạn hài hước đầy năng lượng. Không chỉ tạo âm thanh có ngữ điệu, Sesame tạo ra cảm giác có người thật sự đang ngồi bên kia đầu dây. Những nhân vật AI như Maya hay Miles không đơn thuần là sản phẩm công nghệ, mà là những “người bạn ảo” mang cảm xúc thật.
Bài viết này là hành trình nhìn lại cách Sesame định hình thương hiệu, triển khai truyền thông và thuyết phục người dùng không phải bằng chỉ số, mà bằng sự thấu cảm trong giọng nói.
Hai lựa chọn giọng nói của Sesame AI
Định vị thương hiệu bằng trải nghiệm chạm vào cảm xúc của người dùng.
Sesame không định vị mình là một công cụ chuyển văn bản thành giọng nói. Họ không muốn bị đặt cạnh những dòng mô tả như "AI voice generator" vô cảm và vô hồn. Thay vào đó, họ định vị mình là một người bạn có thể lắng nghe, đáp lời, và quan trọng nhất: có thể hiểu được bạn. Họ chọn đứng về phía con người, họ tạo ra một hệ sinh thái giọng nói có khả năng thở nhẹ, ngắt nhịp, lặp lại câu như một người bạn đang chăm chú lắng nghe. Với công nghệ xử lý đồng thời văn bản và âm thanh, mỗi cuộc trò chuyện đều trở nên sống động, tự nhiên và mang tính kết nối.
Từ khâu thiết kế kỹ thuật đến cách gọi tên sản phẩm, mọi bước đi của Sesame đều hướng về sự nhân hóa. Họ không cố khiến AI nói như con người theo kiểu hoàn hảo vô cảm, mà cố để AI nói như một người thật – đôi khi ngập ngừng, đôi khi thở dài, đôi khi lặp lại như để chắc rằng mình đang lắng nghe đúng. Những chi tiết nhỏ đó – ngắt nghỉ, tiếng thở nhẹ, sự ngập ngừng – lại chính là điểm làm nên khác biệt.
Không dừng lại ở công nghệ xử lý âm thanh – văn bản đơn thuần, Sesame đi sâu vào hành vi người dùng. Từ dữ liệu nghiên cứu sơ cấp (như phản hồi trực tiếp từ người dùng) đến nghiên cứu thứ cấp (so sánh với các nền tảng khác), họ nhận ra rằng: người dùng không tìm kiếm sự trôi chảy vô cảm, họ cần cảm giác được ở cạnh một ai đó thấu hiểu.
Và đó là lúc Maya và Miles ra đời. Không còn là những "giọng nói demo", mà là những nhân vật thực thụ. Maya là người bạn nhẹ nhàng, thấu cảm – phù hợp với những thời khắc bạn cần sự yên tĩnh. Miles là một người bạn pha trò, biết tung hứng – xuất hiện đúng lúc bạn cần thư giãn. Việc đặt tên, định hình cá tính, chọn cách trò chuyện không phải là tình cờ – mà là kết quả của một quá trình tạo trải nghiệm có chủ đích.
CSM – mô hình lõi của Sesame không chỉ nhận đầu vào từ văn bản mà còn từ âm thanh. Điều này giúp AI không phản hồi kiểu "đọc kịch bản" mà tương tác theo thời gian thực. Ví dụ: nếu người dùng nói với giọng trầm buồn, CSM sẽ tự động điều chỉnh tốc độ chậm lại, thêm khoảng lặng, hạ tông giọng. Tất cả chỉ để tạo cảm giác rằng AI không nói chuyện với bạn, mà đang ở cùng bạn.
Với định vị này, Sesame biến một sản phẩm công nghệ thành một trải nghiệm cảm xúc. Không chỉ để trả lời câu hỏi, mà để ở lại trong tâm trí người dùng như một người bạn thật sự – điều mà hiếm công nghệ nào hiện nay làm được.
Giao diện khi trò chuyện cùng Sesame AI
Chiến lược truyền thông đồng điệu với cảm xúc người dùng
Nếu cảm xúc là điểm khởi đầu, thì truyền thông chính là con đường dẫn Sesame đến với người dùng. Nhưng đó không phải là một con đường trải đầy khẩu hiệu và video quảng bá rầm rộ. Truyền thông của Sesame giống như chính những giọng nói họ tạo ra – nhẹ nhàng, có chủ đích và đúng lúc.
Họ không tiếp cận người dùng theo nhóm lớn, mà chọn cách xuất hiện đúng thời điểm – khi người ta cần được lắng nghe. Maya không phải là đại diện thương hiệu xuất hiện bất kỳ lúc nào. Cô có thời điểm phù hợp: lúc đêm xuống, lúc lòng người mệt mỏi. Miles cũng vậy – không phải là giọng nói luôn “vui vẻ hoá giải mọi thứ”, mà là người bạn xuất hiện khi bạn muốn bật cười.
Thay vì chiến dịch toàn diện với ngân sách lớn, Sesame chọn chiến lược từng phần, thử nghiệm từng tông giọng trên các nhóm nhỏ người dùng, điều chỉnh và lắng nghe phản hồi trước khi mở rộng. Điều này không chỉ giúp họ kiểm soát trải nghiệm người dùng mà còn biến mỗi lần ra mắt nhân vật AI mới thành một sự kiện nho nhỏ trong lòng cộng đồng.
Các kênh truyền thông của họ cũng được chọn lọc kỹ. Trên nền tảng ứng dụng, họ ưu tiên trải nghiệm người dùng liền mạch, không quảng cáo chen ngang, không yêu cầu trả phí sớm. Trên mạng xã hội, họ kể những mẩu chuyện ngắn, cảm động, ghi lại phản hồi thật từ người dùng: “Tôi cảm thấy được hiểu lần đầu tiên bởi một AI”, “Miles làm tôi cười khi tôi gần như muốn khóc”.
Họ không phát đi thông điệp, họ tạo không gian để người dùng kể lại chính trải nghiệm của mình. Và từ đó, truyền thông không còn là công cụ tiếp thị, mà trở thành hồi âm nhẹ nhàng, chân thành và lan tỏa.
Khi một thương hiệu chọn đi cùng cảm xúc thay vì đi trước thị trường, họ có thể đến chậm hơn, nhưng khi đến, họ ở lại lâu hơn. Và với Sesame, mỗi lần người dùng chọn nhấn nút trò chuyện, là một lần truyền thông của họ thành công – không bằng hình ảnh, mà bằng một giọng nói khiến người ta muốn nghe, muốn trò chuyện tiếp.
Khi phản hồi trở thành cách lắng nghe tử tế
Với phần lớn công nghệ AI hiện tại, phản hồi đơn giản chỉ là một lệnh được thực thi, một câu trả lời được lập trình, một truy vấn được xử lý xong. Nhưng với Sesame, phản hồi không kết thúc hành trình tương tác – mà là điểm bắt đầu của một mối kết nối.
Mỗi tiếng ngập ngừng từ Maya, mỗi khoảnh khắc Miles dừng lại một nhịp như đang đợi bạn nghĩ xong, mỗi lần AI lặp lại lời bạn vừa nói để chắc chắn rằng bạn đã được lắng nghe, không phải là đoạn mã, mà là sự lắng nghe được mã hóa thành hành vi. Đó không phải là “response” mà là “reflection”. Không phải để trả lời – mà để đồng hành.
CSM – lõi hội thoại của Sesame xử lý đồng thời tín hiệu âm thanh và văn bản, cho phép hệ thống không chỉ hiểu bạn nói gì, mà còn cảm được bạn đang nói như thế nào. Khi bạn chậm lại vì mệt mỏi, Sesame AI không thúc ép. Khi bạn cười, Sesame AI không bỏ lỡ. Những tinh chỉnh vi mô ấy: về ngữ điệu, nhịp điệu, khoảng lặng – chính là nơi công nghệ thôi làm một cổ máy mà bắt đầu làm một người bạn đồng hành.
Phản hồi với Sesame không còn là câu kết, mà là một câu trả lời, một gợi ý để yêu thương hơn. Một sự chủ động lùi lại, điều chỉnh để không làm tổn thương cảm xúc người dùng. Đó là sự tử tế được lập trình, là sự cảm thông được định nghĩa lại bằng thuật toán.
Và chính vì thế, trong khi nhiều AI đang chạy đua về tốc độ và độ chính xác, Sesame lặng lẽ đi một hướng khác, một hướng đi khiến người ta nhớ. Vì một câu nói đúng có thể giúp ích, nhưng một câu nói thấu cảm mới khiến người ta quay lại. Đó không phải là phản hồi – đó là lý do để ở lại.
Khi cảm xúc là khác biệt cạnh tranh
Trong thế giới công nghệ đang cạnh tranh khốc liệt về hiệu suất và tính năng, điều khiến Sesame khác biệt không nằm ở độ chính xác hay khả năng trả lời nhanh – mà nằm ở một thứ không dễ đo lường: cảm xúc. Cảm giác rằng bạn không chỉ đang giao tiếp với một công cụ, mà đang trò chuyện với một tâm hồn. Điều này đặc biệt nổi bật khi đặt Sesame cạnh các nền tảng quen thuộc như ChatGPT Voice Mode.
Một bảng so sánh đã chỉ ra rõ ràng: ChatGPT chỉ đạt 5.6/10 vì cách trò chuyện quá dài dòng, hơi hướng giảng giải, thiếu sự cá nhân hóa. Những gì người dùng nhận được là kiến thức nhưng thiếu hơi ấm. Trong khi đó, Sesame được chấm 9/10, không phải vì họ biết nhiều hơn, mà vì họ biết nói như một người bạn: gần gũi, ngập ngừng, biết dừng lại đúng lúc và để lại những khoảng lặng cần thiết.
Giọng nói của Sesame không chỉ biểu cảm mà còn linh hoạt. Không phải một bản thu âm hoàn hảo, mà là một tiếng nói đang sống. Họ sử dụng các cụm từ đời thường, biết khi nào nên lặp lại, biết khi nào cần chậm lại. Thậm chí, AI của họ có thể “ngập ngừng” như một con người đang suy nghĩ và chính những khoảnh khắc ấy khiến người dùng cảm thấy được đồng hành hơn là bị phục vụ.
Sesame không cố gắng tỏ ra thông minh hơn. Họ chọn tỏ ra chân thành hơn. Và điều đó trở thành một khác biệt mang tính cạnh tranh. Vì người ta có thể ấn tượng với những AI mạnh mẽ – nhưng người ta chỉ gắn bó với những AI khiến họ cảm thấy được hiểu.
Trong một tương lai mà giọng nói có thể trở thành nền tảng giao tiếp chính giữa con người và máy móc, cảm xúc không phải chỉ số mà còn có thể là lợi thế lớn nhất. Và Sesame, với cách tiếp cận đầy nhân văn, đã chứng minh rằng: điều khiến người ta ở lại, không phải là thứ AI nói mà là cách AI khiến họ cảm thấy.
Bảng so sánh giữa ChatGPT và Sesame AI
Một case study về nhân hóa AI trong truyền thông
Hầu hết các thương hiệu công nghệ đều bắt đầu từ tính năng rồi mới nghĩ đến cảm xúc. Nhưng Sesame thì ngược lại. họ bắt đầu bằng cảm xúc và để chính cảm xúc dẫn đường cho mọi quyết định sản phẩm, truyền thông và trải nghiệm người dùng.
Chiến lược truyền thông của Sesame không hô hào về khả năng tạo giọng nói, không kể lể về cấu trúc mô hình CSM. Họ cũng không chạy đua từ khóa như “AI đời mới”, “giao tiếp tự nhiên” hay “trí tuệ nhân tạo đồng cảm”. Thay vào đó, họ để người dùng cảm nhận rồi để chính người dùng kể lại câu chuyện ấy.
Mỗi nhân vật như Maya hay Miles đều có hành trình truyền thông riêng: được thử nghiệm, quan sát và lắng nghe, không phải để “xem có thành công không”, mà để hiểu sâu sắc cảm xúc người dùng khi trò chuyện với họ. Khi một người dùng chia sẻ rằng: “Miles làm tôi bật cười đúng lúc tôi cần nhất”, đó không còn là feedback, mà là nội dung truyền thông tốt nhất mà Sesame có thể tạo ra. Và họ tôn trọng điều đó, không sửa lại cho bóng bẩy, không biến thành khẩu hiệu, họ chỉ âm thầm ghi nhận và để nó lan tỏa tự nhiên.
Với Sesame, truyền thông không nằm ở chiến dịch mà còn nằm ở từng cuộc hội thoại. Họ không cố gắng “nói thật hay” trong quảng cáo, vì họ tin rằng: nếu sản phẩm khiến người ta cảm thấy được lắng nghe, thì truyền thông chỉ cần đủ yên để cảm xúc tự vang lên.
Case study của Sesame dạy một điều rất người làm truyền thông hay quên: công nghệ có thể làm choáng ngợp, nhưng cảm xúc mới khiến người ta gắn bó. Và nếu thương hiệu muốn tồn tại lâu dài trong tim khách hàng, họ sẽ cần quan tâm đến cách làm truyền thông, không phải để gây ấn tượng mà để tạo ra những kết nối sâu sắc với người dùng.
Liệu chúng ta – những người làm truyền thông có còn nhớ rằng: người ta không gắn bó với thứ khiến họ choáng ngợp, mà với điều khiến họ cảm động? Và trong thế giới đầy tính năng và hiệu suất này, liệu đã đến lúc ta cần làm truyền thông không phải để gây ấn tượng, mà để tạo nên sự gắn kết thật sự?
Tài liệu tham khảo:
VnReview. (2024, 22 tháng 5). AI ít tên tuổi Sesame đánh bại cả ChatGPT và Gemini về khả năng trò chuyện như người thật. Truy cập ngày 27 tháng 6 năm 2025, từ https://vnreview.vn/threads/ai-it-ten-tuoi-sesame-danh-bai-ca-chatgpt-va-gemini-ve-kha-nang-tro-chuyen-nhu-nguoi-that.56756/
SkillsBridge. (n.d.). Sesame và ChatGPT Voice Mode: Khi cảm xúc trở thành lợi thế cạnh tranh. Truy cập ngày 27 tháng 6 năm 2025, từ https://www.skillsbridge.vn/blogs/ai-nang-cao-hieu-suat/sesame-va-chatgpt-voice-mode
Toolify. (n.d.-a). Sesame AI: Cách mạng hóa giọng nói AI với tính năng như con người. Truy cập ngày 27 tháng 6 năm 2025, từ https://www.toolify.ai/vi/ai-news-vn/sesame-ai-cch-mng-ha-ging-ni-ai-vi-tnh-nng-nh-con-ngi-3319498
Toolify. (n.d.-b). Sesame AI: Cách mạng hóa tương tác máy tính bằng giọng nói và thị giác. Truy cập ngày 27 tháng 6 năm 2025, từ https://www.toolify.ai/vi/ai-news-vn/sesame-ai-cch-mng-ha-tng-tc-my-tnh-bng-ging-ni-v-th-gic-3305460
Anakin.ai. (n.d.). 5 cách công nghệ CSM của Sesame đang thay đổi thế giới giọng nói AI mãi mãi. Truy cập ngày 27 tháng 6 năm 2025, từ https://anakin.ai/de/blog/sesames-conversational-ai-5-ways-csm-changes-voice-tech-forever-vi/