TikTok đã làm gì để tối ưu thuật toán đề xuất bằng AI?


 

Thuật toán đề xuất (recommendation algorithm) của TikTok nổi tiếng là một trong những hệ thống đề xuất hiệu quả nhất hiện nay. Đứng từ góc độ kỹ thuật, có một số yếu tố quan trọng giúp TikTok xây dựng được một thuật toán mạnh mẽ như vậy

 

Phân tích dữ liệu hành vi người dùng

TikTok thu thập và xử lý hàng triệu tín hiệu từ người dùng, như:

  • Thời lượng xem mỗi video (watch time)

  • Các tương tác cụ thể (like, comment, share, follow)

  • Tần suất và cách người dùng lướt qua nội dung

  • Thiết bị, ngôn ngữ và vị trí địa lý người dùng

Từ những tín hiệu này, AI của TikTok áp dụng các kỹ thuật như deep learning (mạng nơ-ron sâu) để phân loại người dùng theo nhóm sở thích nhỏ nhất, tạo ra các "micro-cluster" cá nhân hóa trải nghiệm nội dung.

Sử dụng AI để hiểu nội dung video

TikTok sử dụng các công nghệ thị giác máy tính (computer vision) và xử lý ngôn ngữ tự nhiên (NLP) để phân tích:

  • Hình ảnh và khung hình video để nhận diện đối tượng, bối cảnh.

  • Âm thanh, lời thoại, caption, và hashtag để hiểu rõ ngữ cảnh và chủ đề.

Những công nghệ này biến nội dung video thành dữ liệu có cấu trúc, giúp hệ thống dễ dàng match với sở thích và hành vi người dùng.

Hệ thống đề xuất thời gian thực

Khác với các nền tảng khác, TikTok đề xuất nội dung gần như ngay lập tức dựa trên tương tác vừa xảy ra. Để làm được điều này, TikTok dùng kiến trúc xử lý dữ liệu tốc độ cao, nổi bật nhất là bảng nhúng (embedding tables) kích thước lớn, cập nhật tức thì (realtime) với độ trễ thấp.

Ngoài ra, thuật toán TikTok kết hợp kỹ thuật Reinforcement Learning (học tăng cường) liên tục điều chỉnh theo từng phản hồi mới từ người dùng, tối ưu hóa mục tiêu giữ chân và tăng tương tác.

Chiến lược phân phối nội dung thông minh

Thuật toán TikTok triển khai chiến lược "phân phối theo tầng" (tiered distribution). Mỗi video khi được đăng tải sẽ được thử nghiệm với một số lượng người dùng nhỏ trước khi mở rộng dần phạm vi hiển thị, dựa trên phản hồi.

Điều này vừa giúp hạn chế nội dung kém chất lượng, vừa tăng khả năng tìm thấy các "hidden gems" – nội dung giá trị cao từ những người sáng tạo mới.

Cân bằng giữa Exploration và Exploitation

TikTok duy trì sự cân bằng khéo léo giữa:

  • Exploration (khám phá): giới thiệu những nội dung mới lạ để đa dạng hóa trải nghiệm, mở rộng sở thích của người dùng.

  • Exploitation (khai thác): tập trung vào các nội dung có mức độ tương tác cao trước đó để giữ chân người dùng lâu dài.

Điều này giúp TikTok luôn tươi mới, tránh nhàm chán dù người dùng sử dụng trong thời gian dài.

Đảm bảo quyền riêng tư bằng Federated Learning

Một điểm sáng kỹ thuật khác là ứng dụng học liên kết (Federated Learning). Kỹ thuật này cho phép thuật toán của TikTok học và cải thiện trực tiếp trên thiết bị người dùng, hạn chế việc chia sẻ dữ liệu cá nhân lên server, đảm bảo quyền riêng tư và tuân thủ các quy định bảo mật.

Kết luận

Việc ứng dụng AI sâu rộng, từ phân tích hành vi người dùng, hiểu nội dung, tới học tăng cường và học liên kết, đã biến thuật toán đề xuất của TikTok thành một trong những ví dụ ấn tượng nhất về công nghệ gợi ý nội dung hiện đại, khiến nhiều chuyên gia AI và kỹ sư IT đặc biệt quan tâm và nghiên cứu.
Nguồn tham khảo:
Federated Learning trong AI là gì? Giải thích chi tiết về học liên kết, cách hoạt động, và lợi ích cho bảo mật dữ liệu

[Paper review] Monolith: TikTok’s Real-time Recommender System.

Deep Dive: How to Build the TikTok Recommender System End-to-End!