Dịch vụ Speech To Text

Chuyển đổi giọng nói thành văn bản chính xác

Speech To Text là gì?

Speech To Text (STT) là công nghệ chuyển đổi giọng nói thành văn bản theo thời gian thực hoặc từ file ghi âm có sẵn. Trong môi trường Contact Center, STT là nền tảng kỹ thuật cho phép chuyển đổi toàn bộ dữ liệu hội thoại, vốn không thể tìm kiếm hay phân tích hàng loạt, trở thành dữ liệu văn bản có cấu trúc, có thể xử lý tự động và phân tích insight ở quy mô lớn.

Ứng dụng Speech To Text

Tự động hóa QA

Cuộc gọi được chuyển thành transcript và hệ thống có thể tự động đánh giá dựa trên scorecard đã định nghĩa

Speech Analytics

Phân tích xu hướng, phát hiện mẫu và tạo báo cáo từ dữ liệu thoại

Xác thực danh tính

Kết hợp với Voice Biometrics cho phép xác thực khách hàng tự động dựa trên đặc trưng giọng nói.

Lưu trữ hội thoại

STT tạo ra transcript có thể tìm kiếm từ kho lưu trữ. Thay vì nghe lại file ghi âm để tìm một cuộc gọi cụ thể.

Tại sao chọn dịch vụ Speech To Text tại BSV?

Ngôn ngữ đầu vào chính xác, đa dạng

Thách thức của STT tiếng Việt không chỉ là công nghệ, mà còn là dữ liệu huấn luyện. BSV vận hành hàng triệu phút gọi thoại mỗi tháng từ khách hàng thuộc nhiều ngành, nhiều vùng miền, đây là nguồn dữ liệu thực tế để liên tục cải thiện độ chính xác nhận dạng trong điều kiện vận hành thực.

Bảo Mật Tuyệt Đối

Giải pháp được xây dựng và vận hành theo tiêu chuẩn ISO/IEC 27001
Giải pháp mã hóa dữ liệu end-to-end
Chính sách sao lưu dữ liệu liên tục.

Giải pháp tích hợp hoàn chỉnh

BSV không chỉ triển khai công nghệ STT, mà tích hợp nó vào toàn bộ hệ thống hiện có của doanh nghiệp. Với kinh nghiệm vận hành Contact Center thực tế, chúng tôi hiểu rõ dữ liệu STT cần được đưa vào đâu trong quy trình để tạo ra tác động thực sự.

Tùy biến

- Tư vấn và thiết kế giải pháp riêng cho từng ngành nghề. Tùy chỉnh workflow theo quy trình doanh nghiệp

DỊCH VỤ SPEECH TO TEXT DÀNH CHO CÁC NGÀNH

XÂY DỰNG LỘ TRÌNH TRIỂN KHAI PHÙ HỢP

Nhận tư vấn từ chúng tôi

FAQs

Speech To Text khác gì với phần mềm ghi âm thông thường?

Phần mềm ghi âm chỉ lưu trữ file audio. Speech To Text chuyển đổi nội dung đó thành văn bản có thể tìm kiếm, phân tích và xử lý tự động.

Độ chính xác của STT tiếng Việt đạt được bao nhiêu trong thực tế vận hành?

Phụ thuộc vào chất lượng audio, tốc độ nói và phương ngữ.

Từ dữ liệu vận hành của chúng tôi, trong điều kiện cuộc gọi tổng đài tiêu chuẩn với đường truyền ổn định, không quá nhiều tiếng ồn nền, độ chính xác thường đạt 90–97%. Với các cuộc gọi có chất lượng âm thanh thấp hoặc người nói có giọng đặc trưng mạnh, con số này có thể thấp hơn. Đây là lý do giai đoạn kiểm thử và hiệu chỉnh với dữ liệu thực của từng doanh nghiệp là bắt buộc trước khi go-live.

STT có thể xử lý cuộc gọi có cả tiếng Việt lẫn tiếng Anh trong cùng một hội thoại không?

Có. Đây là tình huống phổ biến trong nhiều ngành

Để làm được, hệ thống STT của BSV được cấu hình để xử lý code-switching.

Dữ liệu thoại của doanh nghiệp được xử lý và lưu trữ như thế nào?

Toàn bộ dữ liệu được xử lý trong môi trường bảo mật theo tiêu chuẩn ISO/IEC 27001:2022. Dữ liệu không được sử dụng cho mục đích nào khác ngoài phạm vi dịch vụ đã thỏa thuận, và chính sách lưu trữ, xóa dữ liệu được quy định rõ trong hợp đồng dịch vụ.