Công nghệ nhận dạng giọng nói, xu thế của toàn cầu

Công nghệ 4.0 ngày càng phát triển đồng nghĩa việc thao tác trên các thiết bị công nghệ bằng giọng nói cũng trở nên quen thuộc. Điều này cho thấy, công nghệ giọng nói đang ngày một phát triển và trở nên rộng rãi. Điều này được xem là một sự chuyển dịch và phát triển mang tính tất yếu, những ứng dụng hỗ trợ giọng nói ngày càng trở nên thu hút và mang đến sự cạnh tranh lớn.

Bài viết dưới đây sẽ cho bạn thấy sự phát triển của công nghệ nhận dạng giọng nói của thời đại 4.0.

1. Sự phát triển của công nghệ nhận dạng giọng nói

1.1. Công nghệ nhận dạng giọng nói là gì?

Công nghệ nhận dạng giọng nói được biết đến là một trong những ứng dụng AI phổ biến hiện nay với tên gọi “Trí tuệ nhân tạo”. Đây là một ngành khoa học máy tính được thiết lập một cách tự động hóa các hành vi thông minh vào các thiết bị, phần mềm công nghệ nhằm nâng cao chất lượng cuộc sống của con người.

Trong cuộc sống hiện nay, chúng ta được trải nghiệm công nghệ này thông qua trợ lý thông minh Siri của Apple, Google Assistant của Google hay Cortana của Microsoft…. Các trợ lý ảo này dễ dàng nghe và hiểu khẩu lệnh của người dùng và thực hiện mệnh lệnh một cách nhanh chóng.

1.2. Hành trình phát triển của công nghệ nhận dạng giọng nói

  • Không phải là một công nghệ quá mới mẻ

Công nghệ nhận dạng giọng nói đã được xuất hiện từ hàng thập kỷ trước. Tuy nhiên, sự bùng nổ của công nghệ nhận dạng giọng nói chỉ xuất hiện gần đây. Công nghệ này mới thực sự được khai thác và phát triển đa dạng vào những năm gần đây.

Ví dụ vào khoảng 1000 năm sau công nguyên, một công cụ có thể trả lời “Có” hoặc “Không” đã được ra đời bảo Giáo hoàng Sylverster II. Lúc đó nó được xem như một công cụ ma thuật vì khả năng kỳ diệu của nó. Tuy nhiên, mọi thứ vẫn chỉ dừng tại đó vì khả năng nghiên cứu và tìm hiểu công nghệ nhận dạng giọng nói chưa được khai sáng trong thời đại này.

Vào năm 1950, nhận dạng giọng nói mới được xuất hiện chính thức với sản phẩm Audrey. Audrey có khả năng nhận diện được các chữ số từ 1 đến 9 với duy nhất chỉ một giọng nói. Và điều này khiến cho ứng dụng của Audrey gặp một số hạn chế vì khả năng hỗ trợ thấp.

12 năm sau, một bước tiến mới của nhận dạng giọng nói mới thực sự được đưa ra và cho thấy sự khả thi của công nghệ thông minh này trong đời sống. Minh chứng là Showbox của IBM với khả năng nhận biết và phân biệt được 16 từ được ra mắt vào năm 1962.

  • Nhận dạng giọng nói trong thời đại ngày nay

Trải qua cả thập kỷ phát triển, công nghệ nhận dạng giọng nói đã ở một tầm cao mới và là công nghệ mang lại mức thu nhập hàng tỉ đô la. Với sự phát triển không ngừng nghỉ, công nghệ nhận dạng giọng nói cũng đã có những thành công nhất định để hỗ trợ con người trong đời sống.

Mở đầu có lẽ là Google với ựng dụng mang tên Google Voice Search vào năm 2010. Ứng dụng này giúp người dùng có thể tìm kiếm nhanh hơn, tiện lợi hơn khi sử dụng giọng nói để ra lệnh tìm kiếm vì sử dụng bàn phím và gõ chữ như thông thường. Ứng dụng này cũng là đường mở cho sự phát triển của Siri Apple vào 1 năm sau đó.

Năm 2011, Siri của Apple được ra mắt người dùng với khả năng tương tác vô cùng đáng kinh ngạc. Nếu như bạn đầu, người dùng chỉ có thể tương tác với Siri bằng những câu lệnh ngắn thì hiện nay, người dùng và Siri có thể đối đáp nhau như những người bạn. Điều này khiến người dùng vô cùng thích thú bởi khả năng hiểu và phản ứng lại giọng nói của Siri thực sự cao.

Sự thành công của Siri là tiền đề, là chất xúc tác để phát triển công nghệ giọng nói trong các thiết bị thông minh.

Trợ lý ảo sử dụng khẩu lệnh Tiếng Anh
  • Công nghệ giọng nói với sự chính xác ngày càng cao

Hiện nay, nhận dạng giọng nói vẫn đang là công nghệ được nghiên cứu để có những bước tiến lớn hơn nữa, đáp ứng được sự kỳ vọng và mong đợi của con người với công nghệ. Và đặc biệt, con người luôn kỳ vọng sự chính xác của công nghệ này với khả năng bản địa hóa và ứng dụng tốt hơn.

Tuy nhiên, để trí tuệ nhân tạo thông minh và phát triển cần có một lượng dữ liệu cực kỳ lớn.

Hiện nay, tại Việt Nam, với phần mềm V-IONE, người dùng có thể chuyển đổi giọng nói thành văn bản trong tích tắc chỉ bằng một cú nhấp chuột tải file.

Đây là phần mềm chuyển đổi giọng nói Tiếng Việt thành văn bản được người Việt đánh giá cao nhờ độ chính xác và nhận diện lên đến 98%.

2. Ưu điểm của phần mềm chuyển đổi giọng nói Tiếng Việt thành văn bản V-IONE

V-IONE là phần mềm make in Việt Nam đã và đang được đánh giá là một trong những phần mềm chuyển đổi giọng nói thành văn bản tốt nhất hiện nay. Phần mềm này có khả năng nhận diện chính xác đến 95% và tối ưu giọng nói 3 miền Bắc – Trung – Nam cùng 7000 từ vựng Tiếng Việt.

2.1. Điểm khác biệt của phần mềm chuyển giọng nói thành văn bản V-IONE

  • Độ chính xác, nhận dạng tốt ở khoảng cách xa đến 5m
  • Hiển thị kết quả thời gian thực
  • Hỗ trợ import audio nhiều định dạng
  • Chuẩn hóa văn bản đầu ra: ngày, tháng năm…

2.2. Những tính năng của phần mềm chuyển đổi giọng nói sang văn bản V-IONE

  • Chuyển đổi trực tiếp giọng nói sang văn bản
  • Gỡ băng đồng thời nhiều tài khoản với độ chính xác trung bình trên 90%
  • Có cơ chế học bổ sung giọng nói, tách giọng nói theo từng đoạn văn bản
  • Tự động chuyển sang số khi nói đến ngày, tháng năm…
  • Tự động viết hoa khi nói đến tên riêng, đơn vị hành chính
  • Quản lý thông tin cuộc họp
  • Tìm kiếm dễ dàng
  • Bảo mật thông tin cao

Có thể nhận thấy rằng, sự phát triển của nhận dạng giọng nói đã trải qua hàng thập kỷ. Tuy nhiên, công nghệ không ngừng phát triển, hi vọng rằng, trong tương lai, những ứng dụng nhận dạng giọng nói thông minh sẽ được phát triển và mang lại những trải nghiệm cá nhân hóa tốt nhất cho người dùng.