Phần mềm nhận diện giọng nói hoạt động như thế nào?

Giọng nói của bạn đang ngày càng trở nên “quyền lực” khi có thể điều khiển mọi thiết bị công nghệ hiện đại ngày nay. Chúng đều có thể nhận diện giọng nói của bạn để thực hiện nhiều tính năng và hành động khác nhau. Vậy có bao giờ bạn thắc mắc rằng công nghệ nhận diện giọng nói hoạt động như thế nào không?

Lịch sử công nghệ nhận diện giọng nói

Nhận diện giọng nói lần đầu xuất hiện trên các thiết bị điện toán cá nhân từ khoảng 20 năm trước, khi Windows 98 được giới thiệu. Tuy nhiên, có thể bạn sẽ ngạc nhiên khi biết rằng công nghệ này đã bắt đầu được nghiên cứu từ năm 1936.

Hệ thống nhận diện giọng nói ban đầu chỉ hiểu chữ số vì các kỹ sư cho rằng ngôn ngữ con người quá phức tạp. Năm 1952, Bell Laboratories thiết kế ra “Audrey”, hệ thống nhận diện chữ số từ một giọng nói nhất định. 10 năm sau tại triển lãm World’s Fair, IBM trình diễn hệ thống “Shoebox” có thể nhận diện 16 từ tiếng Anh khác nhau.

Nhận diện giọng nói là gì?

Đây là một bộ máy hoặc hệ thống có khả năng nhận và dịch (hoặc hiểu và thực hiện) các lệnh thu được từ giọng nói con người. Nhận dạng giọng nói gồm 2 thuật ngữ: Voice recognition và Speech recognition.

– Voice recognition liên quan đến việc xác định giọng nói chính xác của một cá nhân nào đó, tương tự một phương pháp nhận diện sinh trắc học.

– Speech recognition là việc xác định những từ ngữ trong câu nói rồi dịch chúng sang ngôn ngữ máy tính.

Phần mềm nhận diện giọng nói hoạt động như thế nào?

Để chuyển giọng nói sang văn bản hoặc câu lệnh máy tính, hệ thống phải thực hiện một quá trình gồm nhiều bước phức tạp. Khi nói, bạn sẽ tạo ra những rung động trong không khí. Bộ chuyển đổi tín hiệu tương tự sang số (Analog-to-Digital Converter, ADC) chuyển các sóng tương tự (analog) này thành dữ liệu mà máy tính có thể hiểu được.

Để làm điều này, hệ thống thu thập các mẫu (hoặc số hóa) âm thanh bằng cách đo chính xác sóng âm ở các khoảng thời gian gần nhau, sau đó lọc âm thanh đã được số hoá để loại bỏ tiếng ồn, đôi khi tách chúng thành các dải tần số khác nhau. Nó cũng “bình thường hóa” hoặc tinh chỉnh âm thanh đến một mức âm lượng không thay đổi hoặc sắp xếp theo thời gian. Không phải lúc nào con người cũng nói với tốc độ như nhau nên âm thanh phải được điều chỉnh cho phù hợp với tốc độ mà âm thanh mẫu được ghi nhận trong bộ nhớ máy.

Tiếp theo, tín hiệu được chia thành nhiều phần nhỏ (thời gian khoảng vài phần trăm giây, thậm chí là phần ngàn giây trong trường hợp có phụ âm cuối khó phân biệt như “p” hoặc “t”). Chương trình sau đó đặt những phần âm thanh này vào các âm vị có sẵn trong ngôn ngữ thích hợp.

Theo Wikipedia, âm vị là phân đoạn nhỏ nhất của âm thanh dùng để cấu tạo nên sự phân biệt giữa các cách phát âm. Do đó, âm vị là một nhóm các âm thanh với sự khác biệt tương đối nhỏ cùng đảm nhận một chức năng ý nghĩa tùy theo người nói và phương ngữ.

Trong tiếng Anh có khoảng 40 âm vị khác nhau. Ví dụ, mặc dù hầu hết người bản ngữ không nhận ra, trong đa số các ngôn ngữ, âm k trong mỗi từ được phát âm thực sự khác biệt nhau. Ví dụ k trong kit được ký âm [kʰ] và k trong skill được ký âm /k/. Trong một số ngôn ngữ, một ký tự đại diện cho một âm vị, nhưng trong một số ngôn ngữ khác như tiếng Anh, sự tương ứng này ít khi chính xác. Ví dụ trong tiếng Anh ký tự sh đại diện cho /ʃ/, trong khi k và c đều đại diện cho âm /k/ (trong kit và cat).

Nhận diện giọng nói được dùng để làm gì?

Chuyển thành văn bản hoặc điều khiển máy là tác dụng phổ biến nhất của nhận diện giọng nói, tuy nhiên công nghệ này còn mang đến nhiều hứa hẹn cho người khuyết tật. Một số ứng dụng như DriveSafe.ly có thể đọc tin nhắn đến và email cho những người khiếm thị, một số ứng dụng khác còn cho phép tìm kiếm hoặc nhắn tin bằng giọng nói (chuyển thành văn bản) dành cho người bị liệt.

Nhận diện giọng nói còn được sử dụng rất nhiều trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligence). Siri hay Google Assistant là những ví dụ điển hình.

Google Assistant là hệ thống trợ lý cá nhân ảo được phát triển bởi Google, ra mắt tháng 5/2016. Khác với Google Now, Google Assistant có thể tương tác, nói chuyện với người dùng.

Assistant lần đầu xuất hiện rộng rãi trong ứng dụng nhắn tin Allo, sau đó là hệ thống loa thông minh Google Home. Một thời gian sau khi xuất hiện độc quyền trên Pixel và Pixel XL, Assistant chính thức có mặt trên các thiết bị Android từ tháng 2/2017 bao gồm smartphone và đồng hồ Android Wear, 3 tháng sau thì xuất hiện trên iOS trong một ứng dụng độc lập.

Bên cạnh việc công bố bộ công cụ phát triển phần mềm vào tháng 4, Assistant đã và đang được mở rộng để hỗ trợ thêm nhiều thiết bị khác, bao gồm xe hơi và nhà thông minh. Tính năng của Assistant cũng có thể mở rộng thông qua các ứng dụng từ bên thứ ba.

Siri là trợ lý cá nhân được Apple ra mắt cùng iPhone 4s năm 2011. Nó được tích hợp sâu vào hệ điều hành và phản hồi lại người dùng bằng giọng nói. Bạn có thể ra lệnh cho Siri gọi điện, nhắn tin SMS, đặt lịch hẹn, báo thức hoặc trả lời câu hỏi theo thời gian thực từ internet. Siri có thể học tập sở thích, phong cách, giọng nói để đưa ra thông tin phù hợp cho chủ nhân.

Ưu và nhược điểm của công nghệ nhận diện giọng nói khi đó

Ưu điểm:

  • Khả năng truy cập: Với những người khuyết tật không thể dùng chuột hay bàn phím, họ có thể dùng giọng nói để hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển một cách dễ dàng.
  • Kiểm tra chính tả: Bạn có thể truy cập vào các công cụ chỉnh sửa tương tự một giải pháp xử lý văn bản chuẩn. Tất nhiên, mọi thứ không thể chính xác 100% nhưng phần mềm có thể nhận diện và xử lý phần lớn lỗi chính tả, ngữ pháp.
  • Tốc độ nhanh: Phần mềm có thể nắm bắt giọng nói của bạn với tốc độ nhanh hơn so với khi nhập liệu bằng bàn phím, vì vậy tốc độ khi nhập liệu bằng giọng nói sẽ cải thiện đáng kể.

Nhược điểm:

  • Thiết lập và “dạy”: Mặc dù chúng đều hứa hẹn có thể hoạt động sau vài phút thiết lập, nhưng thực sự quá trình ghi nhận, làm quen với giọng nói, âm điệu và tốc độ nói của bạn có đôi chút phức tạp và tốn thời gian. Một số phần mềm còn bắt bạn nói lại, thậm chí không thể nhận diện được bạn đang nói gì.
  • Chưa thực sự ổn định: Việc đang nói mà bị ngắt giữa chừng có thể khiến bạn “cụt hứng”, đặc biệt nó có thể bối rối khi bạn lên xuống giọng hay bỗng dưng nói nhỏ lại.
  • Kho từ vựng hạn chế: Bạn phải sẵn sàng chấp nhận trường hợp phần mềm xử lý quá lâu vì những từ vừa nói không nằm trong từ điển của nó. Đó là điều đang được cải tiến từng ngày từng giờ.
  • Những trợ lý ảo như Google Assistant, Amazon Alexa hay Apple Siri: khẩu lệnh tiếng Anh được nhận biết tốt nhưng không hỗ trợ Tiếng Việt

Nắm bắt được xu thế và những hạn chế với ngôn ngữ Tiếng Việt, năm 2018 phần mềm V-IONE, một sản phẩm với các triển khai và tầm nhìn khác biệt đã được thử nghiệm tại một số phiên chất vấn của Quốc hội và được đánh giá rất cao.

  • Độ chính xác tới 98%: Ở khoảng cách xa 2m. Với khoảng cách 3-5 m độ chính xác là 95%. Hoạt động tốt trong môi trường nhiễu. Nhận dạng 7.000 từ vựng Tiếng Việt
  • Nhận dạng giọng nói 3 miền Bắc – Trung – Nam: Hiển thị kết quả thời gian thực với độ trễ dưới 0,5 giây
  • Chuẩn hóa văn bản đầu ra : Văn bản đầu ra được chuẩn hóa: tên, ngày, tháng. Viết hoa với đơn vị hành chính cấp tỉnh, thành phố
  • Gỡ băng đồng thời nhiều tài khoản
  • Nhận dạng nhiều loại audio: Đảm bảo độ nhận dạng chính xác tới 95%
  • Quản lý thông tin cuộc họp: Phân đoạn văn bản theo giọng nói
  • Hoạt động tốt trong môi trường nhiễu
  • Bảo mật thông tin tối đa

Đăng ký demo miễn phí tại: www.vione.ai Hotline: 0904 805 255

Trả lời