lore

Chương 69: Nhiệt độ của âm thanh

7,028 Nhấn vào nội dung để bình luận hoặc báo lỗi.

Ngô Hoà cười và lắc đầu nói: “Không, nó vẫn chỉ là một sản phẩm chưa hoàn thiện; vẫn còn rất nhiều vấn đề cần chúng ta giải quyết.”

“Chẳng hạn như trong cuộc trò chuyện vừa rồi, nó gặp khó khăn trong việc hiểu và xử lý các ngữ cảnh mơ hồ.”

“Ngữ cảnh mơ hồ ư?”

Triệu Tiểu Đông ngập ngừng một chút, rồi nhanh chóng hiểu ra và nói: “Cái này có vẻ như ngay cả chúng ta con người cũng khó để hiểu, huống chi là một chương trình máy tính.”

“Anh trưởng, tôi không thực sự hiểu lắm. Hiện nay, hầu hết các công ty công nghệ đều đang phát triển công nghệ nhận dạng giọng nói và đối thoại bằng giọng nói, và kết quả cũng khá tốt.”

“Những phần mềm này có khả năng nhận diện giọng nói của chúng ta khi nói bình thường ở mức rất cao, gần như đạt trên 99%.”

“Nhưng tốc độ phản hồi của những phần mềm này vẫn không bằng tốc độ của công nghệ của chúng ta, khả năng hiểu biết cũng kém hơn, và khả năng suy luận cũng không bằng.”

“Hơn nữa, về mặt đối thoại bằng giọng nói, anh đã làm thế nào để giọng nói của máy móc lại giống giọng nói của con người đến vậy? Phải biết rằng thính giác của con người rất nhạy bén, chúng ta có thể phân biệt được ngay liệu đó là giọng nói của con người hay của một chương trình máy tính.”

Nghe Triệu Tiểu Đông đặt ra nhiều câu hỏi, Ngô Hoà liền hỏi lại: “Theo anh, điểm khác biệt lớn nhất giữa giọng nói của con người và giọng nói của AI là gì?”

Triệu Tiểu Đông suy nghĩ một lát, rồi trả lời: “Là thiếu đi sự biến đổi về âm điệu và ngữ điệu phải không?”

Ngô Hoà lắc đầu và nói: “Điều đó không phải là yếu tố then chốt. Thực tế, một số phần mềm nhận dạng giọng nói trên thị trường hiện nay đã có thể tái tạo được những biến đổi về âm điệu và ngữ điệu đơn giản.”

“Vậy thì…”

Ngô Hoà nhìn thấy vẻ mặt bối rối của Triệu Tiểu Đông, cười và nói: “Chính là cảm xúc. Tất cả các phần mềm nhận dạng giọng nói trên thị trường hiện nay đều thiếu đi yếu tố cảm xúc.”

“Cảm xúc ư? Đùa gì vậy, làm sao một chương trình máy tính có thể có cảm xúc được? Chỉ có con người mới có cảm xúc mà thôi.” Triệu Tiểu Đông lắc đầu, không thể hiểu nổi.

Ngô Hoà cười một tiếng, sau đó điều khiển máy tính để hiển thị trên màn hình lớn bản đồ cấu trúc của hệ thống. Anh nói: “Thay vì gọi đó là cảm xúc, có lẽ nên gọi đó là ‘nhiệt độ của ngôn ngữ’.”

“Khi chúng ta nói chuyện, người nghe có thể cảm nhận rõ ràng những thay đổi về tâm trạng của chúng ta trong lúc nói, đó chính là cảm xúc, c

“Tôi vẫn không thể hiểu nổi, làm thế nào một chương trình máy tính có thể nhận biết được những biến đổi phong phú trong cảm xúc con người khi họ nói chuyện. Bạn phải biết rằng đôi khi chỉ những thay đổi nhỏ trong ngôn từ hay giọng điệu đã có thể thể hiện ra hai ý nghĩa và hai cảm xúc hoàn toàn khác nhau; làm sao máy móc có thể phân biệt được điều đó?” Triệu Tiểu Đông bày tỏ sự thắc mắc của mình.

Ngô Hoà cười và vừa chỉ vào nội dung trên màn hình vừa trả lời: “Điều này chính là ứng dụng của công nghệ AI. Mỗi người đều có giọng nói và ngữ điệu khác nhau, và cách biểu đạt cảm xúc cũng rất đa dạng. Nếu áp dụng các phương pháp truyền thống, chúng ta sẽ phải thu thập, phân tích tất cả những biến đổi đó để định nghĩa chúng một cách chi tiết. Nhưng việc này sẽ tốn rất nhiều công sức.

Chính vì vậy, khả năng học hỏi và phát triển của công nghệ AI đã giúp chúng tôi tìm ra hướng giải quyết. Chúng ta có thể sử dụng lượng thông tin âm thanh khổng lồ trên Internet để huấn luyện một chương trình AI cơ bản.

Tất nhiên, đây chỉ là những mẫu chương trình cơ bản mà thôi; chúng ta cần phải điều chỉnh chúng cho phù hợp với thói quen sử dụng của người dùng. Khi người dùng sử dụng chương trình càng lâu, khả năng nhận diện và hiểu biết của nó cũng sẽ càng chính xác.”

Nói đến đây, Ngô Hoà cười và tiếp tục: “Thực ra, điều này rất giống với quá trình giao tiếp giữa con người với nhau trong đời sống thực tế. Khi hai người lạ gặp nhau và bắt đầu quen biết với nhau, cả hai bên đều dần dần tìm hiểu và thích nghi với đối phương. Càng qua thời gian, họ càng trở nên quen thuộc với nhau; thậm chí chỉ cần một từ đơn giản, một cử chỉ hay ánh mắt của một bên, bên kia cũng có thể hiểu được ngay. Đó chính là sự hiểu biết sâu sắc giữa hai người.

Và những gì chúng ta cần làm là tạo ra sự hiểu biết tương tự giữa chương trình máy tính và con người. Tuy nhiên, người dùng rất khó để thay đổi, vì vậy chúng ta chỉ có thể ảnh hưởng đến họ một cách từ từ. Vì vậy, chúng ta cần bắt đầu từ phần mềm chương trình, để nó thích nghi với người dùng và từ đó ảnh hưởng đến hành vi của họ một cách tiềm ẩn.

Chỉ khi làm được như vậy, sự tương tác giữa con người và máy tính mới trở nên hiệu quả và tự nhiên hơn.

Đây cũng chính là lý do tại sao trước đây, khi tôi trò chuyện với chương trình 10, nó không thể hiểu được những câu nói mơ hồ của tôi. Nó chưa thích nghi được với thói quen nói chuyện của tôi, vì vậy nó không thể hiểu được ý nghĩa của những câu đó.

Những từ ngữ mơ hồ như ‘vài’,

“Dù sao đi nữa, đây cũng là một bước đột phá lớn trong lĩnh vực công nghệ giọng nói AI. Tôi nghĩ rằng ngay khi công nghệ này được công bố, chắc chắn nó sẽ gây chấn động trên khắp Toàn thế giới, bởi vì nó đại diện cho sự ra đời thực sự của kỷ nguyên giọng nói thông minh.”

Nói thật lòng, tôi cảm thấy rất nóng lòng,” Triệu Tiểu Đông nói với vẻ hào hứng, liếm nhẹ đôi môi hơi khô.

Ngô Hoà vẫy tay và nói: “Không quá đáng kinh ngạc như bạn nói đâu, nhưng thực sự đây là một bước tiến lớn về mặt công nghệ.”

“Anh trai, anh dự định đưa công nghệ này vào thị trường tiêu dùng đại chúng hay là hợp tác với các doanh nghiệp để bán công nghệ và bản quyền liên quan, hoặc cung cấp dịch vụ dưới hình thức mã nguồn mở?” Triệu Tiểu Đông hỏi một cách tò mò. Đây là một công nghệ quan trọng; dù hợp tác với ai, nó cũng sẽ tạo ra những tác động lớn trong ngành.

“Bạn nghĩ sao?” Ngô Hoà không trả lời trực tiếp, mà lại đặt câu hỏi ngược lại.

Triệu Tiểu Đông suy nghĩ một lát, sau đó nói nghiêm túc với Ngô Hoà: “Một doanh nghiệp muốn phát triển mạnh mẽ không thể chỉ tập trung vào một lĩnh vực duy nhất. Việc hợp tác với các doanh nghiệp có thể giúp giải quyết nhiều vấn đề, nhưng cũng mang lại nhiều rủi ro. Nếu đối tác sở hữu những công nghệ tiên tiến hơn, chúng ta sẽ có nguy cơ bị bỏ rơi.”

Vì vậy, tôi nghĩ chúng ta nên hướng tới thị trường đại chúng, sử dụng công nghệ này để xây dựng thương hiệu của mình trong số người dân và mở rộng ảnh hưởng. Chỉ như vậy, chúng ta mới có thể tránh được những rắc rối và trở ngại không cần thiết trong quá trình phát triển sau này.”

“Phân tích rất chuẩn xác. Tuy nhiên, thị trường này có tiềm năng lớn, và việc độc quyền chắc chắn không phải là giải pháp tốt nhất. Chúng ta vẫn cần hợp tác với các doanh nghiệp. Tất nhiên, trong lĩnh vực thị trường đại chúng, chúng ta cũng không được tụt hậu.”

Vì vậy, tôi dự định áp dụng cả hai chiến lược song song. Và ứng dụng trợ lý giọng nói thông minh này chính là sản phẩm được tôi thiết kế riêng cho thị trường đại chúng. Thế nào, nếu chúng ta đăng video mà tôi vừa trình diễn lên mạng, bạn nghĩ xã hội và giới công nghệ sẽ phản ứng thế nào?” Ngô Hoà hỏi với nụ cười.

“Ý anh là… haha, tôi rất mong đợi!” Triệu Tiểu Đông trả lời.

1/1 0%