Hơn một thế kỷ sau khi bị tha hóa, ngôn ngữ Ainu gần như biến mất. Giờ đây, các máy móc đang lắng nghe hàng giờ các băng ghi âm cũ và học cách mang đến cho nó một giọng nói mới.
Từ băng cassette đến AI: Hành trình hồi sinh ngôn ngữ Ainu

Máy cassette sẽ nắm lấy các cuộn băng, kéo băng từ tính qua cơ chế của nó. Lúc đầu, chỉ là tiếng xì xào nhẹ của tĩnh điện – và sau đó giọng nói của tổ tiên cô sẽ tràn ngập căn phòng.
Những câu chuyện trước giờ đi ngủ của Maya Sekine rất đặc biệt. Được cha cô lựa chọn, những câu chuyện đầy màu sắc này đến với cô qua những cuốn băng cũ ghi lại các câu chuyện dân gian được kể bằng tiếng Ainu, ngôn ngữ mà tổ tiên bản địa của gia đình cô nói. Họ sống ở các vùng đảo phía bắc của vùng đất ngày nay là Nhật Bản từ sớm nhất là thế kỷ 12 trước khi họ bị nhà nước thực dân hóa.
Khi còn nhỏ, câu chuyện yêu thích của Sekine là về một con sói Hokkaido biết hát. Câu chuyện có chất lượng giai điệu, với một đoạn điệp khúc dao động giữa các cụm từ Ainu được hát và tiếng sủa.
Nhưng ở trường, không ai trong số bạn bè của Sekine hiểu tiếng Ainu. Và trong khi mẹ và ông bà cô biết một số cụm từ trong ngôn ngữ này, họ chủ yếu nói tiếng Nhật. Những người lớn khác hoàn toàn không thể nói được. Cô nhận ra rằng ngôn ngữ và văn hóa của gia đình mình đang chết dần.
“Ngôn ngữ là điều quan trọng nhất đối với chúng tôi. Đó là mối liên kết giữa văn hóa và giá trị của chúng tôi”

Chỉ còn lại một số ít người nói bản ngữ Ainu. Ngôn ngữ này hiện được UNESCO liệt kê là “Cực kỳ Nguy hiểm”. Các ghi chép cho thấy vào năm 1870 – một năm sau khi Ezo hoặc Ezochi (nay là Hokkaido) được tuyên bố là một phần của Nhật Bản – khoảng 15.000 người nói các biến thể địa phương của tiếng Ainu, và đa số không nói ngôn ngữ nào khác.
Nhưng các chính sách khác nhau của chính phủ, bao gồm việc cấm tiếng Ainu trong trường học, gần như xóa sổ ngôn ngữ và văn hóa này. Đến năm 1917, số lượng người nói ước tính đã giảm mạnh xuống chỉ còn 350 người và đã giảm thảm hại kể từ đó.
Bất chấp điều này, tiếng Ainu có thể nói là đang trải qua một sự hồi sinh. Năm 2019, Nhật Bản đã công nhận về mặt pháp lý người Ainu là dân tộc bản địa của đất nước thông qua một dự luật bao gồm các biện pháp thúc đẩy sự hòa nhập và tầm nhìn của họ.
Và giờ đây các dự án khác nhau nhằm bảo tồn và tái sinh ngôn ngữ – bao gồm với sự giúp đỡ của trí tuệ nhân tạo. Có cơ hội rằng tiếng Ainu có thể tồn tại cho các thế hệ tương lai.
Sekine sinh ra và lớn lên ở Nibutani, Hokkaido, nơi khoảng 80% cư dân được báo cáo có di sản Ainu. Nhưng ngay cả ở đó, kiến thức về ngôn ngữ này cũng rất hiếm.
“Tôi nghĩ gia đình tôi là một gia đình độc đáo,” Sekine nói. “Phía mẹ tôi là người Ainu và gia đình bà nổi tiếng về thủ công mỹ nghệ. Cha tôi [người Nhật] cũng là một giáo viên dạy tiếng Ainu.” Sekine, ở độ tuổi giữa 20, là người tạo ra một kênh YouTube về hội thoại Ainu. “Tôi biết mình đặc biệt và may mắn,” cô thêm.
Trong khi phần lớn các sắc thái của tiếng Ainu đã bị mất theo thời gian, kiến thức vẫn tồn tại, bao gồm hơn 80 cách khác nhau để mô tả một con gấu, theo cha cô Kenji Sekine. Ngôn ngữ này phản ánh mối liên kết của cộng đồng với thiên nhiên và sự tôn kính của họ đối với các sinh vật sống khác.
“Theo cách suy nghĩ của người Ainu, mọi thứ khác ngoài con người đều là ‘kamuy’ (thần hoặc vị thần linh thiêng). Một số động vật thường được gọi là ‘kamuy,’ như ‘kimunkamuy’ (gấu) và horkewkamuy (sói),” ông nói.
Mặc dù tiếng Ainu được công nhận là ngôn ngữ quốc gia thứ hai, nó không phải là một phần của chương trình giảng dạy trong trường học ở Hokkaido.
“Học sinh không có cơ hội tìm hiểu về văn hóa và ngôn ngữ Ainu,” Hirofumi Kato, giáo sư khảo cổ học và giám đốc Trạm Toàn cầu về Nghiên cứu Bản địa và Đa dạng Văn hóa tại Đại học Hokkaido, nói. “Chỉ có một hình ảnh rập khuôn về văn hóa và lịch sử Nhật Bản. Hệ thống giáo dục [củng cố] quan điểm đơn văn hóa này.”
Việc tẩy trắng lịch sử Nhật Bản này khiến người Ainu khó kết nối với nguồn gốc của họ và định hướng bản sắc trong xã hội Nhật Bản hiện đại. Trong khi sự quan tâm mới đối với văn hóa Ainu đã dẫn đến nhiều hình ảnh đại diện của người Ainu trong truyền thông chính thống (ví dụ trong manga) đã thúc đẩy sự tò mò và hiểu biết về cộng đồng – cũng đã có các trường hợp chiếm đoạt văn hóa.
Lớn lên, Sekine cảm thấy choáng ngợp bởi áp lực phải bảo tồn văn hóa của mình, đến mức cô giấu nguồn gốc tổ tiên khi chuyển đi học trung học cơ sở. Mãi đến khi vào đại học, cô mới có đủ tự tin để nắm bắt bản sắc bản địa và tích cực quảng bá văn hóa Ainu.
Giờ đây, cô là một phần của thế hệ trẻ các thành viên cộng đồng tìm cách định nghĩa lại ý nghĩa của việc là người Ainu. “Ngôn ngữ là điều quan trọng nhất đối với chúng tôi. Đó là mối liên kết giữa văn hóa và giá trị của chúng tôi,” Sekine nói. “Gia đình cũng vậy. Chúng tôi có một gia đình lớn; chúng tôi tụ tập mỗi tối và ăn tối. [Đây] là những giá trị Ainu.”
Trong khi có ít người nói tiếng Ainu xung quanh ngày nay, có một kho lưu trữ phong phú các câu chuyện truyền miệng. Trong những năm gần đây, các nhà nghiên cứu đã chuyển sang những kho lưu trữ âm thanh này với mục đích mang tiếng Ainu trở lại cuộc sống.
“Bằng cách sử dụng công nghệ của chúng tôi, quá trình này đã được tự động hóa phần lớn. Bây giờ họ có 300 đến 400 giờ dữ liệu,” Tatsuya Kawahara, giáo sư tin học tại Đại học Kyoto, người dẫn đầu một dự án sử dụng công nghệ nhận dạng giọng nói AI để bảo tồn các bản ghi Ainu, nói. “Chất lượng âm thanh không tốt lắm vì nhiều bản được ghi trên các thiết bị analog trong nhà, nơi đôi khi ồn ào. Thật sự là thách thức.”
Với sự hỗ trợ từ tài trợ của chính phủ, Kawahara và các đồng nghiệp đã sử dụng khoảng 40 giờ ghi âm có uwepeker, hoặc các câu chuyện văn xuôi kể lại, từ tám người nói được chia sẻ bởi Bảo tàng Ainu Quốc gia Upopoy và Bảo tàng Văn hóa Ainu Nibutani.
Những bản ghi này là một phần của kho lưu trữ rộng lớn hơn tổng cộng chứa khoảng 700 giờ dữ liệu giọng nói được thu thập từ những năm 1970. Phần lớn kho lưu trữ là trên băng cassette, giống như những câu chuyện dân gian mà Sekine nghe khi còn nhỏ.
Năm 2015, Cơ quan Văn hóa Nhật Bản bắt đầu số hóa những bản ghi này cho mục đích nghiên cứu và giáo dục, với sáng kiến AI xuất hiện ba năm sau đó. Theo cách thông thường, công nghệ nhận dạng giọng nói tự động được xây dựng bằng cách sử dụng các bộ dữ liệu khổng lồ giúp hệ thống hiểu các quy tắc của một ngôn ngữ trước khi nó có thể phiên âm.
Tuy nhiên, các ngôn ngữ đang bị đe dọa như tiếng Ainu thiếu dữ liệu nền như vậy, có nghĩa là các nhà nghiên cứu phải dựa vào một mô hình “đầu cuối đến đầu cuối” – một cách tiếp cận cho phép hệ thống học cách xử lý giọng nói thành văn bản mà không cần kiến thức trước về ngôn ngữ.
Nhóm của Kawahara hiện đang phát triển một hệ thống tổng hợp giọng nói Ainu, sử dụng AI để tạo ra giọng nói từ văn bản. Cho đến nay, họ đã thành công trong việc huấn luyện AI bắt chước các người nói đã cung cấp hơn 10 giờ giọng nói được ghi lại.
Hệ thống thậm chí đã tạo ra giọng nói từ văn bản của hai câu chuyện văn xuôi: Tale of Bear, được phiên âm giữa năm 1950 và 1960; và Raijin’s Sister, được phiên âm năm 1958. Phiên bản âm thanh AI của Raijin’s Sister được chia sẻ với Bảo tàng Ainu Quốc gia Upopoy, để huấn luyện diễn viên cho các buổi biểu diễn.
Đối với tai không được huấn luyện, bản ghi – được thể hiện bằng một giọng nói có thể là của một phụ nữ lớn tuổi – nghe một cách tự nhiên đáng sợ, với những khoảng dừng đột ngột và những biến điệu âm điệu nhẹ mà bạn sẽ mong đợi từ một người nói thực tế, mặc dù hơi quá nhanh.
“Tôi hy vọng loại AI này có thể giúp người dân ở Hokkaido, tổ tiên Ainu hoặc những người trẻ tuổi, học tiếng Ainu,” Kawahara nói. Ông gợi ý rằng công nghệ này có thể tạo ra các avatar ảo – các trợ lý giảng dạy Ainu hướng dẫn những người học trẻ tuổi của ngôn ngữ.
Nhóm của Kawahara cũng hy vọng nắm bắt thêm các phương ngữ Ainu với AI và bao gồm nội dung từ các thế hệ trẻ hơn, không chỉ các bản ghi cũ, ông nói.
Nhưng các hệ thống như vậy chính xác đến mức nào? Hiện tại, khả năng dịch thuật của AI có thể so sánh với một sinh viên tốt nghiệp về Ainu, các nhà nghiên cứu tuyên bố. Khi phiên âm một số người nói, nó có độ chính xác nhận dạng từ là 85%.
Độ chính xác của AI trong việc nhận biết âm vị (các đơn vị âm thanh riêng lẻ trong một ngôn ngữ) có thể cao tới 95%, mặc dù điều này giảm xuống 93% đối với những người nói không quen thuộc sử dụng cùng phương ngữ, và xuống 85% đối với những người nói các phương ngữ khác nhau.
Sekine nghi ngờ khả năng của AI trong việc nói tiếng Ainu một cách chân thực, và lo lắng rằng công nghệ sẽ lan truyền cách phát âm sai hoặc các lỗi khác.
Lúc đầu, nhiều thành viên cộng đồng được Kawahara và nhóm của ông liên lạc cũng cảnh giác tương tự với dự án và bày tỏ lo ngại rằng công nghệ có thể tạo ra giọng nói giả mạo hoặc lan truyền thông tin sai lệch, ông nói. Tuy nhiên, những người ủng hộ dự án đã giúp kiểm tra chất lượng của các bản phiên âm và giọng nói được tạo ra bởi máy tính, cũng như dữ liệu nguồn.
“Thật khó để nói tôi nghĩ gì về [dự án],” Sekine nói. Trong khi một hệ thống như vậy có thể giúp nâng cao nhận thức về ngôn ngữ, “người Ainu phải có kiến thức về ngôn ngữ, để họ có thể hiểu cái gì là giả.
Tôi sẽ nói rằng quan trọng hơn là có và xác minh dữ liệu sống.” Sekine đã tự làm các bản ghi câu chuyện Ainu được kể bởi bà ngoại và những cư dân lớn tuổi khác ở Nibutani.
Điều đó nói, chính cha cô, Kenji Sekine, đã tham gia vào sáng kiến AI. Ông đã giúp tìm nguồn bản ghi cho nhóm của Kawahara.
Mặc dù bản thân không phải là người Ainu, ông bắt đầu học phương ngữ Saru của ngôn ngữ này khi giúp mẹ của Sekine điều hành một lớp học tiếng Ainu cho trẻ em khi ông lần đầu định cư ở Nibutani năm 1999. Cuối cùng ông tiếp quản khóa học và đã dạy tiếng Ainu kể từ đó.
“Đó là công việc cả đời tôi,” ông nói. “Tôi muốn nhiều người học hơn. Tôi nghĩ [dự án AI] là một điều tốt.”
Trong các chuyến thăm của các nhà nghiên cứu đến Nibutani, họ cùng làm bánh bao gạo với các cư dân khác và tham dự một trong những lớp học thường xuyên của Kenji Sekine, phục vụ hơn một chục học sinh từ 7 đến 15 tuổi.
Được dạy theo vòng tròn, các buổi học đầy năng lượng và kết hợp các yếu tố của Te Ataarangi, một phương pháp dạy ngôn ngữ nhấn mạnh nói và hình dung, được phát triển bởi người Maori, một nhóm bản địa ở New Zealand.
“Mọi người tiếp tục tạo ra những từ mới trong tiếng Ainu, bao gồm ‘imeru kampi’ – kết hợp các thuật ngữ cho ‘tia sét’ và ‘thư’ để tạo ra một từ Ainu cho ’email’”
“Điều chúng tôi đang gặp khó khăn bây giờ là chúng tôi không có nhiều bản ghi hội thoại. Người [cuối cùng] mà chúng tôi gọi là người nói bản ngữ đã qua đời 20 năm trước,” Kenji Sekine nói.
Giữ cho tiếng Ainu sống rõ ràng là quan trọng đối với cộng đồng này. Nhưng với cái giá nào? Maya Sekine tự hỏi liệu dữ liệu được sử dụng để huấn luyện hệ thống AI có được công chúng tiếp cận đầy đủ hay không.
David Ifeoluwa Adelani, trợ lý giáo sư tại Trường Khoa học Máy tính của Đại học McGill ở Canada và một chuyên gia về các ngôn ngữ tài nguyên thấp ở châu Phi, nói rằng các nhà nghiên cứu Ainu sẽ cần xây dựng lòng tin và sự minh bạch với cộng đồng.
“Trong một số trường hợp [của việc tái sinh ngôn ngữ], có một khía cạnh của việc ‘Bạn đến và thu thập dữ liệu, sau đó bạn bán nó lại cho chúng tôi’,” Adelani nói. “Các nhà nghiên cứu cần được sự đồng ý, và sau đó thỏa thuận về cách dữ liệu sẽ được sử dụng.”
Đây là một điểm đặc biệt nhạy cảm đối với những người có di sản Ainu bởi vì, qua nhiều năm, văn hóa Ainu đã bị hàng hóa hóa và chiếm đoạt để kiếm lợi nhuận ở Nhật Bản – thông qua du lịch, truyền thông và thương mại, Sekine giải thích.
Mối đe dọa khai thác thêm là có thực đối với người Ainu, những người có đất đai bị thực dân hóa bởi nhà nước Nhật Bản. Bị cấm đánh cá và săn bắn trong nhiều thế kỷ, nhiều người Ainu bị buộc phải kiếm sống qua nông nghiệp và lao động giá trị thấp.
Không có thống kê chính thức về có bao nhiều người Ainu còn lại ở Nhật Bản ngày nay, nhưng một cuộc khảo sát năm 2023 của Chính quyền Tỉnh Hokkaido được báo cáo là phát hiện rằng 29% người Ainu đã trải qua sự phân biệt đối xử, tăng 6% so với cuộc thăm dò trước đó năm 2017.
Các báo cáo truyền thông địa phương cũng cho thấy người Ainu kiếm được thu nhập thấp hơn mức trung bình quốc gia và cũng có nhiều khả năng trải qua việc làm không ổn định hơn.
Việc huấn luyện các thành viên cộng đồng về cách sử dụng những công cụ này để tái sinh ngôn ngữ của họ sẽ đạo đức hơn, thay vì lao vào và thu thập dữ liệu, Adelani tranh luận.
“Chúng tôi làm việc trên các ngôn ngữ tài nguyên rất thấp với những người nói bản ngữ ở Cameroon bởi vì họ muốn làm việc về nó. Đó là lý do tại sao việc huấn luyện các thành viên cộng đồng là quan trọng. Nếu bạn dạy họ, họ có thể ưu tiên.”
Trong khi một số thành viên của người Ainu hoan nghênh sự quan tâm gần đây của chính phủ đối với việc bảo tồn văn hóa bản địa, các nhà phê bình nói rằng nó đã không đạt được việc giải quyết các bất công lịch sử và cung cấp các quyền cơ bản.
Một số tranh luận rằng Bảo tàng Ainu Quốc gia Upopoy, nơi chứa hài cốt người Ainu mà các thành viên cộng đồng tìm cách đòi lại, lại là một sự tiếp tục khác của các chính sách đồng hóa của Nhật Bản. “Upopoy trông giống như một trường hợp khác của người Nhật thực hiện quyền lực của họ đối với người Ainu,” nhà hoạt động Ainu Shikada Kawami nói trong một tuyên bố vài ngày trước khi bảo tàng mở cửa. “Tôi không biết có bao nhiều người Ainu nhận thức được mức độ mà họ vẫn bị khai thác.”
Theo Kawahara, Bảo tàng Ainu Quốc gia giữ bản quyền của dữ liệu gốc được sử dụng để phát triển hệ thống, với sự đồng ý từ các gia đình của những người nói. Phòng thí nghiệm sở hữu quyền đối với chính hệ thống AI. “Nhưng hệ thống không hoạt động mà không có dữ liệu,” ông lưu ý.
“Trong một thế giới lý tưởng, công nghệ ngôn ngữ được thực hiện bởi những người nói, cho những người nói”
Trong tương lai, có thể khó xác minh công việc của AI do thiếu người nói tiếng Ainu xung quanh, Sara Hooker, người đứng đầu Cohere for AI, một tổ chức phi lợi nhuận phục vụ như cánh tay nghiên cứu cho công ty công nghệ Cohere, lưu ý.
“Khi chúng ta nghĩ về [các hệ thống] đa ngôn ngữ và tầm với toàn cầu, không chỉ là đảm bảo các ngôn ngữ được bao phủ, mà là đảm bảo các sắc thái và cách mọi người sử dụng những mô hình này hàng ngày đủ phong phú để phục vụ mọi người.”
Nhưng AI cho nhận dạng giọng nói và tạo sinh đang phát triển với tốc độ chóng mặt, Francis Tyers, cố vấn ngôn ngữ học tính toán tại Common Voice, một sáng kiến bộ dữ liệu giọng nói đa ngôn ngữ crowdsourced được điều hành bởi Mozilla Foundation, tổ chức phi lợi nhuận Mỹ, nói.
Ngày nay, các nhà phát triển đang phát hành các hệ thống AI bao phủ hàng trăm ngôn ngữ – một điều không thể chỉ năm năm trước, ông nói.
“Trong một thế giới lý tưởng, công nghệ ngôn ngữ được thực hiện bởi những người nói, cho những người nói,” Tyers nói. Ông đưa ra ví dụ về Tây Ban Nha, nơi nhiều hệ thống dịch máy nhắm vào các ngôn ngữ không được phục vụ đầy đủ như tiếng Catalan hoặc Basque được dẫn đầu bởi chính các thành viên của những cộng đồng đó.
Trong các trường hợp khác, nơi những người nói bản ngữ hiếm hoặc không tồn tại, các nhà lãnh đạo có thể đảm bảo rằng các cộng đồng bản địa có quyền đại diện về cách tiền công chi tiêu để bảo tồn hoặc phát triển các công cụ học ngôn ngữ.
Tyers đưa ra ví dụ về một dự án ngôn ngữ Sámi. Người Sámi sống ở vùng Sápmi, kéo dài qua các phần phía bắc của Na Uy, Thụy Điển, Phần Lan và Bán đảo Kola ở Nga. “[Người Sámi tham gia vào dự án đó] là những người đưa ra các quyết định tài chính chính trị,” Tyers nói.