CVNSS4.0 GÓP ĐƯỢC GÌ VÀO XÂY DỰNG CHỮ
VIẾT
VÀ BẢO TỒN, PHÁT HUY VĂN HÓA ĐỒNG BÀO
DÂN TỘC THIỂU SỐ THỜI CÔNG NGHỆ SỐ?
Tác giả: Trần
Tư Bình
Chữ VN Song Song 4.0 có thể
góp được gì vào việc
xây dựng chữ viết; và bảo tồn,
phát huy văn hóa cho
các dân tộc
thiểu số (DTTS)
ở Việt Nam thời công
nghệ số?
1. Xây dựng chữ viết cho các DTTS.
Theo thống kê năm 2019, Việt Nam có 53 dân tộc
anh em, trong
đó 32 dân tộc thiểu số (DTTS) đã có chữ viết
[a], tiêu biểu như: Ê Đê, Ba Na, Hoa, Cơ Ho, Tày, Thái, Khmer, Nùng, H'Mông, Gia Rai, Cơ Tu, Chăm, Hrê, Mnông, Dao, ...
Gần phân nửa DTTS còn lại thì
chưa có chữ viết riêng.
Từ lâu, chính phủ
đã có chính sách xây
dựng chữ viết cho các DTTS chưa có chữ viết.
Vấn đề đặt ra hiện nay là nên dùng
cách ký âm
nào để ghi âm cho
chữ DTTS chưa có chữ viết?
Nên dùng cách ký âm
của Chữ Quốc
Ngữ (CQN) hay tạo
ra các ký
tự mới đặc biệt để ghi âm cho chữ
các DTTS chưa có chữ viết?
Dù chọn kiểu nào cũng có
vấn đề riêng của nó trong thời
đại mạng toàn cầu hiện nay.
1a. Dùng cách ký
âm của CQN thì có vấn
đề gì?
CQN còn một số hạn chế về ký âm
do ảnh hưởng
từ chữ viết các nước của các giáo sĩ
Tây phương (Ý, Bồ,
Pháp) khi sáng tạo CQN. Các hạn chế tiêu biểu về ký âm như
sau:
- Âm /cờ/
khi thì viết
C (ca, co…), khi thì K (kín, kê, ke),
khi thì Q (qua, quê…).
- Âm /gờ/
khi thì viết
G (ga, gò…), khi thì GH (ghi, ghê,
ghe).
- Âm /ngờ/
khi thì viết
NG (nga, ngò…), khi thì NGH (nghi,
nghê, nghe).
- Âm /i/ khi thì viết
Y (kỳ, lý…), khi thì I (thi,
trí…).
- Chữ “ga, gò…” thì đọc
âm /gờ/, còn chữ “gì” thì đọc
âm /giờ/.
- Có nhiều
dấu phụ. [b]
Nay nếu bê
nguyên xi cách ký âm của
CQN để ghi âm cho chữ
DTTS thì chữ viết DTTS đó sẽ tiếp tục rắc rối với các dấu, các bất nhất
về cách ký âm như
nói ở trên. Chưa kể là cần phải
có thêm một
phần mềm ở
máy tính hoặc ở điện
thoại để gõ ra chữ
DTTS có dấu vừa mới sáng tạo.
1b. Tạo ra
các ký tự
mới để ghi âm chữ
các DTTS thì có vấn đề
gì?
Còn nếu tạo ra các ký
tự mới đặc biệt để ghi âm cho chữ
các DTTS thì ngoài việc cần phải có thêm một
phần mềm để gõ ra chữ DTTS, còn có một
trở ngại khó khăn khác
là các ký
tự mới này cần phải
đăng ký mã số trong
bảng mã Unicode. Nếu không thì các ký
tự mới này sẽ không
hiển thị đúng trên mạng toàn cầu (internet) hiện
nay, gây khó khăn cho việc
quảng bá trên mạng.
Và việc đăng ký mã số
trong bảng mã Unicode thì phải làm càng sớm càng tốt và cũng không
dễ dàng.
Nếu đăng ký trễ quá cho
ký tự mới, các dấu mới lạ đó thì đôi khi
ký tự đó, các dấu
mới lạ đó có thể
nước nào đã đăng ký dấu đó
cho âm nào
đó cho tiếng của họ, thì Unicode không thể cấp cho mình
nữa, vì liên quan đến
công nghệ nhận diện chữ viết hiện nay, tức là đưa văn bản, phần mềm nó đọc thành tiếng. Nước nào đó đã đăng ký dùng cái ký
tự nào đó để ghi âm nào
đó trong ngôn ngữ của họ, thì mình không
thể đăng ký nó để
ghi cái âm
khác trong tiếng của mình.
Mới đây, GS.TS. Nguyễn Văn Hiệp (nguyên Viện
trưởng Viện Ngôn
ngữ học Việt
Nam) viết: "Không
thể vừa lòng với việc bảo tồn, phát huy theo cách
cổ điển, cách cổ điển
(xây dựng chữ viết cho người dân tộc, biên soạn từ điển, sách ngữ pháp, tổ chức lớp học tiếng dân tộc...) cũng tốt thôi, nhưng thời đại công nghệ 4.0 đòi hỏi cách tiếp cận khác. Chẳng hạn, trước đây, xây dựng chữ viết cho tiếng dân tộc thiểu
số theo tự dạng Latin chỉ đơn giản là phân
xuất âm vị học cho tiếng dân tộc đó,
sau đó dùng mẫu tự Latin để ghi lại các
âm, nếu cần thiết thì thêm các
dấu phụ. Tuy nhiên, với nguồn mã Unicode (đang sắp cạn kiệt, phải mở rộng, kiểu điện thoại di động hết số thì phải
thêm đầu số) chúng ta phải nhanh tay, làm trước
việc đăng ký các kí
tự của nguồn mã Unicode (kiểu như là xếp gạch
giữ chỗ thời bao cấp), sau đó mới
thực hiện xây dựng chữ viết, đảm bảo bộ chữ ấy xây dựng
xong là có
thể sử dụng trên các nền tảng
Unicode." [c]
Việc đăng ký mã số Unicode các ký tự
mới cho các cộng đồng rất ít người như các DTTS ở Việt
Nam thì càng gặp khó khăn
nhiều hơn vì Unicode thường ưu tiên cho
các ngôn ngữ có nhiều
người dùng.
Năm 1990, dân số Việt Nam là 68 triệu mà còn gặp
khó khăn trong việc đăng ký mã số Unicode cho các các
ký tự Chữ Quốc Ngữ.
TS. Ngô Đình Học (Hoa Kỳ), tác giả bộ gõ đa ngữ
WinVNKey (winvnkey.sf.net) kể
chuyện các khó khăn trong
việc đăng ký mã số
cho các ký
tự Chữ Quốc
Ngữ vào những năm 1987-1992 khi Unicode mới thành lập, như sau:
"Vào thời
điểm đó tập đoàn Unicode tại thung lũng Silicon đang bắt đầu thiết kế bảng mã Unicode 16 bit cho toàn
thế giới. Tập đoàn này gồm những
công ty hàng đầu thế giới về công nghiệp vi tính như IBM, Sun, HP,
Apple, Microsoft, v.v. Trong giai đoạn
đó, tập đoàn Unicode chủ trương bảng mã Unicode 16 bit chỉ hỗ trợ 2 bytes cho mỗi ký tự.
Vì thế, bảng mã này
chỉ có 65536 mã số mà
thôi. Do phải để dành mã số để
mã hóa tất
cả các ngôn ngữ cổ cũng như kim trên
toàn thế giới, tập đoàn Unicode tìm cách bỏ bớt
những mẫu tự có thể
được tạo
thành từ những ký tự khác. Chẳng hạn, họ chỉ cần mã hóa
một dấu hỏi rời thì không cần
cung cấp mã số riêng
cho chữ ả vì chữ này
có thể được tạo thành từ chữ a và dấu hỏi rời. Bằng cách này, họ
có thể bỏ qua tất cả 24 mẫu tự Việt Nam có dấu hỏi (12 chữ thường ả,
ẳ, ẩ, ẻ, ể, ỉ, ỏ, ổ, ở, ủ,
ử, ỷ, và 12 chữ
hoa tương ứng). Họ đã dùng cách
này để loại bỏ 90 mẫu tự Việt cả thường lẫn hoa. Trong khi đó thì
họ cung cấp mã số
cho từng chữ một đối với các mẫu tự
Pháp, Đức, v.v... Đó là một sự
thiên vị bất công và thiệt thòi rất lớn cho Việt Nam.
Chúng tôi, một
nhóm chuyên viên ở Hoa Kỳ, đã nhận thức sai lầm này sẽ
tác hại sâu xa đến
việc phát triển phần mềm chữ Việt muôn đời về sau nên
đã trực tiếp liên lạc và làm
việc với họ trong các cuộc họp định kỳ nhằm phản đối chủ trương mã hóa chữ
Việt dùng dấu rời (decomposed). Nhưng
tiếng nói lẻ tẻ của từng cá nhân không
có hiệu quả. Tập đoàn Unicode khăng khăng từ chối, viện ra rất nhiều
lý do, trong đó có lý
do Việt Nam chưa hề
có một bảng mã chữ
Việt chính thức
ở cấp nhà nước nên không cần phải bảo đảm tính tương thích như các bảng
mã ở Âu châu.
Do đó, chúng
tôi bàn bạc
với nhau nhu cầu cần
hình thành một nhóm thiết kế tiêu chuẩn tiếng Việt để
có thể bút chiến với họ trong các mailing list và tranh luận
với họ trong các cuộc
họp ở thung lũng Silicon. Đó là lý do nhóm
Vietnamese Standardization Working Group, gọi tắt là Viet-Std, ra đời vào mùa thu
năm 1989.
Đã có tư
cách nói chuyện với tập đoàn Unicode, nhưng lại không có một
bảng mã chữ Việt nào có đầy đủ chữ Việt
để có thể đưa ra cho họ
xem trong quá trình bút
chiến và tranh luận, nên chúng tôi
phải tiến hành thiết kế một bảng mã 8
bit có đầy
đủ chữ Việt
thường cũng
như hoa. Bảng mã mới
này có tên
gọi là VISCII (VIetnamese Standard Code for Information Interchange). Đồng thời, chúng tôi cũng
tiêu chuẩn hóa qui ước viết chữ Việt bằng các ký tự ASCII thường được
dùng trong email và Internet (thí dụ: to^i ye^u tie^'ng Vie^.t). Tiêu chuẩn này còn được
gọi nôm na là bảng
mã 7 bit tiếng
Việt, có tên chính thức là VIQR (VIetnamese
Quoted-Readable Specification). Cả hai tiêu chuẩn
này được phát hành trong
một tập san điện tử song ngữ năm 1992
(http://vietstd.sourceforge.net/report/rep92.htm) và trở thành chuẩn RFC1456 nộp lên ủy ban quốc tế đặc trách về tiêu chuẩn
mạng Internet năm
1993.
Cuối cùng, nỗ
lực vận động của chúng tôi thành
công rực rỡ, tập đoàn Unicode chịu lùi bước và chấp nhận
cung cấp mã số riêng
rẻ (tức mã số dựng
sẵn - precomposed) cho
tất cả mẫu tự Việt vào năm 1993." [d]
1c. Làm sao
giải quyết vấn đề?
Như trình bày
ở trên, dùng cách ký âm
của CQN hoặc tạo ra các
ký tự mới để ghi âm cho
chữ các DTTS chưa có chữ
viết đều có vấn đề
riêng của nó trong thời
mạng toàn cầu. Vậy làm sao giải
quyết vấn đề?
Thiết nghĩ, nếu
dùng cách ký âm của
Chữ VN Song Song 4.0
(CVNSS4.0) để ký
âm cho chữ
của các DTTS thì chữ sẽ
là không dấu, ngắn gọn và tiện
lợi cho việc gõ vì
không cần phần mềm để gõ; và cũng không
trở ngại gì cho việc
hiển thị trên mạng.
Đó là do CVNSS4.0 là kiểu chữ không dấu rất ngắn cho tiếng Việt, chỉ sử dụng 26 chữ cái La-tinh như
tiếng Anh-Mỹ. Nó rút gọn
tối đa CQN qua một số quy tắc và
rồi dùng chữ cái để
thay thế dấu thanh và dấu phụ.
Giả sử bạn được giao nhiệm vụ sáng tạo một bộ chữ viết cho một bộ
lạc DTTS chưa có chữ viết.
Ví dụ ở bộ lạc đó, âm "phưởng khọeng" là “đồng hồ”. Thay vì dùng
cách ghi âm của CQN là "phưởng khọeng" thì ta có thể dùng
cách ký âm
của CVNSS4.0 là "fuzv kezr". Nó sẽ gọn
hơn và không có dấu
phụ như ở
CQN.
CQN ghi được
bao nhiêu âm tiết tiếng Việt
thì CVNSS4.0 cũng ghi được bấy nhiêu âm tiết tiếng
Việt.
Theo thống kê, CQN và CVNSS4.0 có thể ký
âm được trên 25 nghìn âm
tiết có nghĩa hoặc không có nghĩa
trong tiếng Việt.
Với khả năng rất cao này,
CQN và CVNSS4.0 có thể ký âm
hầu hết âm tiết có
nghĩa hoặc không có nghĩa
trong các tiếng nói của các DTTS.
(Xin xem công
thức CVNSS4.0 và danh sách hơn
25 nghìn âm tiết tiếng Việt
ghi bằng CVNSS4.0 và CQN ở cuối bài này.)
Ngày nay, nhiều người DTTS
biết đọc và viết thành
thạo CQN. Nếu họ học thêm các quy
tắc tốc ký CVNSS4.0 thì chính họ cũng có thể
tự xây dựng bộ chữ không dấu cho tiếng
nói của họ, chứ họ không cần phải đợi dân tộc Kinh xây dựng chữ viết cho các cộng đồng DTTS.
Nếu chính người DTTS xây dựng chữ viết cho tiếng nói của họ
theo cách ký âm của
CVNSS4.0 thì chắc chắn bộ chữ đó sẽ không có những hạn chế không đáng có như ở Chữ Quốc Ngữ hiện nay.
2. Bảo tồn văn hóa cho
các DTTS
Tại các bảo tàng,
thư viện cổ hay các trung tâm văn
hóa lịch sử, người ta cần lưu trữ rất nhiều tài liệu, hồi ký, bản thảo…;
các tài liệu
này rất dễ bị mối mọt theo thời gian. Quá trình
lưu trữ cần rất nhiều thời gian, công sức.
Việc sắp xếp, lưu trữ hoặc tìm kiếm thủ công - với lượng văn bản giấy khổng lồ - là vô
cùng vất vả và tốn
nhiều nhân lực thực hiện. Tuy nhiên, mạng toàn cầu và mã
Unicode ra đời đã giúp giải
quyết bài toán đó một
cách đơn giản hơn thông qua việc chuyển đổi ngôn ngữ theo một quy chuẩn nhất định. Các văn bản, tài liệu quan trọng được chuyển
đổi từ dạng giấy sang file mềm. Nó giúp
việc lưu trữ và bảo
tồn nhiều di sản văn học/văn hóa của các
dân tộc trở nên dễ
dàng hơn.
Trong số các
bộ chữ của 32 dân tộc đã có chữ viết
thì cũng có nhiều bộ chữ mà các ký
tự chưa đăng ký mã số Unicode, chưa có font chữ Unicode và chưa có phần
mềm gõ trên máy tính.
Mà không có chữ
viết hoặc chữ viết đã có nhưng
chưa đăng ký mã số
Unicode, chưa có font chữ Unicode thì rất khó để
bảo tồn văn hóa và
ngôn ngữ đó vì không
quảng bá được trên mạng toàn cầu internet.
CVNSS4.0 có thể
giúp giải quyết các vấn đề này vì bộ
chữ tốc ký CVNSS4.0 chỉ có 26 chữ cái La-tinh, không
cần phải đăng ký mã số Unicode.
Với các DTTS chưa có chữ viết
thì ta có thể xây dựng
chữ viết theo cách ký
âm CVNSS4.0.
Còn với các DTTS đã có chữ
viết lâu đời nhưng chưa đăng ký mã số
Unicode thì ta vẫn ghi lại tiếng
nói chữ viết đó theo cách ký
âm CVNSS4.0 và rồi dùng cách ký âm
mới này song song với chữ viết đã có lâu
đời.
Lưu trữ và quảng bá chữ viết
các DTTS trên mạng toàn cầu internet thông qua cách ký âm
không dấu thì rất dễ
dàng và hữu
hiệu.
Như đã nói ở trên, CQN và CVNSS4.0 có thể ký âm
được trên
25 nghìn âm tiết có nghĩa
hoặc không có nghĩa trong
tiếng Việt. Với
khả năng cao này, CQN và
CVNSS4.0 có thể ký âm hầu
hết âm tiết có nghĩa
hoặc không có nghĩa trong
các tiếng nói của các
DTTS.
Sau đây, là
Danh sách toàn bộ 25.233 âm tiết tiếng Việt
ghi bằng CVNSS4.0 và CQN để độc giả sử dụng.Sau
đây, là Danh sách toàn bộ
25.233 âm tiết tiếng Việt ghi bằng CVNSS4.0 và CQN để độc giả sử dụng.
- https://chuvietnhanh.sourceforge.net/ToanBo25233AmTietTiengVietGhiBangCVNSSvaCQN.txt
Hoặc:
- https://chuvietnhanh.sourceforge.net/ToanBo25233AmTietTiengVietGhiBangCVNSSvaCQN.xlsx
3. Kết luận
Với những khó khăn và hướng
giải quyết nêu trên, ta thấy
CVNSS4.0 4.0 có thể tạo ra chữ
viết cho ngôn ngữ của các DTTS, nhằm hạn chế tạo ra font chữ mới và bộ
gõ mới.
Những ai quan tâm
đến vấn đề này muốn tìm hiểu thêm về công thức
và mục đích của CVNSS4.0 thì có thể
tham khảo giáo trình “Chữ
VN Song Song 4.0” ở: http://chuvietnhanh.sourceforge.net/ChuVNSongSong.htm
Dĩ nhiên, vấn đề này nếu có sự
phối hợp giữa các nhà ngôn ngữ
học và chuyên gia xử
lý ngôn ngữ
tự nhiên (natural
language processing – NLP) thì sẽ
được giải
quyết nhanh chóng và hoàn
hảo hơn.
Tác giả: Trần Tư Bình
--------------------
Tham khảo
[a] Tài liệu
“Kết quả
điều tra thu
thập thông tin về thực trạng kinh tế - xã hội
của 53 dân tộc thiểu số năm 2019” (của
NXB Thống Kê, trang 78)
01-Bao-cao-53-dan-toc-thieu-so-2019_ban-in.pdf
(gso.gov.vn)
[b] Sách “Vấn đề cải tiến chữ Quốc ngữ,” Nxb. Văn Hóa, Hà Nội,
1961,
[c] Bài “Việc sử dụng tiếng nói, chữ viết của đồng bào dân tộc thiểu
số không thể đứng ngoài cuộc cách mạng công nghệ 4.0” của GS.TS. Nguyễn Văn Hiệp
(nguyên Viện trưởng
Viện Ngôn ngữ học Việt Nam)
[d] Bài “Phỏng vấn Ts. Ngô Đình Học
về WinVNKey và Chữ Việt Nhanh”, nhà báo
Nguyễn Hữu Thiện thực hiện.
https://chuvietnhanh.sourceforge.net/PhongVanNgoDinhHocVeWinvnkeyVaChuVietNhanh.htm
Tác giả
Trần Tư Bình:
Sinh năm 1954 tại Đà Nẵng, Việt
Nam.
Chỗ ở hiện tại: Thành phố Sydney, Úc.
Học vấn: Tốt nghiệp Đại học Tổng hợp Tp.HCM, 1977, ngành Ngữ Văn. Tốt nghiệp Cao đẳng Sư phạm Tiểu Học Đà Nẵng, 1974.
Công việc ở VN: Giáo viên Văn trường
THPT cấp 3 Lý Thường Kiệt, Tp.HCM, từ 1977-1980.
Công việc ở Úc: Làm việc ở Bưu Điện Úc, từ 1982 đến nay (2023). Cuối
tuần, dạy Việt
ngữ ở Liên trường
Văn hóa VN Sydney, từ
1986 đến 2016. Quản trị trang mạng Chữ Việt
Nhanh http://chuvietnhanh.sf.net
© Trần
Tư Bình
(phiên bản ngày 15-06-2023)
Email: tubinhtran@gmail.com, Facebook:
https://facebook.com/tubinhtran
Về Trang Chính:
Chữ Việt Nhanh
http://chuvietnhanh.sourceforge.net