19 BÀI VỀ CHỮ VIỆT THỜI CÔNG NGHỆ SỐ
Tác giả: Long Ngo
Vài nét về Thạc sĩ Ngô Hoàng Đại
Long (Long Ngo)
Hiện là Nghiên
cứu viên tại Phân hiệu Đại học Quốc gia-TP.HCM tại tỉnh Bến Tre, có nhiều công tŕnh khoa học – được công bố trên Scopus & WoS - liên quan
đến hướng
nghiên cứu của ḿnh về Địa lư ngôn ngữ,
nhất là các Ứng dụng
của xử lư ngôn ngữ
tự nhiên trong GIScience.
1.
Chữ VN Song Song 4.0 (Cvnss4.0)
2.
Cvnss4.0 - Phát triển như thế nào?
3.
V́ sao Cvnss4.0 bị hiểu lầm?
4.
Có bao nhiêu chữ biến thể từ chữ Việt truyền
thống hiện nay?
5.
Kỳ 1. Kư sự bộ gơ tiếng
Việt - Sự xuất
hiện của “VIQR”
6.
Kỳ 2. Kư sự bộ gơ tiếng Việt - Đi t́m một
tiêu chuẩn thống nhất (?)
7.
Cvnss4.0 trong bối cảnh cách mạng công nghệ 4.0
8.
Cvnss4.0 về mặt ngôn ngữ
9.
Cvnss4.0 - Thuộc
nhóm các ngôn ngữ IAL?
10.
Chữ Quốc Ngữ
trong tiến tŕnh lịch sử dân tộc
11.
Cvnss4.0 trong hành tŕnh t́m
tiếng nói đồng thuận
12.
Tiện ích nhỏ từ Cvnss4.0 mang lại
13.
Cvnss4.0 dưới
góc nh́n mă hóa
14.
Những chữ cái dùng “lậu”
15.
Vũ điệu
của những con chữ
16.
Cvnss4.0 từ “phát kiến” đến sự h́nh thành giả
thuyết cho bộ chữ Bila
17.
Giá trị tiếng Việt qua các minh chứng. Thêm góc nh́n
từ Cvnss4.0
18.
Chữ Việt cổ
qua lăng kính Cvnss4.0
19.
Mạn đàm về thanh điệu trong tiếng Việt từ quá khứ đến
tương lai
Giới thiệu: Từ ngày
14-8-2022 đến ngày
13-5-2023, Thạc sĩ
Long Ngo đăng trên
Phây búc (Facebook) ở
nhóm “Tôi Yêu Chữ Việt 4.0” một loạt hơn 20 bài ngắn dài liên quan đến
chữ Việt thời
công nghệ số, như về: Chữ Quốc Ngữ, bộ gơ tiếng Việt, Chữ VN Song Song 4.0, v.v …
Sau đây
là 19 bài trong loạt bài trên.
BÀI 1: CHỮ VN SONG SONG 4.0
(ngày 14-8-2022)
Tôi có
vài chia sẻ về chữ VN Song Song 4.0 (Cvnss4.0) dưới
góc nh́n cá nhân và
công việc của ḿnh. Hy vọng quư ACE có thể phát
triển thêm.
1. Cvnss4.0 có phải là bộ
gơ tiếng Việt với các kiểu
gơ khác nhau.
Hiện Việt Nam có
hơn 10 bộ gơ tiếng Việt khác nhau. Như vậy, Cvnss4.0 có thể sẽ phát triển thành một bộ gơ tiếng
Việt hay nói đúng
hơn Cvnss4.0 vẫn
có nhiều lợi thế và tính ưu
việt trong việc phát triển này. Đơn cử hiện nay, trên các điện thoại thông minh việc gơ chữ có
dấu là rất hạn chế, chưa kể kiểu chữ Xiteen viết sai be bét nhưng vẫn được cộng đồng các bạn trẻ
dùng. Liệu lâu dần, có mất
đi sự giàu đẹp của tiếng Việt không?
Cvnss4.0 ra đời
có thể sẽ giải quyết bài toán này bởi
tính nguyên tắc và quy
luật đă được thiết lập ngay từ đầu làm cơ sở
cho việc xây dựng bộ gơ tiếng
Việt tối ưu
hơn.
2. Cvnss4.0 có thể thay thế cả Mă Morse quốc tế mă hóa
26 chữ cái tiếng Anh từ A đến Z để giao tiếp đặc biệt dành cho người
Việt. Tại sao không chứ? Ví dụ: truyền
tải tín hiệu thông qua Cvnss4.0, người phát tín hiệu và người nhận tín hiệu sẽ dễ dàng hiểu
được câu nói ấy bởi
âm thanh phát ra từ
định ước
Cvnss4.0 dựa trên Mă Morse. Trong một số ngành, lĩnh vực nhất định việc truyền tín dựa trên
“chữ có dấu” sẽ tốn kém và
mất thời gian.
3.Chữ Braille được
du nhập vào nước ta và được Việt hóa
từ năm 1898. Chữ Braille được
biểu diễn trong một ô h́nh chữ nhật đặt đứng gồm các chấm nổi, có thể
nhận biết khi sờ bằng
đầu ngón tay. Nhưng có ai từng chứng kiến việc dùng các chữ này
khó khăn thế nào khi
bỏ dấu chưa? Nếu thông qua Cvnss4.0 th́ việc cải tiếng Chữ Braille cho người khiếm thị tại sao không
chứ?
4. Ngôn ngữ
lập tŕnh không dựa trên tiếng Anh, tại sao không
chứ? Nếu ta dùng Cvnss4.0 cho một ngôn ngữ lập tŕnh th́ cũng
đáng tự hào chứ? Ta xem trường hợp của Python từ Hà Lan, Ruby từ Nhật
Bản và Lua từ Brazil…
Tôi vẫn
ủng hộ nhóm tác giả
và đề cao sự sáng
tạo cũng như t́m kiếm
các cá nhân
phát triển thêm Cvnss4.0 trên nhiều phương diện khác nhau để Cvnss4.0 trở nên thông
dụng. Tôi viết bài này là dựa
trên cá nhân
quan sát một thời gian dài và
không dựa trên bất cứ tài trợ
nào.
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/814720146608768/
-------------------
BÀI 2: CHỮ
VN SONG SONG 4.0 - PHÁT TRIỂN THẾ NÀO?
(ngày 15-8-2022)
Tôi có
vài ư kiến chia sẻ về chữ VN Song Song 4.0
(Cvnss4.0) dưới góc
nh́n cá nhân
có thể làm nhóm tác
giả “không vui” nhưng hy vọng đó
là cách giúp
cho Cvnss4.0 phát triển thêm:
1. Để am hiểu một chữ viết mới như Cvnss4.0 cần có thời
gian để mọi người cảm nhận thông qua các giá
trị tự thân nó mang
lại, bao gồm:
(i) Công bố
quốc tế về Cvnss4.0 trong các bài báo
khoa học về ngôn ngữ và NLP-Natural Language Processing;
(ii) Thông qua các ứng dụng từ Cvnss4.0 mang lại, cụ thể là các
ứng dụng IT để mọi người thấy các tính năng
của nó mang lại;
(iii) Cvnss4.0 nên chia ra nhiều nhánh phát triển
và nâng lên
một tầm cao mới. Lư do, nhóm tác
giả hiện không thể phát triển nếu thiếu sự chung tay của một
nhóm người hoặc một tổ chức về Cvnss4.0. Điều
đó, đứa con
tinh thần Cvnss4.0, nhóm tác giả
phải xa dần nó để
cho nó (Cvnss4.0) lớn và trưởng
thành hơn. (tức có nghĩa
là về mặc bản quyền, Cvnss4.0 phải trở thành “ngôn ngữ mở” hay nói khác đi chấp
nhận nó trở thành tài sản chung
của cả dân tộc Việt Nam.
(iv) Việc chia sẻ thông tin và tranh luận
từ các group diễn đàn cũng tốt. Nhưng theo tôi không nên
tốn nhiều thời gian vào việc tranh luận vô bổ, chả
giải quyết được ǵ, càng làm mọi
thứ trở nên xấu đi.
Thay vào đó, xây dựng lực lượng các team nhỏ với các chuyên
môn khác nhau và các
chuyên ngành khác nhau cùng
nhau xây dựng và phát
triển. Nó sẽ h́nh thành
một diễn đàn riêng và xài Cvnss4.0 bắt buộc trong diễn đàn ấy.
Góc nh́n
của tôi có thể chưa
đúng nhưng nếu là tôi
Cvnss4.0 sẽ phát triển theo chiều kích vào các mảng
hẹp của ngôn ngữ từ đó nâng cao vị
thế của
Cvnss4.0. Chưa bao giờ
tôi từ bỏ chữ viết tiếng Việt
nhưng nếu có Cvnss4.0 th́ đó sẽ làm cho công
việc và tiếng nói them giàu đẹp và phong phú
hơn.
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/815146673232782/
BÀI 3: V̀ SAO CHỮ CVNSS4.0
BỊ HIỂU NHẦM?
(ngày 16-8-2022)
Vd: chuyển
các chữ dân tộc qua Cvnss4.0 rồi về lại chữ Việt truyền thống.
Trường hợp, chữ
Khmer (អក្សរខ្មែរ)
-> Cvnss4.0 -> chữ Việt.
Rất mong nhóm tác giả
có những giải pháp phát triển chữ Cvnss4.0 theo cách tiếp cận mới.
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/815921423155307/
-------------------
BÀI 4: CÓ
BAO NHIÊU CHỮ BIẾN THỂ TỪ CHỮ VIỆT TRUYỀN
THỐNG HIỆN NAY?
(ngày 18-8-2022)
.....
Chữ Việt là bộ chữ
viết mà người Việt dùng để viết ngôn ngữ mẹ đẻ là tiếng Việt, từ quá khứ
đến hiện tại. Để ghi chép tiếng
Việt người Việt đă kết hợp cả chữ Hán với chữ Nôm lại,
và Chữ Quốc Ngữ (chữ Latinh). Và hiện
nay là Chữ Quốc
Ngữ trở nên thông dụng
và phổ biến. Chữ VN song song 4.0 không thể cạnh tranh hay thậm chí là thay
thế.
Chữ VN song song 4.0 là một
sự sáng tạo nhưng để chữ này làm đ̣n
bẩy tôi thiết nghĩ chúng ta cần có hướng đi riêng nhất
là trong mảng CNTT. Có thể tôi sai,
rất mong quư vị đóng góp thêm.
Long
Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/816997589714357/
-------------------
BÀI 5: KỲ
1. KƯ SỰ BỘ GƠ TIẾNG VIỆT - SỰ XUẤT HIỆN
CỦA "VIQR"
(ngày 24-8-2022)
Sau
năm 1975, có một làn sóng
người Việt Nam di cư đến Bắc Mỹ, châu Âu, Hồng Kông, Trung
Quốc và Úc. Tại Hoa Kỳ, dân số nhập cư Việt Nam trước đó chỉ tầm vài ngh́n người
đến năm
1980 đă tăng lên thành 245.025 người. Đến năm 1990, con số này tăng gấp
đôi thành 593.213 và đến năm 2000 đă lên đến 1.122.528. Xa rời đất
mẹ và chịu sự lề hoá nơi
đất khách quê người, những người
Việt tha hương
luôn khát khao được hàn gắn sợi dây cội nguồn
và văn hoá bị đứt
găy. Tiếng Việt
lúc này là
phương tiện
kết nối cụ thể nhất mà như
tác giả Anh Trần đă dẫn chứng trong Giáo dục Ngôn ngữ Việt Nam tại Hoa Kỳ rằng ít năm
sau 1975 có một sự tăng trưởng đột biến số lượng các trường dạy tiếng Việt
ở Hoa Kỳ.
Những nỗ lực duy tŕ kết
nối với quê nhà qua ngôn
ngữ diễn ra trong thời
điểm nhiều
có tiến bộ công nghệ.
Ngành công nghiệp máy tính chuyển dần từ máy tính lớn
sang máy vi tính cá nhân. IBM đă
phát hành mẫu máy tính
gia đ́nh đầu tiên vào năm 1977 với cái tên
Altair 8800. Đến năm
1981, hăng bắt đầu sản xuất hàng loại máy IBM-PC, tương tự với máy tính
bàn hiện đại. Máy tính dần dần trở thành một thiết bị ngày một riêng tư và
cá nhân hơn.
Cộng đồng Việt kiều
ở Hoa Kỳ được
tiếp xúc với những tiến bộ máy tính này
khá sớm. Nguyên nhân là do vào
những năm 1990, có số lượng
lớn dân nhập cư người Việt đặc
biệt là phụ nữ giữ vị trí là những
kỹ thuật viên sơ cấp
ở Thung lũng Silicon, và
sau này là
kỹ sư trong lĩnh vực Công nghệ Thông
tin. Người Việt cũng
thuộc nhóm những người tiên phong về
ngành này ở Úc. Một ví
dụ có thể kể đến đó là chính các
bạn sinh viên tại trường Đại học Quốc gia Úc đă hoàn
thành dự án mang kết
nối internet đến
Việt Nam.
Trong
cuốn sách Transnationalizing Vietnam: Community, Culture, and Politics in the
Diaspora, Kiều Linh Caroline Valverde nói về lập
tŕnh viên máy tính Tín
Lê, thành viên của một nhóm các nhà
khoa học máy tính người Mỹ gốc Việt có chuyên về
thiết lập liên kết qua mạng diện rộng. Năm 1986, nhóm này đă
kiến tạo một danh sách email lấy tên là Vietnet,
nhằm kết nối các cộng
đồng người
Việt hải ngoại
thông qua giao tiếp điện tử. Trong một lần phỏng vấn với Kiều
Linh Caroline, Tín Lê chia sẻ:
“Thật khó để kết nối với nhau, đặc biệt là ở những khu vực có ít
người Việt cư
trú. Chúng tôi ai cũng mong muốn được làm quen và
tṛ chuyện cùng nhau.”
Các
quản trị viên của Vietnet sau đó
đă chuyển danh sách email này đến một nhóm tin Usenet, một diễn đàn thảo luận tên là soc.culture.vietnamese
(SCV). Danh sách email của
Vietnet và SCV đều có trước internet v́ cả hai đều
dựa vào các mạng lưới nhỏ – tiền thân của mạng lưới toàn cầu. Kho lưu trữ của Google về các cuộc
thảo luận nhóm tin cho thấy
SCV ra đời từ rất sớm – tháng Tư năm 1991. Ta có thể t́m
thấy mọi thông tin liên quan đến Việt
Nam từ thi ca, lời bài hát,
công thức nấu ăn, quảng cáo, t́m kiếm người thân, thông báo dự
án học tập, cho đến các cuộc thảo luận về các vấn đề
lớn hơn trên diễn đàn này.
Máy tính thời kỳ đó chỉ hỗ trợ tiêu chuẩn mă hóa kư tự
ASCII (viết tắt
của Mă tiêu chuẩn Mỹ trong Trao đổi Thông tin). Bộ
mă chỉ thể hiện bảng chữ cái tiếng Anh trên máy tính
và không bao gồm dấu phụ. Để liên lạc với nhau trong nhóm tin, các thành viên
Vietnet và SCV đă sử dụng một bộ quy tắc
cho phép các thành viên
viết tiếng
Việt bằng cách sử dụng các kư tự
có sẵn trong ASCII để biểu thị dấu phụ của tiếng Việt.
Bộ này bao gồm (. + ^? và '). Các quy tắc thường
được gọi
chung là quy ước Vietnet, quy ước
SCV hoặc quy ước VIQR (là viết tắt của Vietnamese Quoted-Readable). Các quy ước VIQR đă trở thành tiêu chuẩn
mà nhiều công dân trực
tuyến Việt Nam trong
thời hoàng kim của các
nhóm tin và diễn đàn tin dùng, và vẫn
c̣n được nhiều người sử dụng cho đến tận ngày nay.
Ảnh chụp lại từ Một
bài đăng trên Usenet liệt kê một số
tên tiếng Việt nhưng nghe như những từ mang ư tứ xúc phạm
trong tiếng Anh để các bậc phụ huynh lưu tâm khi đặt
tên cho con tránh bị người Mỹ chế giễu. Ảnh chụp màn h́nh qua Google Group.
D̉NG CHẢY Ồ ẠT CỦA CÁC
GIẢI PHÁP CÔNG NGHỆ
Các quy ước VIQR dù tiện lợi
nhưng suy cho cùng cũng
chỉ là một giải pháp tạm thời v́ những
người chưa thạo vẫn không đọc được nội
dung tiếng Việt này.
Nhu cầu thiết lập một mă chuẩn cho các kư
tự tiếng
Việt sử dụng
trên các trang web và các
phông chữ vẫn luôn hiện hữu. V́ thế, vào
cuối những năm 1980 và đầu những năm 1990, đă có rất nhiều
phần mềm, bộ mă hóa
kư tự và phông chữ
tiếng Việt xâm nhập vào thế giới mạng. Có một vài giải
pháp khá hữu hiệu, thế nhưng phần lớn lại đề ra một nan đề mới. Như
Kim An Lieberman giải thích
trong Asian America.Net:
Ethnicity, Nationalism, and Cyberspace, "Vấn đề không phải là làm thế
nào để đưa tiếng
Việt lên internet, mà
là sử dụng phiên bản tiếng Việt nào."
Thời gian này xuất
hiện một tiêu chuẩn mă hóa, đồng
thời cũng là một phương
cách nhập liệu phổ biến: tiêu chuẩn VNI. VNI được
phát triển bởi ông Hồ Thanh Việt, một kỹ sư phần mềm người
Việt sinh sống tại Westminster. Năm
1987, ông Việt đề
xuất sử dụng các phím số để
biểu thị dấu phụ.
Phương thức nhập
liệu này được ông
Việt và Công ty Phần
mềm VNI phổ cập và biến
thành một sản phẩm dưới dạng một chương tŕnh xử lư phông chữ và văn bản, thiết
kế cho hệ điều hành MS-DOS.
Từ đây, VNI trở thành tiêu chuẩn
cho in ấn ma trận điểm, giúp cải thiện h́nh thức tŕnh bày của các
tờ báo tiếng Việt ở Mỹ.
VNI thậm chí c̣n được
Microsoft áp dụng vào hệ điều
hành Windows 95 vào những năm 1990. Tuy nhiên, VNI Software sau đó đă kiện Microsoft về việc sử dụng trái phép, buộc gă khổng lồ công nghệ
này phải loại xoá bộ gơ này
khỏi hệ điều hành của họ. Ngày nay, tiêu chuẩn VNI được
dạy trong sách giáo khoa của bộ môn tin học, và vẫn được
nhiều người
sử dụng ở
Việt Nam.
Cũng trong khoảng thời gian này Hiệp hội Unicode ra đời. Hiệp hội được thành lập vào năm 1987 tại Thung lũng Silicon
với các thành viên làm
việc cho nhiều công ty công nghệ như Apple, Xerox, Sun microsystems, IBM và Microsoft. Hiệp hội Unicode mong muốn
đề ra một tiêu chuẩn chung để mă
hóa và hiển
thị mọi ngôn ngữ bao gồm cả tiếng Việt. Hiệp
hội đă mở rộng tiêu chuẩn 8 bit thông dụng
trong việc mă hóa kư
tự bấy giờ thành bộ kư tự
16 bit để tăng
số lượng kư tự có
thể mang chứa.
Đối với tiếng Việt,
kế hoạch ban đầu của hiệp hội này là để
gán mă cho
từng dấu phụ, thay v́ gán mă
cho một tổ hợp sẵn. Lư do là v́ Unicode muốn tiết kiệm dung lượng và tránh phải mă hóa những
kư tự có thể được
tạo ra bằng cách kết các kư
tự đă được gán mă. Tuy nhiên, trong quá tŕnh
thực hiện
Unicode lại gặp
phải một số vấn đề.
Theo một ghi chú của Tập đoàn phi lợi nhuận Viet-Std thành lập với mục đích chuẩn hóa tiếng Việt trên máy tính,
"Việc sử dụng nhiều dấu phụ trong các văn
bản tiếng
Việt dẫn đến
nhu cầu tạo ra một
bàn phím nhập liệu không cần thêm phím tắt
đặc biệt nào để ‘soạn’ các chữ cái có
dấu." Tiến sĩ
Ngô Đ́nh Học, một
trong những thành viên của
Viet-Std, cho rằng góc nh́n này
khá là không
công bằng bởi lẽ người Pháp và người Đức lại
được hưởng
đặc quyền có mọi kư
tự được
mă hóa sẵn
trong bộ Unicode.
Tập đoàn Viet-Std đă gửi đơn khiếu nại đến Unicode để
xem xét lại
việc này nhưng bị từ chối với lư do ngôn ngữ tiếng Việt không có một hệ
thống mă hóa kư tự
thống nhất, do đó, không cần phải đảm bảo khả năng tương thích như các ngôn
ngữ gốc La-tinh khác. Không
chấp nhận lập luận của Unicode, Tập đoàn Viet-Std đă phát triển tiêu chuẩn mă hóa kư
tự VISCII (Mă Tiêu chuẩn của Việt Nam để
Trao đổi Thông tin) vào
năm 1992. VISCII dựa
trên nền tảng của bộ kư tự
ASCII đă được
chỉnh đổi,
trong đó các kư tự
“dễ xử" nhất trong bộ ASCII gốc được thay thế bằng các dấu phụ
tiếng Việt.
Măi đến năm 1993
Unicode mới đồng
ư mă hóa mọi kư tự
thuộc tiếng
Việt. Từ đó
trở đi, nhiều quy ước đánh máy hơn đă
xâm nhập vào thế giới
mạng. Vào năm 1993, tổ chức phi lợi nhuận Vietnam Professionals Society (VPS) phát hành phần mềm phương thức nhập liệu VPSKey của riêng ḿnh, thiết kế cho hệ
điều hành
Windows 3.1. Cũng trong
năm đó, Bộ Khoa học, Công nghệ và Môi
trường của
Việt Nam (nay là Bộ
Khoa học và Công nghệ) đă ban hành TCVN 5712 – một tiêu chuẩn mă hoá kư
tự 8-bit toàn quốc cho tiếng Việt. Mă hóa kư tự
TCVN 5712 được gọi
là VSCII (Mă Trao đổi Thông tin Tiêu chuẩn của Việt
Nam) và bao gồm ba phiên bản:
VN1, VN2 và VN3. Bộ đầu tiên là bộ ASCII đă được điều chỉnh, hai bộ c̣n
lại sử dụng ASCII mở rộng. TCVN 5712 khi đó được sử dụng rộng răi ở miền bắc nước ta.
Các
trang web cuối cùng cũng có thể hiển
thị đúng tiếng Việt và người dùng có thể viết
tiếng Việt trên
web nếu đầu
ra và đầu
vào tương thích với nhau.
Tuy
nhiên, việc
gơ và đọc
tiếng Việt trên
máy tính vẫn là một
vấn đề đau đầu do có quá nhiều
giải pháp – với mỗi giải pháp cho phép từng
trang web sử dụng bảng mă và phông
chữ không tương thích với nhau. Do đó, những người dùng không được trang bị các công cụ
phù hợp vẫn không thể đọc và viết tiếng
Việt một cách dễ dàng.
(Xem
tiếp kỳ
2). KỲ 2. KƯ SỰ BỘ GƠ TIẾNG VIỆT -
ĐI T̀M MỘT TIÊU CHUẨN THỐNG NHẤT (?)
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/821130762634373/
-------------------
BÀI 6: KỲ 2. KƯ SỰ BỘ
GƠ TIẾNG VIỆT - ĐI T̀M MỘT TIÊU CHUẨN THỐNG
NHẤT (?)
(ngày 25-8-2022)
Nhiều phần mềm và bộ xử
lư văn bản vẫn tiếp tục sử dụng mă hóa kư
tự tiếng Việt
7 bit và 8 bit trước khi Microsoft
Windows đưa mă hóa Unicode cho tiếng Việt vào phiên bản 2000.
WinVNkey là chương tŕnh máy tính
đầu tiên cho phép người
dùng gơ tiếng
Việt trên Windows 3.0 – phiên
bản đầu tiên của hệ điều hành Windows sau MS-DOS. TriChlor – một nhóm phi lợi nhuận ủng hộ việc lấy VISCII làm tiêu chuẩn sử dụng thống nhất, đă thiết kế và cung
cấp WinVNKey miễn phí cho người dùng. Vào năm
2000, khi nhận ra tiềm năng
phát triển của Unicode, WinVNkey bắt đầu hỗ trợ tiêu chuẩn mă hoá này.
Về sau tác giả
Ngô Đ́nh Học, khi
ấy đang làm việc với Unicode và thiết kế tŕnh điều khiển bàn phím tiếng Việt cho Macintosh (là một ḍng sản phẩm máy tính cá
nhân được thiết kế, phát triển, và đưa ra thị trường
bởi Apple Inc), đă
tiếp quản dự án này.
Chương tŕnh này trở thành
một phần mềm cho phép
nhập liệu đa ngữ là kênh dẫn
cho hơn 30 ngôn ngữ quốc tế cũng từng gặp phải khúc mắc khi đưa vào máy tính.
Chương tŕnh cũng hỗ trợ kư tự
chữ Nôm và ngôn ngữ
dân tộc thiểu số Việt
Nam.
Ngang
tài ngang sức với WinVNKey phải kể đến hệ thống Vietkey khá phổ
biến. Vietkey được phát triển vào năm 1991 và phát hành vào
năm 1997 bởi Vietkey Group, một công ty có trụ
sở tại
Việt Nam thành lập
bởi Đặng Minh Tuấn – một kỹ sư trẻ của Bộ Quốc pḥng thời đó. Ban đầu, Vietkey là một
phần mềm miễn phí rồi sau đó
được thương
mại hoá cùng với các sản phẩm
khác của công ty. Vietkey hỗ trợ tiếng Việt, tiếng
Anh, tiếng Pháp, tiếng
Đức và tiếng
Nga và thậm chí c̣n có
cả một phiên bản tương thích với hệ điều hành Linux. Cũng giống với đội ngũ đằng sau WinVNKey, Đặng
Minh Tuấn ủng hộ
việc tạo dựng một tiêu chuẩn mă hóa kư
tự phổ cập để gơ tiếng Việt. Vào năm 1997,
Đặng Minh Tuấn và Vietkey đề xuất hỗ trợ Unicode, đến
năm 2000, họ đă điều chỉnh phần mềm này sao
cho chỉn chu hơn. Tuy nhiên, Vietkey vẫn có một yếu
điểm đối
với nhiều người: phần mềm này có
thu phí.
Phạm
Kim Long, lúc bấy giờ vẫn c̣n là một
sinh viên cao học tại
Prague, nhận thấy
nhu cầu cho một phần
mềm khác có thể truy
cập rộng răi và có
thể hỗ trợ Unicode ngoài Vietkey. Ông Long đă có ư tưởng
phát triển phần mềm phương thức nhập liệu của riêng ḿnh, và đă
cho phát hành Unikey vào
năm 2000. Bản rút gọn miễn
phí của phần mềm này hiện có mặt trên
khắp các máy tính ở Việt Nam. Ấp ủ ư tưởng
này từ năm 1991 khi ông và các
bạn cùng lớp tại Đại học Khoa học và Công nghệ Hà Nội thách đố nhau viết một chương tŕnh đánh máy tiếng Việt nhẹ nhất bằng ngôn ngữ Assembly. Ông Long đă chiến thắng với một chương tŕnh chỉ nặng 2 kilobyte được
gọi là LittleVNKey.
Tuy
nhiên, LittleVNKey không hỗ trợ Unicode. Năm 2000,
ông bắt tay thiết kế một chương tŕnh nhập tiếng Việt
với hỗ trợ Unicode, sau khi xem các
thảo luận trực tuyến về việc Windows 2000 có thể hỗ
trợ nhiều ngôn ngữ trong đó có
tiếng Việt. Ông
đă dành hai ngày để
lập tŕnh và phát hành
trực tuyến phiên bản đầu tiên của Unikey. Sau đó, ông đă
dành bốn tháng tiếp theo để nhận phản hồi và tinh
chỉnh phần mềm của ḿnh. Năm 2006, thông qua một người bạn
Việt Kiều, Phạm Kim Long đă đồng ư để
Apple quyền tích hợp phần mềm trong hệ điều hành của ḿnh. Unikey vẫn
là một phần mềm miễn phí và c̣n đang
hiện hành.
Mặc dù ông Long và
ông Tuấn là hai người được biết đến nhiều nhất trong hành tŕnh cho
tiếng Việt tương
thích với máy tính hiện
đại, sự phát triển của công nghệ đánh máy đa dạng
hơn nhiều và phản ánh
nhu cầu văn hóa xă
hội và lịch sử của một nhóm người khao khát kết nối với thế giới và với chính
cộng đồng của họ.
Hiện nay đă có khá
nhiều bộ gơ tiếng việt cho máy tính Windows/Linux để hổ trợ chúng ta dễ dàng mỗi
khi cần nhập văn bản bằng Tiếng Việt trên Word,
Chat, … Các bộ gơ này được tồn tại ở các phiên bản
có phí và
miễn phí mà đôi khi
bạn sẽ cảm thấy rất khó khăn
trong để có thể chọn
cho ḿnh bộ ứng dụng phù hợp như:
Tóm
lại, bộ gơ tiếng Việt là một chương
tŕnh máy tính loại phần mềm hỗ trợ soạn thảo văn bản bằng tiếng Việt
trên máy tính, thường cần phải có font kư tự
Chữ Quốc Ngữ
đă được
cài đặt trong máy tính.
Các bộ gơ tiếng Việt khác nhau sẽ hỗ
trợ một hay nhiều bảng mă và kiểu
gơ. Mỗi bảng mă quy
định việc thể hiện font chữ khác nhau và mỗi
kiểu gơ quy định việc viết dấu bằng các tổ hợp
phím khác nhau. Mỗi bộ gơ điều
có ưu nhược khác nhau.
Nếu nh́n nhận dưới góc độ Ergonomics Cvnss4.0 cũng là một
kiểu gơ hỗ trợ soạn thảo văn bản bằng tiếng Việt
nhằm đặt tới sự tối ưu hóa về tốc
độ, linh hoạt hơn trên thiết bị Smartphone, tốc kư hóa khi
ghi biên bản. Việc sử dụng Cvnss4.0 không phải để thay thế cho Chữ
Quốc Ngữ (chữ
Việt truyền thống),
mà tôi nghĩ
Cvnss4.0 là thêm một giải pháp hữu ích về mặt
công nghệ trong cải thiện hoặc hỗ trợ bổ khuyết nhằm tăng tính ưu việt
hơn nữa việc biểu đạt tiếng nói của dân
tộc Việt trên trường quốc tế.
(Xem
tiếp kỳ
3). KỲ 3. CHỮ VN SONG SONG 4.0 (Cvnss4.0) TRONG
BỐI CẢNH CUỘC CMCN 4.0
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/821783012569148/
-------------------
BÀI 7: CHỮ VN SONG SONG 4.0 TRONG BỐI
CẢNH CÁCH MẠNG CÔNG NGHỆ 4.0
(ngày 1-9-2022)
1. Cơ
duyên đến
với Chữ
VN Song Song 4.0 (Cvnss4.0)
Những
đầu năm
2012 tôi t́nh cờ biết đến Dự
án chữ tốc kư (CTK) qua Phương
pháp mới gơ tắt chữ
tiếng Việt [1] của tác giả
TRẦN TƯ B̀NH2; hồi đi học khi làm các bản đồ
trên Arcview GIS3,
trong lúc thao tác “làm
nhăn hiển thị tên địa
danh” cho các bản đồ
thường gặp
rất nhiều khó khăn v́
chưa có chức năng hiển thị dấu của chữ tiếng Việt.
Dự án này đă được
giới thiệu từ rất lâu qua Tạp chí công nghệ
eChip4 – một tờ báo công
nghệ lớn vào thời kỳ internet mới
được phổ
cập ở Việt Nam. Sau này, tôi biết nhóm tác giả TRẦN TƯ B̀NH và KIỀU TRƯỜNG LÂM5 mà hai nhà
nghiên cứu này đă đề
xuất Dự án gồm 3 thành phần: Chữ Quốc Ngữ
hiện hành, Chữ Việt Nhanh và Kư hiệu dấu.
Như vậy, Cvnss4.0 gần
10 năm sau! nhóm tác giả
đă được
ghi nhận khi được cấp Bản
quyền6 và hoàn chỉnh hơn về Cvnss4.0.
Nếu khai thác và xử
lư tốt th́ Cvnss4.0 sẽ
được ứng
dụng trong lĩnh vực máy tính rất
nhiều, nhất là trong bối
cảnh của Cuộc cách mạng công nghệ 4.0. Cvnss4.0 là hoàn toàn
không có dấu riêng biệt; không cần phần
mềm tiếng Việt;
nếu biết Chữ Quốc Ngữ
(CQN) th́ việc
học Cvnss4.0 rất dễ bởi quy tắt
của nó khá đơn giản, dễ hiểu và học
nhanh.
2. Cvnss4.0 trong bối cảnh Cách mạng công nghệ 4.0 (CMCN
4.0)
Cuộc
cách mạng công nghệ 4.0 (CMCN 4.0) [2]
được hiểu
ngắn gọn như sau: CMCN lần 1: Cơ
khí hóa; CMCN lần 2: Điện
khí hóa; CMCN lần 3: Tự
động hóa và CMCN lần 4: Số hóa. Số hóa
(Digitization) là quá
tŕnh chuyển đổi thông
tin trên giấy và các quy tŕnh thủ
công thành định dạng
kỹ thuật số. Số
hóa có tầm quan trọng rất lớn đối với việc quản lư, khai thác, xử
lư, lưu trữ và truyền
dữ liệu.
Thí dụ: Ta lấy công nghệ OCR7 để số
hóa trong việc đọc text
(chữ) ở file ảnh, đây là một công cụ scan kỹ thuật số chuyên nhận dạng các kư tự,
chữ viết tay, hay chữ đánh máy để
truyền tải kỹ thuật số dưới nhiều dạng tài liệu khác nhau: hóa
đơn, hộ chiếu, danh thiếp, tài liệu, … Tuy nhiên! phụ thuộc vào độ rơ nét của ảnh dùng, xử lư dấu tiếng Việt, nhận
diện mẫu
chữ – khó khăn nhất vẫn là chữ viết tay. Cvnss4.0 được
nhóm tác giả thiết lập là hệ thống kư hiệu có quy tắc
– nó giống như hệ thống định lư toán học trong môi trường
máy tính – là “bước đệm” trung gian để chuyển hóa những giá trị của chữ tiếng Việt hiện tại chưa được tối ưu sang hệ thống quy ước xă hội ở thế giới thực.
3. Ứng
dụng Cvnss4.0 đang
hướng đến
Hiện
nay! bắt đầu
đă có nhiều ứng dụng được tạo ra từ Cvnss4.0 [3],
[4], [5]. Tuy nhiên! Cvnss4.0 có tiềm năng vấn rất lớn – nhất là trong môi trường tương tác giữa con người –
máy tính (Human-Computer
Interaction).
3.1 Ngôn ngữ trị liệu – luyện trí nhớ
- Thứ nhất:
Quá tŕnh ghi nhớ từ
vựng, cụm từ và quy
tắc ngữ pháp đều thực hiện ở tế bào năo
của bạn. Các bài tập thể
dục trí năo từ Cvnss4.0 sẽ giúp rèn
luyện trí
nhớ tổng thể hàng ngày. Nhiều nghiên cứu đă chỉ ra rằng những
người học
song ngữ ít có nguy cơ
mắc bệnh
Alzheimer8 hơn. Nếu áp dụng Cvnss4.0 th́ sẽ có
thể cải thiện trí nhớ đáng kể.
- Thứ hai:
Nhằm làm tăng khả năng nhớ của bộ năo, nhiều nhà khoa học đă nghiên cứu và t́m
ra các phương
pháp ghi nhớ. Các phương pháp này hiện
nay được những
người tham gia cuộc thi trí nhớ
thế giới sử dụng thuần thục. Bất cứ ai cũng có thể
sở hữu trí nhớ gần
như hoàn hảo nhờ luyện tập phương pháp mă hóa. Nguyên tắc căn bản giúp con người tăng cường trí nhớ là mă hóa những chủ thể khó nhớ
(ví dụ như số điện thoại, tên người, công thức toán) thành những chủ thể dễ nhớ đối với năo người (ví dụ như
h́nh ảnh, địa điểm, cảm xúc). Cvnss4.0 cũng được thiết kế dựa trên phương pháp mă hóa.
- Thứ ba: Cvnnss4.0 ước tính giảm được gần 30% thời gian gơ; với
những người
có các cơn
đau liên quan đến máy tính (bệnh RSI)9 th́
gần 30% là rất nhiều. Một giờ gơ phím liên
tục sẽ chỉ c̣n 40-45 phút, 5 giờ gơ phím liên
tục chỉ c̣n 3 giờ, v.v. Tất nhiên! con số 30% này cần được xác minh thêm
– và ngay cả như vậy – hiệu quả của nó với việc
giảm thiểu các vấn đề
về RSI cũng cần được khảo sát kỹ.
3.2 Ngôn ngữ kư hiệu
mật mă
Trong mật
mă học ta thấy việc “chuyển vị
Caesar” là một trong những kỹ thuật mă hóa đơn giản, phổ biến nhất và có
lịch sử lâu đời nhất. Đây là một dạng mật mă thay thế,
trong đó mỗi kư tự
trên văn
bản thô sẽ được thay bằng một kư tự
khác, có vị trí cách
nó một khoảng được
xác định trong bảng chữ cái; các quy tắc
thay thế chữ cái đơn trong bảng chữ cái tiếng Anh qua việc sử dụng 26 mật
mă Caesar10 với
các bước dịch chuyển từ 0 đến 25 – tương ứng từ chữ ‘a’ đến chữ ‘z’.
Nếu ai biết Chữ Quốc Ngữ
(chữ tiếng Việt) th́ sau khi
học thêm Cvnss4.0 sẽ khá hữu
ích trong việc ứng dụng các mật mă dùng tiếng Việt hoàn toàn.
Thí
dụ: Mă
Capcha11 được máy tính tạo
ra để xác định tính “con người”,
chủ yếu là reCaptcha và noCaptcha. Khi phải dừng lại để xác minh mă
Captcha th́ có rất nhiều người cảm thấy phiền phức nhất là người
Việt. Việc Cvnss4.0 được dùng trong việc xác định từ/cụm từ sẽ rất hữu ích v́ việc
chuyển đổi
nhận dạng CQN-Cvnss4.0 –
và ngược lại – sẽ giúp ta chống lại việc spam, bảo vệ cho dữ liệu,
tính chân thực trong tương tác giữa người và máy tính.
Hay như! Private
Key hoặc Seed Phare là chiếc ch́a khoá giúp
bạn truy cập vào cánh
cổng đó và tương tác với tài
sản của bạn trên ví điện tử. Những cụm từ – đôi khi trở
nên vô nghĩa
và bạn không nhớ chính xác – dẫn
đến mất luôn ví điện tử mà tài sản
của ḿnh chứa trong đó. Do vậy! CQN-Cvnss4.0 –
và ngược lại – sẽ giúp bạn dễ nhớ nếu có lỡ
quên từ khóa bí mật.
3.3 Hỗ trợ cuộc sống cho người khiếm thị
Ngày
nay, việc áp dụng công nghệ OCR đă được tích hợp với công nghệ tổng hợp giọng nói (giọng máy) giúp máy có
khả năng đọc hiểu văn bản. Có thể thông
qua Cvnss4.0 để cải tiến chữ Braille12 cho người khiếm thị dùng được dễ dàng hơn.
Nói cách khác, văn bản không chỉ được phần
mềm máy tính giải mă, mà c̣n
được công cụ tổng hợp giọng nói đọc ra thành tiếng. Giọng nói vi tính hóa đă được ứng dụng vào việc đọc văn bản giúp người cao tuổi, người khiếm thính đọc sách, báo khiến cuộc sống của họ trở nên nhẹ
nhàng hơn; hoặc giúp nhân bản được chính giọng nói của ḿnh trong các ứng
dụng để phục vụ cho các ngành
dịch vụ, truyền thông và tiếp thị
qua việc xử lư chuyển đổi ngôn ngữ và giọng
nói cá nhân.
3.4 Bảo tồn các văn bản
có giá trị
của các dân tộc
Tại
các bảo tàng, thư viện cổ hay các trung tâm
văn hóa lịch sử, người ta cần lưu trữ rất nhiều tài liệu, hồi kư, bản
thảo, …; các tài liệu này rất dễ
bị mối mọt theo thời gian. Quá tŕnh lưu
trữ cần rất nhiều thời gian, công sức và không hề
đơn giản. Việc sắp xếp, lưu trữ hoặc t́m kiếm thủ công – với lượng văn bản giấy khổng lồ – là vô
cùng vất vả và tốn
nhiều nhân lực thực hiện. Tuy nhiên! Cvnss4.0 ra đời đă giúp giải
quyết bài toán đó một
cách đơn giản hơn thông qua việc chuyển đổi ngôn ngữ theo một quy chuẩn nhất định. Các văn bản, tài liệu quan trọng được chuyển
đổi từ dạng giấy sang file
mềm. Giúp việc lưu trữ và bảo
tồn nhiều di sản văn học/văn hóa của các
dân tộc trở nên dễ
dàng hơn. Trong số 27/54 dân tộc đă có chữ viết
th́ cũng c̣n nhiều chữ viết chưa được mă hóa, chưa
có font chữ và bộ gơ
trên máy tính. Không có
chữ viết và font chữ th́ rất khó
để bảo tồn và duy
tŕ ngôn ngữ đó, không quảng bá được trên Internet…
Cvnss4.0 sử dụng các kư tự Latin và sử dụng các tổ hợp kư tự
tiếng Việt nên
có thể tạo ra các
kư tự chữ viết cho ngôn ngữ
của các dân tộc, nhằm hạn chế tạo ra font chữ và bộ gơ
mới. Vấn đề này cần có sự
phối hợp giữa các nhà ngôn ngữ
học và chuyên gia xử
lư ngôn ngữ tự nhiên (natural language processing – NLP).
4. Cơ hội và thách
thức của
Cvnss4.0
4.1 Công nghệ
Blockchain
Blockchain hiện là một
công nghệ mới và sáng
tạo có tiềm năng thay đổi cách chúng ta tương
tác với internet và thế giới
kỹ thuật số. Ở dạng đơn giản nhất, Blockchain là
một cơ sở dữ liệu phân tán cho phép
thực hiện các giao dịch
an toàn, minh bạch và chống
giả mạo, có nghĩa là
thông tin có thể được lưu trữ trên blockchain và
được chia sẻ
trên một mạng máy tính mà không
cần cơ quan tổ chức
nào hoặc người trung gian bên thứ
3.
Ví
dụ: Hợp
đồng thông minh có thể được sử dụng để tự động thực hiện các thỏa thuận khi đáp ứng
các điều kiện nhất định, theo đó việc thực thi có thể diễn
ra mà không
cần bất kỳ sự can thiệp nào của người dùng. Trong suốt quá tŕnh hoặc
tại các điểm tiếp xúc chính trong
quá tŕnh triển khai, dữ liệu được lưu trữ trên blockchain cũng có thể
được phân tích bằng cách sử dụng
các thuật
toán NLP để
trích xuất những thông tin chi tiết có giá
trị. Cuối cùng, sử dụng Bockchain và NLP cùng nhau có thể
giúp bảo vệ quyền riêng tư.
4.2 Các ứng
dụng & Trường hợp sử dụng của việc kết nối blockchain-NLP từ
Cvnss4.0
4.2.1 Trên diện toàn cầu! để có cơ hội
có thể giúp lưu trữ
hồ sơ tốt hơn và xác minh
dữ liệu đáng tin cậy hơn, Blockchain giúp
tạo ra một hệ
thống lưu trữ hồ sơ an toàn và không bị
thao túng hoặc can thiệp. Ví dụ: Khi bạn tạo các hợp đồng thông minh Ethereum13, tức
là bạn đang viết một đoạn code
backend cho Dapp
(một mạng phi tập trung) bằng ngôn ngữ dành riêng cho Ethereum –
chẳng hạn như Solidity, Serpent, Vyper.0 có thể được
xem là ngôn ngữ riêng biệt trong hợp đồng thông minh (smart contract) của cấu trúc Dapp (frontend + smart contract backend).
4.2.2 Cvnss4.0 có
tiềm năng dành cho công
nghệ blockchain khi
được sử
dụng kết hợp trong NLP để tạo điều kiện cho các hợp
đồng thông minh bằng nội dung mà Cvnss4.0 đính kèm theo. Các
hợp đồng này sẽ cho
phép có tính
kinh tế theo quy mô
và tăng độ chính xác khi thực
hiện các thỏa thuận giữa nhiều bên mà giúp
đảm bảo rằng tài sản trí tuệ
được bảo
vệ và quản lư một
cách hợp lư.
4.2.3 Cuối cùng! Cvnss4.0 – được
ứng dụng trong cả công nghệ
blockchain và NLP – có
thể được
sử dụng kết hợp với nhau để tạo ra các ứng
dụng phi tập trung mới (dApps) có ngôn ngữ giao tiếp riêng. Các ứng dụng này – sẽ hoạt động ngoài tầm kiểm soát của bất kỳ bên nào hoặc
tổ chức nào – cung cấp
một cách để người
dùng kiểm soát dữ liệu
của họ. Nếu việc này không cẩn
trọng th́ sẽ rất nguy hiểm v́ Cvnss4.0 sẽ
bị kẻ xấu lợi dụng và bị xem như
ngôn ngữ trong môi trường Web xấu (Dark
web).
5. Kết luận
Có
thể thấy, v́ Dự án Cvnss4.0 là một nỗ lực cải cách chữ viết của nhóm tác giả
– không dựa trên một lập luận ngôn ngữ học nào – mà dựa trên
những mong muốn
rất phi ngôn ngữ học tức là viết không dấu và tối ưu hóa bằng mọi giá, nên hóa ra
nó lại có thể là
một gợi
ư quan trọng cho các dự
án về công nghệ trong việc tận dụng sự cải cách chữ viết này, như tiếp tục cải tiến các bộ gơ như VNI hay Telex trên các thiết
bị di động
smarphone, trong một số trường hợp bắt buộc phải sử dụng tiếng
Việt không dấu và Cvnss4.0 trở
thành một lợi thế trên môi trường
máy tính. Việc thay đổi nhận
thức xă hội phải có thời gian
và lộ tŕnh cụ thể cho từng dự án cộng đồng được ứng dụng cụ thể – từ đó, Cvnss4.0 sẽ
được phát huy tính hiệu
quả của nó.
CHÚ GIẢI
1: Long Ngo: Tên thật là NGÔ HOÀNG ĐẠI LONG – hiện đang là Nghiên cứu viên tại Phân hiệu Đại học Quốc gia-TP.HCM tại tỉnh
Bến Tre, có nhiều công tŕnh khoa học – được công bố trên Scopus & WoS – liên quan đến hướng nghiên cứu của ḿnh về Địa lư ngôn ngữ, nhất là các Ứng dụng của xử lư ngôn ngữ
tự nhiên (Natural
Language Processing – NLP) trong GIScience. (Facebook: Long Ngo – https://www.facebook.com/dailong0606 ,
Email: ngohoangdailong@gmail.com)
H́nh: Lớp học cách xây dựng
các Ứng dụng phi tập trung từ Blockstack/Stack 2018
(Tác giả
Long Ngo mặc áo đỏ, ngồi ở
hàng ghế nh́)
2: TRẦN
TƯ B̀NH (1954, Đà Nẵng – hiện đang sống tại thành phố Sydney, Úc). Ông tốt nghiệp Trường
Cao đẳng Sư
phạm Tiểu Học
Đà Nẵng (năm 1974), Trường Đại học Tổng hợp Tp.HCM (năm 1977) chuyên ngành Ngữ Văn. Ông
là Giáo viên Văn tại Trường
Trung học Phổ thông cấp 3 Lư Thường
Kiệt, Tp.HCM (từ
1977-1980). Ở Úc, ông
làm việc tại Bưu
Điện Úc (từ 1982 đến nay
/2022) và dạy
thêm Việt ngữ ở Liên
Trường Văn hóa Việt Nam- Sydney (từ 1986-2016) vào cuối tuần. Ông phụ trách Quản
trị trang mạng Chữ
Việt Nhanh (http://chuvietnhanh.sf.net).
H́nh: Cvnss4.0
& Đồng tác giả TRẦN TƯ B̀NH – KIỀU TRƯỜNG
LÂM
3: Arcview GIS là phần mềm thương mại (của
ESRI) về hệ
thống thông tin địa lư (GIS) giúp: Hiển thị các lớp bản
đồ dạng
vector, Tạo và thay đổi cơ sở dữ liệu của các đối
tượng địa
lư trên bản
đồ, Tạo các biểu đồ đơn giản dựa trên thuộc tính của các đối tượng trên bản đồ, Chuẩn bị các bản in ra giấy, Tạo các đoạn
chương tŕnh phục vụ cho việc tự động hóa các thao
tác phần mềm, Đọc các định dạng ảnh khác, Tạo các hộp thoại (giao diện đồ họa người sử dụng), v.v…
4: Echip là tạp chí về
công nghệ thông tin ở Việt Nam, ra đời vào tháng 2/2003 trực thuộc Bộ Thông tin Truyền
thông. Echip có 3 loại báo tuần: e-CHÍP
Tin học trong tầm tay (phát hành vào
thứ 6), e-CHÍP Đọc
xong vọc liền (phát hành vào thứ
3), e-CHÍP Mobile (phát hành vào thứ
4). Sau 13 năm hoạt
động, Echip đă dừng phát hành báo giấy và chuyển sang hoạt động theo dạng báo điện tử từ ngày 1/5/2016.
5: KIỀU
TRƯỜNG LÂM (1986, Tuy Ḥa, Phú Yên – hiện đang sống tại Hà Nội). Ông tốt nghiệp Cử nhân Quản
trị Kinh doanh –
chuyên ngành Marketing tại Trường Đại
học Kinh Tế, Huế và làm việc ở ngành Mậu dịch quốc tế. Ông và TRẦN TƯ B̀NH là Đồng tác giả Dự
án Chữ Việt Nam
Song Song 4.0.
6: Giấy Chứng
nhận Đăng kư Quyền Tác phẩm số
1850/2020/QTG do Bộ Văn hoá Thể thao
và Du lịch, Cục Bản Quyền cấp ngày 25/3/2020.
7: Công nghệ OCR (Optical Character
Recognition) – công nghệ
nhận dạng kư tự quang
học là ứng dụng công nghệ chuyên dùng để
đọc text ở file
ảnh.
8: Bệnh Alzheimer (AHLZ-high-merz) – là bệnh lư về năo – tác động đến trí nhớ, suy nghĩ và hành
vi. Bệnh Alzheimer không phải là bệnh lăo
khoa thông thường
hoặc bệnh thần kinh. Bệnh Alzheimer chiếm
khoảng 60-80% trong những bệnh làm suy giảm
trí nhớ. Hội chứng suy giảm trí nhớ là thuật ngữ tổng quát về việc mất trí nhớ và các khả năng tư duy đến mức nghiêm trọng có thể gây trở
ngại cho cuộc sống thường ngày.
9: Bệnh RSI (Repetitive
strain injury) là hội
chứng bệnh nghề nghiệp –
chấn thương
do căng lặp lại – thường gặp ở người
phải gơ bàn phím máy
vi tính, phải đẩy ‘chuột’
nhiều lần trong ngày.
10: Mật mă
Caesar là kỹ
thuật mă hóa đơn giản và phổ
biến nhất. Mật mă
Caesar thay thế
kư tự trên văn bản
thô bằng một kư tự
khác có vị
trí cách nó một khoảng
xác định tuỳ chọn trong bảng chữ cái. Ví dụ: với
độ dịch chuyển là 3, D sẽ trở thành A, E sẽ trở thành B, …, v.v.
Tên Caesar của
kỹ thuật mă hóa này
được đặt
theo tên của JULIUS CAESAR (vị
tướng La Mă đă sử dụng nó trong
các thư từ bí mật).
11: Mă Capcha (Completely
Automated Public Turing test to tell Computers and Humans Apart) là Phép thử tự động để phân biết máy tính với
con người. Mă
Captcha ra đời
nhằm hạn chế các phần
mềm tự động gây hại đến các trang web, trang dịch vụ. Mă
Captcha thường là các chữ,
số bị làm biến dạng hay sắp xếp lộn xộn để trở nên khó
đọc nhằm làm chậm thời gian truy cập. Mă Captcha được
thiết kế để xác nhận thao tác đúng bởi con
người (tỷ lệ 80%) hay robot (0.1%).
Mă
reCaptcha là những h́nh chụp, bản scan từ đời thật. Người sử dùng cần
nhận dạng và xác nhận
một số h́nh theo yêu
cầu của mă reCaptcha.
Mă
noCaptcha là
phiên bản cải tiến của mă reCaptcha. Mă noCaptcha chỉ yêu cầu đơn
giản là bạn cần kích chuột vào ô “không phải robot” nhằm giúp hệ thống
phân tích hành vi của bạn và nếu
có nghi ngờ
việc kích chuột diễn ra tự động
th́ các mă Captcha hoặc mă reCaptcha sẽ hiện ra để yêu cầu thực
hiện thêm bước xác thực..
12: Chữ Braille – được LOUIS BRAILLE phát
minh (năm
1821) – là hệ thống chữ nổi giúp người mù, người khiếm thị sử dụng. Mỗi chữ Braille được
tạo thành từ 6 nốt nổi/ch́m nhằm tạo ra một bộ
64 (26) kiểu tổ hợp nốt – mỗi kiểu thể hiện một kư tự có
thể giúp nhận dạng bằng cách sử dụng ngón tay rờ
mà ‘đọc’ được chữ.
13: Hợp đồng
thông minh Ethereum (HĐTM,
Smart Contract) được NICK
SZABO mô tả lần đầu tiên vào những
năm 1990. HĐTM là công cụ
để chính thức hóa và bảo mật
mạng máy tính khi giao
dịch bằng cách kết hợp các giao
thức với giao diện người dùng mà không cần
dựa trên sự tin cậy – hai bên trong
hợp đồng có thể đưa
ra các cam kết thông qua blockchain mà không cần
phải biết nhau hoặc tin tưởng lẫn nhau – song vẫn đảm bảo nếu các điều
kiện của hợp đồng không được thỏa măn th́ sẽ không
được thực
thi… Tuy nhiên! HĐTM thực chất không phải là một hợp đồng
pháp lư. HĐTM không cần bất cứ các bên trung
gian nào và giúp giảm
đáng kể chi phí hoạt động, chi phí hành chính.
HĐTM là Ứng dụng chạy trên blockchain và
được sử
dụng trong nhiều lĩnh vực khác nhau: các hệ thống tín dụng, xử lư thanh
toán, quản lư bản quyền
nội dung, v.v…. HĐTM giống như Hợp đồng
kỹ thuật số đươc
thực hiện bởi một bộ quy tắc cụ thể – các quy tắc này
được code của
máy tính xác định trước; và tất cả các node trong mạng có thể sao chép
và thực thi các quy
tắc đó. Giao
thức Bitcoin đă
hỗ trợ HĐTM trong nhiều năm qua và đặc biệt hữu ích trong
các việc chuyển/trao đổi tiền giữa hai/nhiều bên. Hệ thống HĐTM có thể tạo
ra các tài
sản được token
hóa, các hệ thống bầu chọn, ví tiền mă hóa, các sàn giao dịch phi tập trung, các tṛ chơi và ứng dụng di động;
mặt khác, cũng có thể
kết hợp HĐTM với các giải pháp blockchain khác như chăm sóc sức khỏe, từ thiện, chuỗi cung ứng, quản trị, tài chính phi tập trung (DeFi).
Tài liệu tham khảo
[1]. TRẦN TƯ B̀NH. Cách gơ
tắt chữ Việt không dấu. http://chuvietnhanh.sourceforge.net/CachGoTatChuVietKhongDau.htm
[2]. The Fourth Industrial Revolution.
[3]. KIỀU TRƯỜNG LÂM & TRẦN TƯ
B̀NH. Công
thức CHỮ VN SONG SONG 4.0 và Ví dụ. http://chuvietnhanh.sourceforge.net/CongThucChuVNSongSong4.0VaViDu.htm
[4]. KIỀU TRƯỜNG LÂM & TRẦN TƯ
B̀NH. Chữ VN Song Song 4.0.
http://chuvnsongsong.com/
[5]. KIỀU TRƯỜNG LÂM & TRẦN TƯ
B̀NH. Hướng
dẫn gơ nhanh chữ Việt trên máy vi tính bằng Kiểu
gơ CVNSS4.0 với Bộ gơ Evkey. http://chuvietnhanh.sourceforge.net/GoNhanhChuVietTrenMayViTinhBangKieuGoCVNSS4.0VoiBoGoEVKey.htm
Long Ngo
Nguồn: https://vietnamhoc.net/chu-vn-song-song-cvnss4-0-trong-boi-canh-cach-mang-cong-nghe-4-0/
-------------------
BÀI 8: CHỮ VN SONG SONG 4.0 VỀ MẶT
NGÔN NGỮ
(ngày 6-9-2022)
Ngôn ngữ là phương tiện
giao tiếp chính của con người, có thể tồn tại ở dạng lời nói, kư hiệu hoặc
chữ viết.
Ngôn ngữ gồm: ngôn + ngữ, trong đó: ngôn: lời lói, tiếng nói; c̣n ngữ là
biểu hiện dưới dạng mă hóa và
giải mă theo cách trực
quan nhằm lưu trữ thông tin và chuyển
giao tin nhắn dưới dạng chữ viết hoặc kư tự/kư hiệu. Như vậy, ngôn ngữ là dựa
trên quy ước xă hội.
Trong
phạm vi chủ đề này, tôi xin bàn
về hệ thống “chữ viết” của Cvnss4.0, nhằm làm sáng tỏ những
hoài nghi hoặc hiểu lầm trong các tranh luận
trước đây sau khi nhóm
tác giả công bố và
được cấp
bản quyền theo văn bản
pháp lư [850/2020/QTG] đă gây tranh
căi lớn trên mạng xă hội từ
tháng 3/2020 đến
nay, vẫn c̣n “nóng”.
(i) Mặc dù,
nhóm tác giả đă chia sẻ quan điểm
không có ư định cải
tiến Chữ
Quốc Ngữ, mà
tôi rằng đây là “giải pháp hữu ích” trong việc gia tăng thêm
giá trị Chữ Quốc Ngữ trong bối cảnh Cách mạng công nghệ 4.0 hiện nay trên nhiều môi trường trong đó có
môi trường “số hóa”,
phục vụ cho “chuyển đổi số” hiện nay.
Ví dụ: tập tin HEX khi mă hóa
cụm từ “Chữ Quốc Ngữ” sẽ là
43681EEF2051751ED163206E671EEF, nhưng trong môi trường
máy tính biểu hiện ra sẽ là
“Ch‑ï Qu‑Ñc ng‑ï”. Nhưng Cvnss4.0 “Chữ
Quốc Ngữ” sẽ
là “Chuw Qocb wuw”, và
từ đây chuyển ra Chữ Quốc Ngữ sẽ dễ dàng hơn. Do Cvnss4.0 tuân thủ đúng theo quy định ASCII. Trong khi, bảng mă ASCII Tiếng Việt hiện cũng c̣n khá rối
rắm.
(ii)
Khi nói đến chữ viết chúng ta sẽ thấy có rất
nhiều chữ hiện nay đang tồn tại ở
Việt Nam như: khi
nói tiếng Pāli (पाळि)
(Phật giáo Nam Tông) - không có
chữ viết đi theo, nhưng
để biểu đạt có nhiều chữ viết trong đó chữ Chữ Khmer (không có thanh điệu),
bản thân chữ này lại
xuất phát từ chữ Pallava, chữ Brahmi. Nếu bạn muốn học tôi nghĩ
có khi cả
đời không hiểu hết, chưa kể hiện nay c̣n có Việt Khmer, Trung Khmer…
Trong
khi đó, Tiếng Việt sử dụng bảng chữ cái Latin có có hệ
thống thanh điệu phức tạp. Cho nên, nói Cvnss4.0 không có thanh điệu
là chưa phù hợp. Khi nói chữ viết
có thanh điệu hay không có thanh điệu
không phải biểu hiện về mặt tối ưu và tối giản
của chữ viết trong việc truyền tải thông tin.
(iii)
Tiếng Việt là một ngôn ngữ mẹ đẻ mà người ta thừa hưởng từ khi vừa được
sinh ra và
kéo dài liên
tục trong thời thơ ấu. Chính nhờ vậy mà dân tộc
ta không bị đồng hóa. Cả nước hiện nay chỉ mới có 27/54 dân tộc có
đầy đủ
tiếng nói và chữ viết
bản địa và chỉ có
dân tộc Hoa, Chăm, Khơ-me là có sẵn
tiếng nói và chữ viết
riêng của họ.
Chữ viết tiếng Việt
của chúng ta hiện nay là Chữ Quốc Ngữ, bộ chữ hiện dùng để ghi lại tiếng Việt dựa trên các bảng chữ cái của
nhóm ngôn ngữ Rôman với nền tảng là kư
tự Latinh.
Như
vậy, Cvnss4.0 dựa
trên nền tảng Chữ Quốc Ngữ nhằm phát triển song song trên nhiều
môi trường khác nhau (trong
đó có môi trường kỹ thuật số), nhằm tăng giá trị
biểu đạt, trực quan hóa, phát huy
bản sắc riêng về văn hóa tiếng
Việt thay v́ chủ ta phải chủ động lệ thuộc quá nhiều vào tiếng Anh, tiếng Việt có dấu hiện nay.
Ví dụ: tên gọi
của ḿnh theo tiếng Anh viết như thế nào cho
đúng, hay như giao dịch ngân hàng, bưu
điện, ... tất
cả điều không dấu, vậy có chuẩn
chung không? Hay như phiên âm tiếng nước ngoài...
(iv)
Hướng đến
sự tối giản hóa để đạt đến tính ưu việt, dễ dàng, linh hoạt nhằm đơn giản hóa ư nghĩ và giao
tiếp: Toki-Pona, Esperanto, Interlingua, Quenya, Volapük… Như vậy, khi một ngôn ngữ nào phát
sinh, không suy nghĩ trước
trong năo bộ của con người, không nhất thiết phải tuân thủ của “ngôn ngữ tự nhiên" mà Cvnss4.0 tuân thủ theo “ngôn ngữ xây dựng” và ngôn ngữ
h́nh thức hay ngôn ngữ thông tin, nó khác
với ngôn ngữ giao tiếp thường nhật.
Ví dụ: Interlingua hay tiếng
Khoa học Quốc tế
(mă ngôn ngữ ISO 639 ia, ina) là một
ngôn ngữ phụ trợ quốc tế (IAL), được Hiệp hội Ngôn ngữ Phụ trợ Quốc tế
(IALA) phát triển từ năm 1937 và 1951. Đây là ngôn ngữ
phụ trợ quốc tế được sử dụng rộng răi thứ hai
hoặc thứ ba, sau Esperanto và sau là
Ido, và là ngôn ngữ phụ trợ tự nhiên được sử dụng rộng răi nhất, nói cách khác,
từ vựng, ngữ pháp của nó và
các đặc điểm khác là phần lớn
bắt nguồn từ ngôn ngữ
tự nhiên. Ban đầu, cũng có rất nhiều
tranh căi về nó. Do vậy, Cvnss4.0 cũng giống như “Lingua
franca” (c̣n gọi là ngôn ngữ
cầu nối/hỗ trợ/đi làm/du lịch) là “dạng ngôn ngữ phái sinh”, một cách hệ thống,
dùng để giao tiếp.
Tóm
lại, hiện tượng khúc xạ trong ngôn ngữ, giao thoa, cải
biên... là điều b́nh thường trong tiến tŕnh của một ngôn ngữ. Để giữ được bản sắc riêng của ḿnh, tôi lấy ví
dụ ngôn ngữ của Nhật Bản rất phức tạp, những họ vẫn tôn trọng
tôn trọng sự sáng tạo
cá nhân và
giữ ǵn nó để trở thành một cường quốc.
Ǵn giữ được sự trong sáng của tiếng Việt là giữ ǵn được
nền tảng văn hóa ngôn
ngữ Việt Nam mà
Cvnss4.0 đă đạt
được thống
nhất trong quy ước, có quy luật
và nguyên tắc sử dụng riêng. Nh́n sang các nước
khác trong khu vực, như Nhật Bản từng chịu ảnh hưởng sâu đậm của Hán văn, nhưng họ vẫn giữ được bản sắc văn hóa của riêng
ḿnh, ngôn ngữ của họ rất phức tạp có đến 3 bộ vần đó là: higarana
và katakana biểu âm; bộ kanji dựa trên chữ Hán biểu ư. Ngoài ra, c̣n
có tiếng Nhật
Romaji là cách để tiếng
Nhật được lan
tỏa rộng trong cộng đồng và ra thế giới.
Long
Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/829485318465584/
-------------------
BÀI 9: CVNSS4.0 - THUỘC NHÓM CÁC NGÔN NGỮ IAL?
(ngày 8-9-2022)
Chữ VN Song
Song 4.0 (Cvnss4.0) dưới
góc độ t́m hiểu của tôi được
xem là ngôn
ngữ được
xây dựng (constructed
languages) thuộc nhóm
các ngôn ngữ "auxiliary" nghĩa
là bổ trợ song song cho một mục
đích nào đó về văn hóa, thiết
kế và nghệ thuật… mà thế giới
phân loại, tồn tại hiện nay khoảng 40 ngôn ngữ như thế. Các ngôn ngữ bổ trợ quốc tế (IAL -
International auxiliary language) là các ngôn ngữ
được xây dựng để cung cấp giao tiếp dễ dàng, nhanh chóng hơn
hoặc được
cải thiện giữa các đối tượng giao tiếp hoặc một phần đáng kể, mà không
nhất thiết phải thay thế ngôn ngữ mẹ đẻ ḿnh [Otto Jespersen,
1908]
Trong 11 ngôn ngữ
sau đây tôi thử làm
phép phân tích để thấy được giá trị lợi
ích mà Cvnss4.0 mang lại.
1) Esperanto (L. L. Zamenhof, 1887) là
một bác sĩ nhăn khoa tạo ra;
2) Volapük (Johann Martin
Schleyer, 1879) là mục
sư tạo ra;
3) Ido (Louis Couturat, 1907) khởi xướng là tiền thân
của chữ Novial sau này;
4) Interlingua (IALA, 1951) một
tổ chức có tên là
Hiệp hội Ngôn ngữ Phụ trợ Quốc tế Hoa Kỳ tạo ra;
5) Kotava, (Staren Fetcey, 1978)
6) Interlingue (Edgar de Wahl,
1922)
7) Lingua Franca Nova (C. George Boeree, 1965)
8) Novial (Otto Jespersen,
1928)
9) Lojban (LLG, 1987), sau này là Loglan
10) Toki Pona (Sonja Lang, 2001)
11) Klingon (Marc Okrand, James
Doohan, Jon Povill, 1985)
Có những
ngôn ngữ như Esperanto (Quốc tế
ngữ) có số lượng người dùng rất cao gần
200,000 người dùng.
Có thể thấy như: các ngôn ngữ
này điều được sáng tạo ra từ
bằng việc cải tiến bảng chữ cái Latinh, nhằm
để đơn
giản hóa suy nghĩ và
giao tiếp (Toki
Pona); giao tiếp giữa những người thuộc các nền tảng
ngôn ngữ khác nhau, như
một phương tiện dịch máy tiềm năng và như
một công cụ để khám phá sự
giao thoa giữa ngôn ngữ của con người và phần mềm (Lojban,
1987); hay như các từ vựng được tạo ra ngôn ngữ
Đức và Roman, ngữ
pháp của nó bị ảnh
hưởng bởi tiếng Anh (Novial, 1928). Hoặc chỉ để tạo hệ thống ngữ pháp cực kỳ đơn giản và dễ học
(Lingua Franca Nova, 1965) …
Cvnnss4.0 có tính
kế thừa như: Toki Pona, Lojban, Nova nếu
xét trên các đặc tính trên.
Theo lư thuyết
ngôn ngữ Sapir-Whorf,
điều này có tầm quan
trọng lớn hơn nhiều, có một vai
tṛ quan trọng hơn nhiều khi tổ chức, suy nghĩ hoặc
thậm chí nhận thức thế giới. Do vậy, để kiểm tra ảnh hưởng của ngôn ngữ đối với suy nghĩ
của người nói, lư thuyết
này chỉ ra rằng vai
tṛ của (hoàn cảnh địa lư, bối cảnh văn hóa) khi
đưa ra một khuôn khổ để xây dựng nhận thức của chúng ta và để chúng ta có khả
năng quan sát về thế
giới trong phạm vi được
áp đặt bởi xă hội.
Điều này, giúp ta khẳng định bạn không thể giải thích sự vật, hiện tượng bằng các ngôn ngữ khác bởi mỗi ngôn ngữ có các
thuật ngữ và khái niệm
riêng của nó.
Ví dụ:
khi nói về
con nước của
người miền
Tây (nước rong, nước ṛng, nước lớn, nước kém, …). Hay như, thuật ngữ “umami” trong khái niệm tiếng Nhật đề
cập đến một hương vị bắt nguồn từ nồng độ
glutamate và đối
với các ngôn ngữ khác không có
bản dịch cụ thể, rất khó để
mô tả.
Ở khía cạnh
nào, Cvnss4.0 có mô-tip khá giống
với Loglan
(http://www.loglan.org/?fbclid=IwAR2SWDNg3cBEk2uBlxkDDvHRvOpT2c4J7OdnsozfR4oWVDgW5yPqst-pZfE)
Tóm lại, việc xuất hiện thêm Cvnss4.0 cũng phù hợp
với tiến tŕnh chung của
các ngôn ngữ được xây dựng trên thế giới. Vấn đề bây giờ làm sao
để khai thác hiệu quả mà các
tính năng Cvnss4.0 mang lại.
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/830803431667106/
-------------------
BÀI 10: CHỮ QUỐC NGỮ
TRONG TIẾN TR̀NH LỊCH SỬ DÂN TỘC
(ngày 15-9-2022)
Chữ Latinh là loại văn tự chữ cái được sử dụng rộng răi nhất trên thế giới hiện nay. Chữ
Quốc Ngữ là
tập hợp các chữ cái
Latinh và dấu phụ được dùng cùng với các chữ cái
đó để viết tiếng
Việt. Như vậy, thông qua việc thêm dấu phụ lên các
chữ cái có sẵn, ghép
nhiều chữ cái lại với
nhau, sáng tạo ra chữ
cái mới hoàn toàn hoặc
gán một chức năng đặc biệt do một bộ đôi hoặc bộ ba chữ
cái. Vị trí của các
chữ cái mới này trong
bảng chữ cái có thể
khác nhau, tùy thuộc từng ngôn ngữ.
Bảng chữ cái Latinh
đầu tiên chỉ có 21 chữ cái thiếu
đi /J/, /G/, /Y/, /Z/, /W/. Do sự phát triển
của từng ngôn ngữ của từng quốc gia mà có sự
bổ sung biển đổi cho phù hợp như:
trong tiếng Đức
người ta thêm dấu umlau trong các chữ
cái ⟨ä⟩, ⟨ö⟩, ⟨ü⟩ của
tiếng Đức.
Chữ Quốc
Ngữ giai
đoạn mới h́nh thành, trên
chặng đường
lịch sử hàng trăm năm chỉnh lư, bổ sung và phát triển
nhưng chưa đủ phổ biến để coi là văn
tự chính thức măi cho đến 1880, các văn kiện
chính thức được dùng Chữ Quốc Ngữ, có lẽ cụ
Trương Vĩnh Kư
đă có công trong việc
truyền tải chữ này qua nhiều tác phẩm mà ngày
nay chúng ta mới có dịp thưởng
lăm, ví như:
Truyện thơ Lục Vân Tiên.
畧畑䀡傳西銘
(Trước đèn xem chuyện
Tây Minh)
Đến những năm thời kỳ đầu 1900s, th́ cả nước bắt đầu cùng học Chữ Quốc Ngữ Latinh. Như vậy, để thể hiện tiếng Việt,
người ta dùng phương pháp kư âm tiếng
Việt bằng chữ
cái Latinh, đó là việc
chuyển thể việc nói tiếng Việt trở thành các kư
tự Latinh thông qua việc thêm dấu phụ trên giấy.
Nói về việc
cải tiến Chữ Quốc Ngữ có thi sĩ
Tản Đà (1919), nhà báo Nguyễn Văn Vĩnh (1929), nhà giáo Dương Tự
Nguyên (1929), sử gia
Trần Trọng Kim
(1929) … các tác giả viết nhiều bài tranh luận trên Trung Bắc tân văn xoay quanh
vấn đề lư do sửa đổi Chữ Quốc
Ngữ bỏ dấu phụ. Đặc biệt, Vi Huyền Đắc (1929)
đề xuất chữ viết ghi âm nhưng
mượn chữ
Hán, Nhật để chế
ra con chữ thay chữ Latin. Sau 1945,
Ban chuyên môn B́nh dân học vụ
Trung ương (1946) đă
soạn thảo văn bản cải cách Chữ Quốc Ngữ. Việc cải tiến trong bối cảnh hội nhập quốc tế từ những năm 2000s khi xuất hiện các kư hiệu,
từ ngữ mới do Internet phổ biến cũng dần chấp nhận nhưng những cuộc tranh luận nảy lửa phải kể đến Bùi Hiền
(2017), Hồ Ngọc Đại
(2018), …
Ngày nay, nếu dùng thao tác này
cho máy tính
sẽ khó khăn gấp nhiều lần, thay v́ thể
hiện:
Trước đèn xem chuyện
Tây Minh -> Trusx denl xem chylf
Tayy Mihp (Cvnss4.0)
Công việc này nó sẽ
giảm dung lượng
xử lư của máy tính
bằng việc mă hóa. Bạn
thử tưởng tượng nếu bạn ghi nhớ
chữ tiếng Việt
có dấu tốn 10bytes, bạn dùng Chữ VN Song Song 4.0 (Cvnss4.0) sẽ tiết kiệm hơn rất nhiều. Giả định xử lư lên đến
1GB th́ bạn sẽ tiết kiệm rất nhiều dung lượng.
Chữ Nôm thông qua qua một trường
hợp khác cho thấy không chịu ảnh hưởng bởi Chữ Quốc Ngữ! Với lịch sử định cư trải qua hơn 500 năm, hầu hết cư dân người Kinh ở
khu vực Tam Đảo (Vạn Vĩ, Vu Đầu và Sơn Tâm) cũng như một vài nơi khác
ở Quảng Tây (chủ yếu tập trung tại Đông Hưng) thuộc Trung Quốc
ngày nay đều có chung nguồn
gốc là người Đồ
Sơn (Hải Pḥng, Việt Nam), c̣n lại số
ít người Kinh trong đó có
nguồn gốc từ một vài địa phương ven biển của Việt
Nam di cư đến.
Người Kinh Tam Đảo
vốn nói tiếng Việt và sử dụng phổ biến chữ Nôm, có lối giao
tiếp như người Việt chỉ
có điều họ không dùng Chữ Quốc Ngữ. Dân số người Kinh
Tam Đảo hiện
nay tương đương
với vùng ĐBSCL của chúng ta. Như vậy, xét lại lịch sử cho thấy
Chữ Nôm bắt đầu h́nh thành và
phát triển từ thế kỷ X đến thế kỷ XX th́ hạn chế.
Chữ này tồn tại 10 thế kỷ, nếu xét về
thời gian Chữ Quốc Ngữ c̣n thua xa
nhưng do tính ứng dụng phổ biến nên được ưa chuộng và sử dụng
rộng răi cho đến ngày nay.
Qua đó cho
thấy, Chữ Quốc
Ngữ, chữ Latinh và chữ
Nôm cùng chữ Hán xét về gốc là hai hệ
chữ dùng để viết tiếng Việt, chúng
có vai tṛ
khác nhau nhưng bổ trợ cho nhau
trong chiều dài lịch sử và văn
hóa Việt Nam mà c̣n phụ thuộc
vào hoàn cảnh địa lư của buổi
ban đầu. Việc
nghiên cứu chữ viết hay ngôn ngữ rất vất vả, gian nan thậm chí tiêu tốn nhiều thời gian, chưa kể kinh phí
cho nó rất
tốn kèm không phải ai cũng đồng cảm được. Dù đứng dưới vai tṛ nào cá
nhân, nhóm hay tổ chức nếu đứng ở
góc độ nào đó, việc
đề xuất có ích nhằm
giải quyết bài toán nào
đó điều rất được trân trọng. Tuy nhiên, vai tṛ
của tổ chức bao giờ cũng chiếm ưu thế hơn.
Hiện nay, mặc dù Chữ
Quốc Ngữ được
dùng phổ biến nhưng vẫn có nhóm
nghiên cứu chuyên sâu Hán Nôm! Ví dụ:
Ủy ban Phục sinh
Hán Nôm Việt Nam đă
cho chuẩn hóa 5.524 kư tự
chuẩn, chiếm khoảng 98% lượng
sử dụng hàng ngày của
tiếng Việt hiện
đại. Qua đó
cho thấy, tùy vào nhu
cầu và mục đích khác nhau mà
có thể thêm/bớt hoặc bổ sung để cho các tiện ích trong đời
sống được
tối ưu hóa trong lúc
thao tác hóa chữ viết
trên các công cụ.
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/835634777850638/
-------------------
BÀI 11: CHỮ VN SONG SONG 4.0 TRONG HÀNH TR̀NH T̀M TIẾNG NÓI ĐỒNG
THUẬN
(ngày 1-10-2022)
Có hơn
7.000 ngôn ngữ trên thế giới này [1]. Con số đó không ngừng tăng lên hàng
này, bởi v́ chúng ta đang
học thêm về các ngôn
ngữ trên thế giới mỗi ngày. Và hơn thế
nữa, bản thân các ngôn
ngữ cũng đang thay đổi hàng ngày. Chúng ta đang sống trong một thế năng động, được
nói bởi những cộng đồng có cuộc sống được định
h́nh bởi thế văn hóa lịch sử tồn tại trong một thế giới đang thay đổi nhanh chóng. Đây
là thời kỳ mọi thứ diễn ra quá nhanh.
Khoảng 40% ngôn ngữ hiện nay đang bị đe dọa, thường chỉ khoảng 1.000 người
nói và sử
dụng. Trong khi đó, chỉ có 25 ngôn ngữ
thường xuyên được sử dụng và chiếm
hơn 4 tỷ người trên Trái đất này. Việt Nam đứng
thứ 20 nhưng tôi đánh giá
rằng, không chính xác mà
là 15 trên thế giới về mức độ sử dụng. Bởi dân số của
chúng và cộng động hải ngoại đă vượt quá 100 triệu dân.
Trong đó chữ
tiếng Việt có lợi thế bởi có gốc
từ hệ Latinh nên Chữ
Quốc Ngữ có sự kế thừa và phát
triển rất nhanh (tiếng Anh, tiếng Pháp, tiếng Tây
Ban Nha… Mặc khác, gốc nghĩa 80% từ vựng tiếng Việt
lại có thành tố Hán Việt.
Hay nói khác đi, Tiếng Việt là chủ thể
tạo nên nhiều ngôn ngữ khác từ sự kế thừa.
Tuy nhiên, chỉ
khoản 3.800 ngôn ngữ là "sử dụng hệ thống chữ viết đă được thiết lập". Điều này bao gồm việc viết các hệ thống cho các ngôn
ngữ đă tuyệt chủng và các ngôn
ngữ xây dựng, hệ thống viết tắt, chữ nổi Braille và các hệ thống
kư hiệu khác, và nhiều
hệ thống chữ viết được liệt kê hiếm khi
được sử
dụng. Việc thiết lập hệ thống chữ viết cho nhiều môi trường khác nhau là
rất cần thiết v́ nó sẽ đa
dạng hóa việc truyền tải “ư thức số/consciousness”. Đây
là một phương thức quan trọng để truyền tải cho brain-computer. Giống như một đứa bé sinh ra,
việc học ngôn ngữ nào là do môi
trường và xă hội của
nơi đó quyết định, đứa bé sẽ không tự quyết định được
việc học ngôn ngữ nào. Tương lai, các con robot máy tính cũng
vậy, chúng sẽ tự học và tự
nhận thức và tự giao
tiếp bằng ngôn ngữ của chúng do chúng ta tạo ra [3].
Chữ Việt Trí
(2012), là một bảng chữ cái thay thế
cho tiếng Việt
do Tôn Thất Chương phát kiến ra. Ông khuyến
khích sử dụng Chữ Việt
Trí để viết
thư pháp, tiểu thuyết và nhật kư,
để giao tiếp bí mật,
hoặc chơi các tṛ chơi,
viết thư thông minh và
cho các chức
năng văn học và tôn
giáo. Đặc điểm đáng chú ư: Đây loại hệ thống chữ viết: dựa vào bảng chữ cái Latinh;
Hướng viết:
từ trái sang phải theo hàng ngang. Chữ
Việt Trí bao gồm: 29 chữ
cái, 6 âm và 10 chữ số. Dùng để viết cho: Tiếng Việt.
Chữ Ṿng,
nghĩa đen là "chữ viết ṿng tṛn", là một bảng chữ cái thay
thế cho tiếng Việt do Albert Nguyễn sáng chế (2014). Động lực tạo ra Chữ
Ṿng xuất phát từ mong muốn bắt chước khả năng của người Hàn Quốc và Nhật Bản, những quốc gia đă từng
sử dụng tiếng Trung Quốc làm hệ thống chữ viết duy nhất, để duy tŕ việc sử dụng các kư tự
Trung Quốc cùng với
hệ thống chữ viết phiên âm của
riêng họ.
Đề xuất cải tiến bảng chữ cái và
chính tả tiếng Việt (Bùi Hiền,
2016) gây băo mạng.
Nhóm tác
giả CVNSS 4.0, công bố công tŕnh
nghiên cứu "Chữ Việt Nam song song
4.0" (2020). Nếu các
công tŕnh trước đây là quá rắc
rối trong các quy tắc,
luật định.
Chưa kể là khó thể
hiện trong môi trường máy tính. Chúng
ta phải nh́n nhận rằng để cho một chữ viết tốt hơn trong môi trường nào đó nhất
là chữ tiếng Việt (có dấu), có hai nguyên tắc
trong quá tŕnh nghiên cứu: (i) khi nghiên
cứu phải có phương pháp dựa trên kế thừa
trước đó; tức là trước
khi làm phải
quy tŕnh, phương pháp, các bước kiểm soát, đối tượng thực hiện, các điều kiện kèm theo, các kỹ
thuật sẽ sử dụng… trong quá tŕnh
nghiên cứu luôn có sự
điều chỉnh
để chữ viết trở nên tối ưu
hơn; (ii) Phải làm thử nhiều
lần và chấp nhận phản ứng dư luận; nếu sai quay lại (1) điều chỉnh để tiếp tục làm tiếp. Tôi nhận thấy, nhóm tác giả đă
không dừng lại mà luôn
sẵn sàng chia sẻ cái của
ḿnh làm, cái ḿnh mong muốn
ra cộng đồng, chấp nhận cho mọi người phán xét miễn
phí. Liệu như vậy, có quá
bất công với nhóm tác giả CVNSS 4.0 hay không (?)
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/847555806658535/
-------------------
BÀI 12: TIỆN ÍCH NHỎ
TỪ CHỮ VN SONG SONG 4.0 MANG LẠI
(ngày 19-10-2022)
Đối với chúng ta tài nguyên số
hay nói khác đi dữ liệu trên máy vi tính là
cực kỳ quan trọng, thậm chí nó quư hơn
vàng. Không có dữ liệu
th́ đừng bao giờ nói chuyện
a,b,c thuật
toán hay AI ǵ đó. Bởi trong thời đại công nghệ 4.0 như hiện nay, việc soạn thảo và lưu trữ
các file trên máy vi tính (PC hay Laptop) đă trở nên phổ biến,
bởi dữ liệu tạo ra theo thời
gian rất ư nghĩa với chúng ta. Tuy nhiên, việc đặt tên và tổ
chức file, folder (thư
mục) như thế nào cho
hợp lư, hiệu quả và hạn chế
những rủi ro th́ không
phải ai cũng thực hiện đúng, ngăn ngừa một số lỗi ngớ ngẩn th́ không phải
ai cũng biết. Đa phần người dùng Việt
Nam thường mắc
phải một số lỗi khi đặt tên file, folder như: đặt tên bằng tiếng Việt
có dấu, đặt tên quá dài, tạo
quá nhiều folder lồng vào nhau….
Việc đặt tên như vậy sẽ thuận lợi cho người
sử dụng tiếng Việt, tuy nhiên sẽ gây khó khăn,
hạn chế, thậm chí gây ra lỗi
trong t́m kiếm, copy, di dời
file và nhất là khi phục
hồi (recovery) file bị
xóa, lâu dần sẽ bị trùng lắp dữ liệu phái sinh, trong khi
dữ liệu nội sinh không cần thiết… do đa phần các phần mềm, hệ điều hành (OS) đều do các công ty nước
ngoài phát triển trên các nền tảng
ngôn ngữ lập tŕnh nhất định (ngôn ngữ lập tŕnh là ngôn ngữ
không có dấu), chủ yếu bằng tiếng Anh (English) và không hỗ trợ tốt hoàn toàn tiếng
Việt. Quá tŕnh thao tác hóa,
bộ nhớ cache quá nhiều nhất là dữ
liệu phi cấu trúc tạo ra dẫn đến
bộ nhớ chứa rác nhiều hơn chứa những thứ cần thiết từ dữ liệu mang lại.
Ngoài ra,
font tiếng Việt thường
không được tích hợp sẵn trong các hệ điều
hành cũng như các chương
tŕnh mà phải cài đặt thêm các Fonts tiếng Việt vào mới sử
dụng được
(Một số lỗi điển h́nh mà chúng
ta có thể nh́n thấy như: Khi ta gửi kèm file (attach file) đặt
tên bằng tiếng Việt có dấu qua một số hệ thống mail hay một số chương tŕnh, khi download về, file sẽ bị lỗi tên và đổi
thành tên khác không có
dấu…). Các phần
mềm crack, các bản chưa cập nhật hoặc các chương tŕnh cũ có vô
số lỗi sẽ làm chậm
máy thậm chí bị đơ,
việc tạo ra các file có
dẫu tiếng Việt
sẽ ngốn thêm tài nguyên
của máy tính, nhiều máy sẽ bị
liệt…
V́ vậy
để thực hiện đặt tên file, folder thật sự hợp lư, hiệu quả và hạn
chế phát sinh lỗi, nên chú ư một
số nguyên tắc sau:
- Nên đặt
tên bằng chữ không dấu, có thể sử dụng dấu “-” hay “_” thay thế các khoảng trống. (vd:
thay v́ đặt
tên “báo cáo.doc” nên đặt là “bao cao.doc” hay “bao_cao.doc”). Vậy
nếu Chữ VN Song
Song 4.0 (Cvnss4.0) bạn
đặt là baoj caoj.doc
- Đặt tên ngắn gọn, dễ hiểu, có ư nghĩa; hạn chế tối thiểu việc đặt tên quá dài (vd:
thay v́ đặt
tên “Thong tu lien tich so 01 ve thi
hanh an dan su.doc” nên đặt là “TTLT01
THADS”), nếu đặt thogy tuo.doc th́
sao?
- Đối với các file cần sắp xếp theo thời gian, địa điểm,
có thể thêm địa điểm, ngày, giờ vào tên
file để dễ
dàng sắp xếp, t́m kiếm (vd: thay v́ “picture1.png” nên đặt là “DaLat_11.07.2020_picture1.png”). C̣n
đặt Dal Latr.png
- Nên lưu
ư thứ tự sắp xếp tên trong hệ
điều hành (vd: trong window sẽ sắp xếp ưu tiên theo thứ
tự: “kư tự đặt biệt” => “số”
=> “kư tự thường”; nghĩa là các
file được sắp
xếp theo thứ tự “@.doc” =>
“1.doc” => “a.doc”).
- Không nên
tạo quá nhiều lớp folder lồng vào nhau (vd:
D:\FolderA\FolderB\FolderC\FolderD\FolderE\
- C̣n các
Folder/file đặt theo
Cvnss4.0 th́ rất tuyệt, bởi dữ liệu của bạn chỉ có bạn
biết nếu như người đó không biết
ǵ về Cvnss4.0.
Trên đây
là tiện ích nhỏ mà
Cvnss4.0 mang lại, nó thể tính
riêng tư rất cao, hạn chế rủi ro và
lộ thông tin không cần thiết. Nếu có thêm vài
cái pass từ Cvnss4.0 lên Floder nữa
th́ đúng là chỉ có
bạn hiểu những ǵ ḿnh lưu trữ
và quản lư các dữ
liệu trong máy tính của
bạn mà thôi.
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/861572345256881/
-------------------
BÀI 13: CHỮ VN SONG SONG 4.0 DƯỚI GÓC NH̀N MĂ HÓA
(ngày 6-1-2023)
Người đă sáng chế
ra cách mă
hóa Caesar thú vị là vị
hoàng đế Julius
Caesar. Kỹ thuật
này đă được phát triển vào khoảng năm 100 Trước Công nguyên.
Hoàng đế Caesar đă
dùng nó để
gửi những mệnh lệnh quan trọng cho những tướng sĩ trên chiến trường. Do đó, nếu bọn giặc có bắt
được người
truyền tin th́ cũng không thể đọc và hiểu được
nội dung của bức thư mă hóa đó.
Kiến thức này thật sự rất hữu ích và được
áp dụng cho tới ngày
hôm nay. Nhiều người cho rằng, CVNSS4.0 giống chữ mă hóa
hơn. Tôi nghĩ c̣n hơn
thế nhưng hăy từ từ
khám phá.
1. Nên hiểu rơ ba
thuật ngữ:
Hashing, Encryption, Encoding
Hash là một
chuỗi được
tạo ra thông qua một thuật toán, để bảo vệ tính toàn
vẹn của dữ liệu. Điều đặc biệt là không
thể lấy được giá trị đầu vào sau khi
chuyển đổi.
VD: user -> pass -> server [salted password ->
hash] = database. Nếu khớp
lệnh user mới truy cập được.
Encryption là quá
tŕnh chuyển đổi dữ liệu thành một định dạng không thể đọc được để
giữ an toàn và bảo mật
cho chúng, chỉ những người được
ủy quyền mới có thể
đảo ngược
nó.
VD: Blockchain sẽ có “Public key” và “Private key”. Khi dữ liệu được gửi qua HTTPS, nó sẽ được mă hóa bằng
public key, khóa này được lưu trữ trong tŕnh duyệt. Private key chỉ bên nhận
dữ liệu sở hữu và phải được
giữ bí mật. Quá tŕnh này là
SSL handshake – xác thực
server khi connecting với
client, symmetric encryption sẽ đảm nhận việc mă hóa
dữ liệu.
Encoding là một
quá tŕnh thay đổi dữ liệu sang một định dạng mới thông qua một lược đồ có sẵn, công
khai. Không yêu cầu khóa
chỉ cần “bạn học nó, biết, hiểu” là đă mă hóa
rồi tự ḿnh giải mă nó. Để
đảm bảo dữ liệu được toàn vẹn và có
thể được
sử dụng bởi nhiều hệ thống th́ chỉ cần
tối thiểu 2 người hoặc một nhóm người hiểu biết về nó. Nguyên lư này
cũng dựa trên một ví dụ đơn
giản thường
thấy trong công nghệ thông tin như các thuật toán cho encoding: Base64, ngoài ra có
ASCII, Unicode, URL Encoding…
Ví dụ:
Mật mă Caesar là một dạng
mật mă thay thế, trong đó mỗi
kư tự ở văn bản ban đầu sẽ được thay thế bằng một kư tự
khác, có vị trí cách
nó một khoảng xác định trong bảng chữ cái. Nếu chúng ta chuyển mỗi chữ cái theo ba
vị trí sang bên phải, th́ mỗi chữ
cái trong văn bản rơ gốc của
chúng ta sẽ được thay thế bằng một chữ cái sau nó
ba vị trí bên phải.
Chẳng hạn, với văn bản “HELLO WORLD” bằng cách sử dụng dịch chuyển sang phải là 3, chữ H sẽ được thay thế bằng K, E sẽ được thay thế bằng H, ... Và thông điệp được mă hóa cuối cùng cho HELLO WORLD sẽ là KHOOR ZRUOG. Bạn có thể
thấy thông điệp này nh́n như: vô nghĩa, phải không? Đây là chính
ư nghĩa của việc mă hóa,
biến một văn bản rơ đọc được bằng mắt thường thành một văn bản vô nghĩa trong
mắt con người
nhưng đằng sau đó tưởng
chừng vô nghĩa lại có ư nghĩa quan trọng tùy theo mục
đích sử dụng là ǵ.
2. Hiểu
CVNSS4.0 đơn giản
như Encoding
CVNSS4.0 là hiểu
một cách đơn giản th́ nó là
Encoding có thể h́nh dung như bạn học Mật mă Caesar. Việc này rất quan trọng v́ mă hoá có
vai tṛ quan
trọng trong giao dịch điện tử để đảm bảo độ bảo mật, toàn vẹn của thông tin khi truyền trên mạng. Hăy thử tưởng
tượng các bạn muốn kể một câu chuyện bí mật cho
người bạn thân của ḿnh. Để bảo mật câu chuyện riêng tư không
bị lộ ra ngoài bạn
sẽ cần dùng đến CVNSS4.0
Cũng giống như các loại mật mă thay
thế khác, CVNSS4.0 có vẻ giống
ư tưởng mật
mă Caesar bạn có nghĩ vậy
không? Bạn hăy có tôi
biết ư kiến của ḿnh! Càng t́m hiểu
sâu về CVNSS4.0 bạn sẽ t́m thấy nhiều điều thú vị không
chỉ là con chữ và ngôn
ngữ đâu nhé!
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/919081789505936/
-------------------
BÀI 14: NHỮNG CHỮ CÁI
DÙNG "LẬU"
(ngày 7-1-2023)
4 chữ F, J, W và Z không có
trong bảng cái tiếng Việt lại được sử dụng thường xuyên và ngày càng
phổ biến.
******
1. Nhóm
kư tự f, j, w, z và cách viết
tắt
Sinh thời, Cụ Hồ là người rất quan tâm đến việc sử dụng và bảo
vệ tiếng Việt.
Người thường
nhắc nhở mọi người phải biết giữ ǵn và
quư trọng tiếng Việt. Ngôn ngữ do Người sử dụng giờ ta so sánh đối chiếu lại sẽ thấy rất uyển chuyển, linh hoạt, đảm bảo sự trong sáng của ngôn từ, có tính chính
xác cao, sức truyền tải lớn, phù hợp với
từng đối tượng hướng
tới. Người
cũng từng nói việc dùng chữ viết là theo
cách riêng của ḿnh nhưng điều này không làm
thay đổi chữ cái tiếng
Việt.
Ví dụ:
Cuốn “Đường
Kách mệnh” (1927) bảo vật quốc gia, chữ K thay chữ C.
Hay như, Bản
Di Chúc của Hồ Chí Minh là mô h́nh của
chính tả viết theo ư ḿnh thích, được
Người soạn
thảo, viết từ năm 1965 đến năm 1969. Chưa vội bàn đến nội dung di chúc, về h́nh thức
trong văn viết mà Người
thường sử dụng là "d" thay "đ", "f" thay
"ph", "k" thay
"c", "z" thay "d",”gi”, “ng” thay
“ngh, nhưng có ai nói Người
viết sai chính tả hay viết tắt cực đoan chứ (?). Nếu nghiên cứu sâu sẽ thấy
cách viết của Người.
(i) không
viết dấu sắc ở các từ tận cùng bằng c, ch, p, t (tắc âm),
(ii) Không viết
đủ chữ, mà viết tắt
rất nhiều bằng việc tinh gọn con chữ.
2. Bảng chữ cái hiện
nay và bất cập
Bảng chữ cái Latinh
là hệ thống chữ viết dùng bảng chữ cái tiếng Anh gồm 26 kư tự được sắp xếp theo thứ từ A đến Z được sử dụng rộng răi nhất hiện nay trên thế giới.
Bảng chữ cái Latinh
= Bảng chữ cái tiếng Việt + (F,
J, W, Z) – (Ă, Â, Đ, Ê, Ơ, Ô, Ư)
Chữ Quốc
Ngữ là một loại chữ viết tiếng Việt, được
ghi bằng tập hợp các chữ cái
Latinh (nhưng loại bỏ nhóm kư tự:
F, J, W, Z) và dấu phụ được dùng cùng với
các chữ cái đó.
Bảng chữ cái tiếng
Việt = Bảng chữ
cái Latinh – (F, J, W, Z) +
(Ă, Â, Đ, Ê, Ơ, Ô, Ư) + thanh điệu
Chữ VN Song
Song 4.0 được
ghi bằng tập hợp các chữ cái
Latinh (thêm vào nhóm kư
tự F, J, W, Z) và loại dấu phụ được dùng cùng với
các chữ cái đó.
Bảng chữ cái VN Song Song 4.0 = Bảng chữ cái Latinh
– (Ă, Â, Đ, Ê, Ơ, Ô, Ư) - thanh điệu
Như vậy, chữ viết của Việt Nam hiện
nay được sáng
tạo trên việc sử dụng kư tự
Latinh để ghi âm tiếng
Việt nhưng đă
phức tạp hóa bằng “các chữ kép”
thay thế cho “nhóm kư tự F, J, W, Z” khiến cho tiếng Việt khó ḥa nhập quốc tế. Vô t́nh chúng
ta sử dụng nhóm kư tự F, J, W, Z hiện
nay là đang dùng lậu v́ theo quy
định pháp lư nhóm kư tự F, J, W, Z nằm ngoài bảng chữ cái tiếng Việt.
Dĩ nhiên, nhưng ai đang sử dụng máy tính th́ các
kư tự trên F, J, W, Z đă
trở nên quen thuộc, chủ yếu phục vụ việc gơ các
kư tự riêng của tiếng Việt là ă,
â, đ, ê, ơ, ư. V́ vậy,
việc thừa nhận nhóm kư tự F, J, W, Z trên trong bảng
chữ cái tiếng Việt là điều cần thiết để thống nhất sử dụng về chuẩn chính tả tiếng Việt trên môi trường máy tính và
nếu tăng lên 33 kư tự
trong sách giáo khoa th́ bảng
chữ cái tiếng Việt hiện
nay có tổng cộng 29 chữ cái được sắp xếp theo thứ tự như sau: a, ă, â, b, c, d, đ, e, ê, g, h, i, k l, m, n, o, ô, ơ, p, q, r, s, t, u, ư, v, x,
y sẽ thêm nhóm kư tự f, j, w, z.
3. V́ sao phải bổ sung nhóm kư tự f, j, w, z
Trong luật hiện nay cũng nếu khá rơ
“chủ doanh nghiệp cần đặc biệt lưu ư những hệ thống ngôn ngữ khác không phải
hệ chữ La-tinh sẽ không
được chấp
nhận để đặt tên cho doanh nghiệp
(ví dụ hệ chữ viết mang tính tượng h́nh tượng thanh như Kana của Nhật, chữ
Hán, chữ Ả Rập...
sẽ không được chấp nhận) (Theo Khoản 1,
2 Điều 39)”. Tên
riêng được viết bằng các chữ cái
trong bảng chữ cái tiếng
Việt, các chữ
F, J, Z, W, chữ số
và kư hiệu.
(Theo Khoản 1, 2, 3 Điều
37).
Mặc dù, 4 chữ nói trên đă
trở thành thông dụng trong tiếng Việt nhưng lại không có trong
bảng chữ cái, khiến cho việc sử dụng chúng trở thành “bất hợp pháp” v́ là những
chữ “ngoài luồng”. Đây rơ ràng là
một bất cập của bảng chữ cái hiện hành. Cho nên, việc bổ sung 4 chữ này vào
bảng chữ cái không chỉ
sẽ giải quyết được vấn đề đă nêu mà
nhờ đó tầm phổ quát của bảng chữ cái sẽ được
mở rộng đầy đủ, đáp ứng được sự phát triển của tiếng Việt hiện đại.
Tóm lại, CVNSS 4.0 là chữ viết
không dấu chỉ sử dụng 26 chữ cái Latinh và
trong đó dùng 18 chữ cái Latinh để
thay thế dấu thanh và dấu phụ
cho CQN. V́ nó có biến
đổi linh hoạt giữa các vần chữ
Việt Nam và có sự luân chuyển
giữa các kư diệu dấu,
tạo ra chữ viết có độ chính xác cao
giúp người sử dụng nhận biết được mặt chữ và đọc
được, từ
đây sẽ tạo ra kho
dữ liệu về tên gọi
hoặc các từ ngữ mới làm phong
phú thêm hệ thống câu chữ tiếng
Việt. Ước tính
hiện nay ta có khoảng 36.000 từ ngữ thông dụng th́ với CVNSS 4.0 là một cách viết chữ song song với CQN, không ảnh hưởng đến
CQN sẽ tạo nên từ ngữ
gấp đôi.
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/919298829484232/
-------------------
BÀI 15: VŨ
ĐIỆU CỦA NHỮNG CON CHỮ
(ngày 9-1-2023)
Khi bạn bước
vào lớp 1, các bạn nhỏ
(con em chúng ta) sẽ được học và đánh
vần theo
bảng chữ cái với các
chữ được
phát âm như sau: a, bờ, cờ, dờ, đờ (...), gờ, hờ, (...) lờ, mờ, nờ, … Cho đến hết 29 chữ cái trong bảng
chữ cái tiếng Việt. Ta vẫn
gọi đó hệ thống chữ cái chính
thức bảng chữ cái tiếng
Việt (c̣n gọi tắt là hệ
thống chữ cái ABC).
Tuy nhiên, khi
bạn xem chương tŕnh thời sự hay chương tŕnh bóng đá bạn
sẽ thấy, người dẫn chương tŕnh hay b́nh luận viên sẽ đọc
khác đi. Ví dụ: nhóm
nước G7, G8, G20... được
các phát thanh viên Đài
truyền h́nh trung ương (VTV) đọc là “gờ bảy”, “gờ tám”, “gờ hai mươi”
hay như VTV lại đọc tên là “vê tê
vê”. Cụ thể, chữ tắt MC (người dẫn chương tŕnh) ta nghe đọc là “em xi”, sao
không đọc là “Mờ Cờ”
(?)
Đó là v́, hệ
thống tên chữ cái tiếng
Việt của chúng
ta hiện này tồn tại 3 hệ thống bao gồm:
1/ Hệ thống
“a-bờ-cờ”, đây là hệ
thống do lịch sử để lại và tồn
tại từ phong trào b́nh
dân học vụ sau Cách
mạng T8/ 1945 để
dạy và cấp tốc đẩy lùi “giặc dốt” qua các lớp học
“i tờ”
2/ Hệ thống
“a-bê-xê” c̣n hệ thống
này vẫn dùng do tên chữ
theo bảng chữ cái cũ
được giám mục Alexandre de Rhodes xác
lập (hệ thống “a-bê-xê”) đặc biệt sự hiện diện của người Pháp trên lănh thổ
chúng ta một thời gian dài nên đă
ăn sâu vào tiềm thức người dân.
3/ Hệ thống
tên chữ cái tiếng Anh (“ây-bi-xi”), sau này khi chúng
ta hội nhập th́ sự xâm
nhập của tiếng Anh của giới trẻ làm cho hệ
thống chữ cái tiếng Việt bị “Anh hóa”, nói khác đi
có khi một
câu tiếng Việt chiếm đến 30% là tiếng Anh.
Vậy làm cách nào
để bảng chữ cái tiếng
Việt chỉ c̣n một hệ thống tên chữ cái duy
nhất áp dụng ở mọi lúc mọi nơi?
(i) Khi ta dùng hệ thống tên chữ để sử dụng khi đọc từng chữ cái riêng
biệt ta dùng hệ thống
“a-bê-xê”;
(ii) Khi ta dùng hệ thống âm của các chữ dùng
để ghép vần, ta dùng hệ thống “a-bờ- cờ”;
(iii) C̣n hệ
thống tên chữ cái tiếng
Anh (“ây-bi-xi”) dùng khi nào bạn
thích, kiểu như Vietlish cho sang, cho có
vẻ bạn là người sính ngoại vậy.
Tới đây, ta lại phát sinh thêm
một vấn đề vậy khi nào có
sự khác nhau giữa âm và tên
chữ cái?
Ta lấy ví
dụ: chữ /r/ cách đọc [rờ] tuy nhiên
cả ba miền Bắc Trung Nam điều
đọc khác nhau. {dộn dàng}, {gộn gàng}, {rộn ràng} …
Qua đây, cho
chúng ta thấy rằng, không có nơi nào
nói đúng hay chuẩn hoàn toàn nhưng chúng ta vẫn có thể giao
tiếp b́nh thường dựa trên câu chữ.
Bản chất vấn đề nằm ở cách viết và ngữ
nghĩa như thế nào? Trong môi trường nào, phục vụ cho mục
đích ǵ?
Bản thân bảng chữ cái tiếng
Việt vẫn tồn
tại 3 hệ thống cách đọc khác nhau, bởi chúng ta bị nhầm tưởng là cách đọc
theo chữ, nên phát âm
phải theo chữ vô t́nh
ta coi một chữ chỉ có một cách
phát âm. Trong ngôn ngữ học th́ một
chữ sẽ có nhiều cách phát âm
đó chính là phương ngữ hoặc có những chữ có cách
phát âm giống
nhau nhưng cách viết khác nhau ...
Chữ VN
song song 4.0 (CVNSS4.0) nhóm
tác giả đă khẳng định là không thay thế,
cải tiến mà chỉ là
“song song” với Chữ Quốc Ngữ. V́ sao ta không
chịu chú ư vào phương pháp CVNSS4.0 mà chú ư vào nội
dung bị thay đổi bởi vũ điệu của những con chữ (?)
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/920597949354320/
-------------------
BÀI 16: CHỮ VN SONG SONG 4.0 TỪ ‘PHÁT KIẾN” ĐẾN SỰ
H̀NH THÀNH GIẢ THUYẾT CHO BỘ CHỮ BILA
(ngày 22-3-2023)
Bộ chữ mới Bila này được đặt theo tên hai đồng
tác giả Trần Tư B́nh và Kiều Trường Lâm. “Bila” ghép từ 2 chữ cái đầu
tiên của chữ B́nh và Lâm. Sau hơn 40 năm nghiên cứu về vấn đề cải tiến chữ Việt, hai tác giả
đă phát kiến ra bộ
chữ Chữ VN Song
Song 4.0 (CVNSS4.0) [1] [2] [3] được
công nhận bản quyền số 1850/2020/QTG.
Để ghi nhận sự đóng góp của họ,
chúng tôi gọi bộ chữ CVNSS4.0 là “bộ chữ Bila”, tên tiếng Anh Bila Script
Language (BSL) trong môi trường máy tính.
Xét về
tính quyết định tương đối của ngôn ngữ chúng tôi cho
rằng: ngôn ngữ chúng ta dùng sẽ ảnh
hưởng đến
cách chúng ta nghĩ, cách chúng ta quyết định một cách mặc định.
Khi “h́nh thức
chữ viết” của một ngôn ngữ “mẹ đẻ” bị thay đổi
về cách biểu hiện bên ngoài th́
sẽ xuất hiện những suy nghĩ định
kiến trái chiều, không chấp nhận của cộng đồng nói ngôn ngữ đó.
Ngôn ngữ
không tự nhiên sinh ra
mà nó là
một sản phẩm của tư duy con người trong hoàn cảnh cụ thể, môi trường cụ thể cho từng mục đích nhất định. Mỗi ngôn ngữ được tạo dựng để phù hợp để thích ứng với một nền văn hóa riêng nhằm
truyền tải được “phần hồn của tiếng mẹ đẻ” trong các môi trường
vật lư lẫn phi vật lư, lớp vỏ
bọc ngôn ngữ chỉ là h́nh thức
biểu hiện bên ngoài. Điều
này, giúp chúng tôi nghiên
cứu để củng cố và hoàn thiện
“Giả thuyết về sự phản kháng ngôn ngữ Bila”.
Nếu giả thuyết này phù hợp
sẽ kiểm định được
sự phản kháng thông qua Chữ Quốc Ngữ để đánh giá mức độ
sàn sàng của mỗi cá nhân khi
tham gia vào không gian
mạng. Điều
đó, có nghĩa khi quyền riêng tư càng cao,
tính phản kháng chấp nhận bảo toàn tính riêng
tư được
quan tâm nhiều v́ nó liên quan
đến việc lưu trữ, hiển thị và cung cấp
cho bên thứ
ba thông tin liên quan đến
bản thân thông qua Internet.
Điểm nhấn của ngôn ngữ Bila này, nó là
phương tiện
truyền tải thông tin phi tập trung, nghĩa là người nhắn tin lẫn nhận tin không c̣n phải phụ thuộc hay đặt niềm tin vào bất kỳ
tổ chức trung gian nào
để kiểm soát dữ liệu,
nội dung mà họ trao đổi,
mà thay vào
đó họ có thể trực
tiếp giao dịch trực tiếp với nhau thông qua Cvnss4.0 (ngôn ngữ Bila), không sợ bị bên thứ
ba nắm giữ và sao
chụp nếu họ không biết và học
Cvnss4.0 ngay từ đầu. Từ nền tảng ư tưởng này, giúp chúng ta có
thể tạo ra nhiều ứng dụng công nghệ nhằm mă hóa
các giao dịch từ không gian mạng
ra môi trường
vật lư thực tế.
Có thể
thấy, ảnh hưởng của ngôn ngữ Bila sẽ tác động
đến cách hành xử của
chúng ta khi ta tiếp cận thế giới trên không gian
mạng. Điều
này cũng giống như đặc điểm của phương tiện giao thông sẽ có ảnh hưởng
quyết định
đến cách thức chúng ta tham gia giao
thông, chứ không nhất thiết phải ảnh hưởng đến bản thân đối tượng hay địa
điểm mà chúng ta muốn tiếp cận như thế nào. Ngôn ngữ
Bila, nó vẫn là sự phản
kháng đối với ai không hiểu về Cvnss4.0 nhưng tương lai nó sẽ
thành một quy tắc chung
trong sự giao tiếp để bảo vệ riêng tư của mỗi cá nhân
trên không gian mạng.
Tham khảo:
[1] https://chuvietnhanh.sourceforge.net/ChuVietNhanhKieuChuVietCucNgan.htm
[2] https://tinhte.vn/thread/co-duyen-nao-chu-vn-song-song-4-0-ra-doi-cach-day-vai-thang.3111004
[3] https://chuvietnhanh.sourceforge.net/CongThucChuVNSongSong4.0VaViDu.htm
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/965641364849978/
-------------------
BÀI 17: GIÁ TRỊ TIẾNG
VIỆT QUA CÁC MINH CHỨNG NGHIÊN CỨU. THÊM GÓC NH̀N TỪ CHỮ
VN SONG SONG 4.0
(ngày 7-4-2023)
Chúng ta luôn
bị giới hạn bởi việc năo bộ trong tiếp nhận và xử lư
thông tin nhanh, nhưng không bị giới hạn việc xử lư thông
tin bằng khả năng nghe. Điều này, có liên quan
đến sự phát triển sinh học của bộ năo và khả
năng tiếp nhận của năo bộ thông
qua thông tin lời nói. Dù ta có
nói nhanh hay chậm th́ cũng đều có tốc độ
truyền dữ liệu nhanh nhất khoảng 39,15
bit/s (cao gấp 2 lần của mă Morse). Mặt khác, Tiếng Việt ta có mật độ
thông tin cao nhất trong 17 ngôn ngữ điều này rất thú vị
cho sự phát triển của Chữ VN Song Song 4.0 (CVNSS4.0) trong tương lai. Bài phân tích
dưới đây sẽ làm rơ
2 luận điểm
này:
1. Tốc độ truyền dữ liệu nhanh nhất
Nghiên cứu của nhóm Coupé et al., (2019) đă
thực hiện nghiên cứu, tiếng Việt xếp
đầu bảng với 8 bit cho mỗi âm
tiết trong bảng xếp hạng của 17 ngôn ngữ được phân tích (h́nh 1).
H́nh 1. Tiếng Việt xếp đầu trong bảng xếp hạng 17 ngôn ngữ với 8 bit cho mỗi
âm tiết.
Theo:
Coupé, C., Oh, Y. M., Dediu, D., & Pellegrino, F. (2019). Different languages,
similar encoding efficiency: Comparable information rates across the human
communicative niche. Science advances, 5(9), eaaw2594. https://doi.org/10.1126/sciadv.aaw2594
Trong khi đó,
tiếng Nhật, với
chỉ 643 âm tiết, có mật độ thông tin chỉ khoảng 5 bit cho mỗi âm
tiết, và tiếng Anh, với 6.949 âm tiết, có mật độ
thông tin chỉ hơn 7 bit cho mỗi âm tiết.
Tiếng Việt dùng
6 dấu âm, cho phép ta nén
thông tin cao nhất (so với Anh, Nhật,
Nga...). Do mỗi âm tiết tiếng Việt
chứa 8 bit thông tin, điều này đồng nghĩa với việc tiếng Việt
truyền tải thông tin gấp đôi so với tiếng Nhật, và chỉ cần nói với nửa
tốc độ của tiếng Nhật th́ vẫn đạt
được tương
đương thông
tin.
Và cũng
là ngoại ngữ khó học
nhất do các thanh dấu tạo nên! Ví dụ: chỉ
cần đổi dấu... Dưa, Dứa, Dừa, Dữa, Dửa, Dựa là thông
tin thay đổi hoàn toàn. Trong khi đó, CVNSS4.0 trên môi trường
máy tính sẽ là Zuao,
Zuax, Zuak, Zuaw, Zuav, Zuah
sẽ không tốn nhiều Bit, như vậy giúp cho việc
truyền dữ liệu là tối
ưu nhất.
Ví dụ
kế tiếp: Tiếng Việt chỉ cần 1 âm tiết "chào", tiếng Anh do đa âm tiết sẽ
là "hê-lô"
(hello). Do đó mà để diễn đạt cùng 1 ư tứ nào đó
tiếng Việt nghe
rất ngắn gọn, súc tích, c̣n tiếng
Anh sẽ nghe rất dài.
2. Mật độ thông tin cao nhất
Nghiên cứu của nhóm Pellegrino et al., (2011) đă
thực hiện trên 7 ngôn ngữ
khác nhau, bao gồm Anh, Đức, Pháp, Ư, Nhật, Quan Thoại (Trung Quốc), và
Tây Ban Nha với
tiếng Việt được
chọn làm điểm tham chiếu để so sánh với nhau. Kết quả cho thấy
tiếng Việt có mật độ (độ nén) thông tin cao nhất,
đạt giá trị là 1, trong khi các
ngôn ngữ khác đều có mật độ
thông tin thấp hơn, dưới 2 (h́nh 2).
H́nh 2. Tiếng Việt có mật độ thông tin cao nhất
trong 8 ngôn ngữ trong nghiên cứu.
Theo:
Pellegrino, F., Coupé, C., & Marsico, E. (2011). Across-Language
Perspective on Speech Information Rate. Language, 87, 539 - 558.
Các ngôn ngữ
gần nhất về mật độ thông tin so với tiếng Việt là tiếng Anh và tiếng Quan Thoại. Điều đó, nghĩa là Tiếng Việt ngôn ngữ giàu thông tin với 1 âm tiết chứa 8 bit thông tin, trong khi tiếng
Anh th́ 1 âm tiết chỉ có 7 bit thông tin, c̣n tiếng Nhật với 1 âm tiết chỉ có 5 bit thông tin. Việc giữ được hồn của tiếng Việt với 6 thanh điệu trong môi trường máy tính, chứa
được nhiều
thông tin, cho thấy CVNSS4.0 đă hữu dụng.
3. Ứng dụng CVNSS4.0
Các nghiên cứu
này là một
phát hiện thú vị, giúp
chúng ta hiểu thêm về đặc
điểm của tiếng Việt. Thông tin này
cũng phần nào thể hiện
được tính cô đọng, đơn giản của tiếng Việt,
với khả năng truyền tải thông tin cao và số
lượng từ cần thiết để truyền tải ư nghĩa là ít. CVNSS4.0 với nền tảng Chữ Quốc Ngữ trong sự phát kiến
của nhóm tác giả Trần
Tư B́nh và Kiều
Trường Lâm (2020), đă tận dụng tính hiệu quả để tăng tốc độ xử lư nhằm truyền
tải thông tin cao nhất trong mỗi âm tiết. Điều này giúp cho khả
năng tư duy phát triển
của người nói tiếng Việt, trong đó khả
năng tư duy có thể
giúp rút ngắn và truyền
tải thông tin một cách hiệu quả.
4. Kết luận mở
CVNSS4.0 là kiểu
viết ngắn gọn để diễn ngôn cho tiếng Việt trong môi trường
số, không dấu và dấu
thanh, chỉ dùng 26 chữ cái bảng chữ cái Latinh
để mă hóa thông tin hiệu
quả. Tiếng Việt
là ngôn ngữ
dân tộc Việt có từ thời
Hùng Vương, vượt qua 1000 năm Bắc thuộc, phát triển đến ngôn ngữ cô đọng
ngày nay. Dẫu trải qua nhiều giai đoạn lịch sử thăng trầm, qua nhiều hệ thống các kư hiệu để
ghi lại ngôn ngữ khác nhau. Song Tiếng Việt là tinh hoa, là
bản sắc và linh hồn
của văn hóa Việt, giúp dân tộc đứng
vững và măi măi sau
này. Nghiên cứu các phương
thức để phát huy các
giá trị tiếng Việt là nhắc nhở để hiểu và giữ ǵn
di sản to lớn này, góp phần
làm giàu, phong phú ngôn
ngữ của dân tộc khẳng
định sức mạnh trên mọi môi trường.
-------
Note: ***Chương tŕnh dự án Chữ VN Song Song 4.0 (CVNSS4.0) là do một nhóm tác giả người
Việt yêu thích ngôn ngữ tiếng Việt, tạo
lập một cộng đồng phi lợi nhuận xuyên quốc gia, nhằm thể hiện vai tṛ con người
trong biểu đạt thông tin trên môi trường
số thông qua việc khởi tạo và triển
khai ngôn ngữ Bila máy tính trên nền
tảng CVNSS4.0 để
bảo mật riêng tư, ẩn danh, phi tập trung trong lưu trữ. Chương tŕnh này hiện
phát triển trên các ứng
dụng mă nguồn mở và miễn phí,
kết hợp tính khả dụng của Chữ Quốc Ngữ và tính không
giới hạn của tiếng Việt,
nhằm lan tỏa hiểu biết khoa học về ngôn ngữ
với máy tính để bảo tồn tiếng nói, văn hóa Việt Nam trên không gian
số.
5. Tài liệu tham khảo
- Coupé, C., Oh, Y. M., Dediu, D., & Pellegrino, F.
(2019). Different languages, similar encoding efficiency: Comparable
information rates across the human communicative niche. Science advances, 5(9),
eaaw2594. Link <https://www.science.org/doi/10.1126/sciadv.aaw2594>
- Kieu-Tuong Lam, & Tran-Tu Binh. (2020). Typing
CVNSS4.0 with EVKEY is a quick way to type Vietnamese characters on a computer
(1.0). Zenodo. https://doi.org/10.5281/zenodo.7077573
- Pellegrino, F., Coupé, C., & Marsico, E. (2011).
Across-Language Perspective on Speech Information Rate. Language, 87, 539 -
558. Link < https://www.jstor.org/stable/23011654>
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/974308747316573/
-------------------
BÀI 18: CHỮ VIỆT CỔ
QUA LĂNG KÍNH CHỮ VN SONG SONG 4.0
(ngày 7-5-2023)
(Xin tặng file sách dành cho
quư vị)
-------------------
Trong nhiều năm
qua có nhiều nhà nghiên cứu
đă đi theo tiếng gọi quay về nơi viễn cổ thời Hùng
Vương để nhặt
cóp những vết tích đă phai ṃn
theo thời gian bằng t́nh yêu và
ḷng tự tôn dân tộc,
nhằm phục dựng lại những con chữ của “người Việt
cổ” từ hàng ngàn năm
trước. Liệu rằng,
t́nh yêu dân tộc ấy
và những nỗ lực không mệt mỏi dành cho ngôn ngữ,
văn hóa, lịch sử có thay thế
được tính
khoa học hay không
(?) Bài viết dưới đây, sẽ làm rơ
hơn:
Các nhà nghiên
cứu dựa vào cứ liệu
khảo cổ, thư tịch cổ, kết hợp với điền dă cũng chỉ để chứng minh rằng:
(i) Chữ
Việt cổ là một thành tựu rực rỡ của văn minh thời
Hùng Vương, mà không
phải “ngụy trang” bằng vỏ bọc bên ngoài dưới
nhiều h́nh thức khác nhau, với tên gọi là
“chữ khoa đẩu”. Cha đẻ của bộ sưu tập “chữ Việt cổ” được khởi xướng là nhà nghiên cứu
Đỗ Văn Xuyền
cùng sự ủng hộ của các nhà
nghiên cứu khác với một niềm tin như thế. [Dowload tài liệu]
https://chuvietnhanh.sourceforge.net/CuocHanhTrinhDiTimChuVietCo.pdf
(ii) Nh́n vào
hệ thống tư liệu, cách làm việc,
thời gian nghiên cứu, cũng như nhiệt huyết của tác giả
Đỗ Văn Xuyền,
có thể đây là một
nghiên cứu công phu và
có tính liên
ngành, đặc biệt tác giả sử dụng tư liệu khảo cổ kết hợp với văn tự cổ và thư
tịch cổ mà ngày nay chúng
ta rất trân trọng.
Tuy nhiên, với
luận thuyết và phương pháp tạo ra CVNSS4.0 đă được nghiên cứu và bị
phản biện rất nhiều lần, chúng tôi cho rằng
“chữ khoa đẩu”
rất mong manh về mặt khoa học bởi:
- Nhóm tác
giả chữ việt cổ dùng các kư
tự rất mờ nhạt để so sánh với chữ viết trên băi đá cổ
Sapa và dùng các luận điểm chủ quan về nền
minh văn trên trống đồng, để xác lập được
bảng chữ cái chữ Việt cổ dùng để
ghi tiếng Việt của người Việt
cổ. Bởi không thể nào từ xa
xưa hơn 2000 năm trước mà bảng chữ
cái lại có đầy đủ số lượng phụ âm và nguyên
âm cơ bản như Chữ Quốc Ngữ nhưng không có dấu thanh.
Bởi Chữ Quốc
Ngữ và chữ Việt cổ do ông giải mă có cùng
cấu trúc ghép vần tương tự nhau, chỉ khác nhau về
h́nh dạng.
- Dựa vào
tài liệu “Chữ Thái tổ tự” của Phạm Thận Duật (Tri châu Điện Biên năm 1855) và các chữ
viết trong “Thanh Hóa quan phong”
của Vương Duy Trinh (1903), chúng tôi hoài
nghi làm sao có sự
giống nhau về bộ chữ Thái Cổ hay do chính tác giả
tạo ra trong thế kỷ XXI để mọi người tin rằng đó chính là chữ
Việt cổ đă
tồn tại cách nay hơn 2 ngàn năm (?);
Hệ thống chữ viết CVNSS4.0 khi nghiên cứu đă được kiểm tra với kư tự
của một dân tộc, tuân thủ các quy tắc,
đó là: (i) Có khả
năng ghi lại được đầy đủ tiếng nói của dân tộc
nào đó hay không? (ii) Thông qua, các đặc điểm của kư tự
thể hiện được đặc
điểm của ngôn ngữ dân tộc; (iii) Có khả năng
ghi lại các sử kiện
bằng phương
pháp truyền khẩu dân gian. Do vậy, hành tŕnh việc
t́m ra và
giải mă được chữ Việt
cổ rất đáng trân trọng, ghi nhận bởi sáng tạo là quá tŕnh
không chỉ gian khổ mà c̣n khắc
khổ. Phải có cứ liệu
khoa học và sẵn sàng nhận lấy sự thẩm định, phản biện, thậm chí phê phán
khắc khe của những người khác.
Long Ngo
Nguồn: https://www.facebook.com/groups/toiyeuchuviet4.0/posts/990535169027264/
-------------------
BÀI 19: MẠN ĐÀM VỀ
THANH ĐIỆU TRONG TIẾNG VIỆT TỪ QUÁ KHỨ
ĐẾN TƯƠNG LAI
(ngày 13-5-2023)
Chuyển đổi từ ngôn ngữ chưa có thanh
điệu sang 06 thanh
điệu (?)
“rất khó mà nói
rằng một cách phát âm
hiện nay từ đâu mà ra,
sau hàng mấy trăm năm”. Một trong những nguyên tắc làm việc
cơ bản của ngành ngôn ngữ học lịch sử là Uniformitarian
Principle (UP). Nguyên tắc này
áp dụng ở mọi mặt khi nghiên cứu
đó là xem “hiện tại là ch́a
khóa của quá khứ”. Đây
chính là lư do dùng Chữ
VN Song Song 4.0 (CVNSS4.0) với
các lư thuyết
và phương pháp đă bị
mổ xẻ để t́m lại các nhiều
vấn đề trong quá khứ,
chứ không chỉ đơn giản là một
công cụ để mă hóa.
Đầu tiên, giả thuyết về “nguồn gốc của thanh điệu” của
tiếng Việt hiện
nay? Bằng hai bài báo năm
1953 và năm 1954 của nhà ngôn
ngữ học, nhân chủng và địa lư người Pháp rất lỗi lạc đó André-Georges Haudricourt đă dập tắt những tranh luận và nghi
ngờ trước đây của các học giả
Việt Nam, bị thuyết
phục và ngày nay được phần lớn các nhà ngôn
ngữ học chấp nhận nguồn gốc của thanh điệu xuất phát từ Mon-Khmer khi nói đến
tiếng Việt và việc xếp tiếng Việt vào ḍng họ ngôn
ngữ Nam Á mà chúng ta chấp nhập đến ngày nay của đến từ kiến giải. Ông đă chứng
minh rằng tiếng Việt thuộc
cùng họ với các ngôn
ngữ Mon-Khmer là những tiếng
không có thanh điệu. Chính các tác
giả hiện nay điều nhất trí trong quan
niệm này đựa dựa trên luận điểm của Haudricourt, tin rằng tiếng Việt thuộc
họ Nam Á, nhánh
Mon-Khmer, chi Việt- Mường (!).
Như vậy, lịch sử h́nh thành thanh
điệu của tiếng Việt là từ không có thanh điệu
đến có sáu thanh điệu
như hiện nay thế nào?. Tiếng Việt hiện đại là một ngôn
ngữ có thanh điệu, điều này cho thấy trong quá tŕnh
lịch sử của ḿnh, tiếng Việt đă
biến đổi khá xa so với các ngôn
ngữ Môn-Khmer cùng gốc ban đầu. Đây là một
vấn đề c̣n bỏ ngỏ
cần được
quan tâm nhiều hơn thêm khi có
đầy đủ
tư liệu hơn.
(i) Từ
không thanh điệu thành có thanh điệu,
vấn đề không chỉ nằm ở h́nh thức và trong
chính bộ máy phát âm
của con người
đă có khả năng rất kỳ diệu để tạo ra nhiều
âm thanh khác nhau, nhờ
áp dụng các biện pháp ngữ âm phong phú
này.
(ii) Việc chúng ta tin rằng tiếng Việt thuộc
họ Nam Á, nhánh
Mon-Khmer, nhưng chưa
bao giờ chúng ta có sự so sánh ngôn ngữ
tiếng Việt với
tiếng Môn liệu rằng có thiếu
sót hay không? Chúng tôi tin rằng,
chữ Việt cổ
có thể là một hệ
chữ viết cổ có nguồn
gốc xuất phát từ chữ
Brahmi và tồn tại trên các kư hiệu
trong văn hóa Đông Sơn, dĩ nhiên cần phải kiểm chứng nhiều hơn.
(iii) Nếu như ngữ điệu là đặc trưng của câu, trọng âm là đặc trưng của từ th́ thanh
điệu là đặc trưng của âm tiết.
Với 6 thanh tiếng Việt: ngang, huyền, hỏi, ngă, sắc, nặng. Thanh được
thể hiện trên chữ viết là dấu
thanh (c̣n gọi là dấu).
Và thanh điệu chính là sức mạnh,
là đặc trưng quan trọng của tiếng Việt. Trong công
thức CVNSS4.0 chúng tôi chỉ thay
“kư hiệu dấu” bằng chữ chữ cái, điều này không vi phạm
quy tắc gơ dấu mà
c̣n gia tăng
hiệu suất trong môi trường
máy tính khi thể hiện
văn phong tiếng Việt.
Từ thanh điệu sang ngữ điệu bị phương ngữ hóa
* Phương ngữ miền Bắc: Đầy
đủ 6 thanh điệu của tiếng Việt. Nhiều
địa phương
không có các âm vị
phụ âm đầu /ʂ/, /ʈ/, /z/, /z̪/ (chính tả là s, tr, gi và
r), tức là không phân biệt
s/x, tr/ch, d/gi/r. Ngoài ra c̣n
lẫn lộn phụ âm /l/ và /n/ (l và n). Phân biệt rơ ràng /v/ và
/z/ (v và d). Không phân biệt các vần được
thể hiện trong chính tả
là ưu/iu và ươu/iêu. Đầy đủ phụ âm cuối.
* Phương ngữ miền
Trung: Gồm 5 thanh, thanh hỏi và thanh ngă
bị lẫn lộn. Phụ âm đầu có 3 phụ âm uốn lưỡi
/ş/, /z̪/, // (tức s, r, tr). Nhiều thổ ngữ có 2 phụ âm bật
hơi [ph, kh] thay cho
phụ âm /f/, /χ/
(ph và kh)
ở phương ngữ
Bắc. Hệ thống
nguyên âm đôi bị đơn hóa, trong chính tả
ươ thành ư và uô thành
u. Phụ âm cuối, từ Thừa Thiên Huế đổ vào, có sự biến
đổi /-n/ sang /-ŋ/ (n sang ng) và /-t/ sang /-k/ (t sang c).
* Phương ngữ miền
Nam: Thanh điệu gồm
5 thanh, thanh hỏi và ngă
trùng làm một. Có các
phụ âm uốn lưỡi
/ş, /z̪/, / (s, r, tr). Thiếu phụ âm /v/, nhưng lại có thêm âm
[w]; âm [j] thay thế cho /z/. Âm đệm /-w-/ dần biến mất. Ví dụ:
“rốt cuộc” biến thành “rốt cục”. Đồng nhất các vần tương đương trong chính tả là “in” với “inh”, “it” với
“ich”, “un” với “ung”,
“ut” với “uc”. m “iêu” thành “iu”, “oai” thành
“ai”.
(i) Mặc
dù, thanh điệu là đặc trưng quan trọng của tiếng Việt,
nhưng đến từng địa phương, vùng miền đă bị địa phương hóa, điều đó sẽ tác động
đến ngữ điệu riêng mang tính đặc
thù. Nhưng khi thể hiện
trên cùng một văn bản nhất là máy tính
ta cần phải có tính nhất
chung. Việc này không đơn
giản bởi xử lư ngôn
ngữ tiếng Việt
rất khó khăn, hiện nay có nhiều giải pháp và CVNSS4.0 cũng là một trong
những giải pháp mang tính
gợi mở để các chuyên gia ngôn
ngữ và lập tŕnh viên máy tính
cùng ngồi lại với nhau.
(ii) Với nhiều cứ liệu thực nghiệm, các nghiên cứu này đă chỉ
ra rằng vai tṛ của
ngữ điệu trong các ngôn
ngữ có thanh điệu sẽ bị hạn chế rất nhiều so với ngữ điệu trong các ngôn ngữ
không có thanh điệu. Nhận định này đă từng
được nêu lên trước đây nhưng đă không được
chứng minh. Nhưng có lẽ,
khi xử lư tiếng Việt trên máy tính
đă cho thấy điều đó.
Từ thanh điệu đến sự nhập nhằng trong xử lư tiếng Việt
Trong xu thế công nghệ 4.0 và phát triển
mạnh mẽ của AI, văn hóa Việt Nam phải được khẳng định ngay cả trên không
gian mạng trong đó có
tiếng Việt nên có những thay đổi và phát triển
không ngừng, CVNSS4.0
ra đời là để hội nhập cho xu thế trên. Chính sự
đa dạng, phong phú trong
cách tư duy của người
Việt, cách vận dụng đă tạo nên những
đặc điểm
гất riêng mà гất ít ngôn ngữ
của dân tộc nào trên
thế giới có được. CVNSS4.0
nhằm khắc phục các nhược điểm đó để xử lư tiếng
Việt trở nên tối ưu hơn. Một trong những hiện tượng tạo ra sự
“phức tạp và rắc rối”
của tiếng Việt
chính là “hiện tượng nhập nhằng” như phân tích
ở trên, đó là hiện tượng
mà khi nói
hoặc viết những từ ngữ mơ hồ không rơ nghĩa hoặc
có nhiều nghĩa làm cho người đọc hoặc người nghe không phân biệt
rơ ràng, gây ra sự
hiểu lầm.
CVNSS4.0 với tương lai về mô h́nh
chatbot tiếng Việt phải
được triển
khai trên servers, trên cơ cở
hạ tầng do chính các tập
đoàn/công ty lớn/tổ chức người Việt
bảo mật và kiểm soát.
Trong trường hợp
này liệu OpenAI làm không, chắc
chắn là làm được nhưng họ sẽ không làm bởi yếu
tố nước ngoài! Mô h́nh
ngôn ngữ lớn tiếng Việt với vỏ bọc bảo mật CVNSS4.0 nếu tiếp theo được xây dựng trên LLaMA chẳng hạn có độ
tốt 90% so với
ChatGPT sẽ bao gồm
tiếng Việt, tiếng
Anh và các ngôn ngữ lập tŕnh khác cũng đă tốt rồi. Vậy CVNSS4.0 sẽ có tiềm
năng lớn khi tham gia
vào mô h́nh
ngôn ngữ lớn tiếng Việt được xây dựng cho riêng ḿnh, trong
lĩnh vực nào đó như
h́nh thành chữ viết riêng cho các
dân tộc thiểu số chưa có chữ
viết, với khoảng 50 tỉ tham số (bằng 1/6 so với GPT-3
của OpenAI) là cũng đă thành công rồi.
Tài liệu tham khảo:
Long Ngo
+
NGUỒN: 19 BÀI VỀ CHỮ VIỆT
THỜI CÔNG NGHỆ SỐ
https://www.facebook.com/groups/toiyeuchuviet4.0/user/1263501219
+
Ghi chú: Long Ngo (Ngô Hoàng Đại Long) hiện đang là Nghiên
cứu viên tại Phân hiệu Đại học Quốc gia-TP.HCM tại tỉnh Bến Tre, có nhiều công tŕnh khoa học – được công bố trên Scopus & WoS – liên quan
đến hướng
nghiên cứu của ḿnh về Địa lư ngôn ngữ,
nhất là các Ứng dụng
của xử lư ngôn ngữ
tự nhiên (Natural
Language Processing – NLP) trong GIScience.
(Facebook: Long Ngo https://www.facebook.com/dailong0606, Email:
ngohoangdailong@gmail.com)
+
19 bài này cũng được đăng ở Phụ Lục trong Giáo tŕnh Chữ
VN Song Song 4.0:
https://chuvietnhanh.sourceforge.net/GiaoTrinhChuVNSongSong.htm
Về Trang Chính: Chữ Việt Nhanh
http://chuvietnhanh.sourceforge.net