Mau ban thao TCKHDHDL

Tài liệu tương tự
KINH TẾ XÃ HỘI ÁP DỤNG MÔ HÌNH QUỸ PHÁT TRIỂN KHOA HỌC VÀ CÔNG NGHỆ TẠI CÁC TRƯỜNG ĐẠI HỌC KHỐI CÔNG NGHỆ Ở VIỆT NAM APPLYING SCIENCE AND TECHNOLOGY D

BÁO CÁO THỰC HIỆN ĐỀ TÀI

Microsoft Word - 7_ Ly_8tr _ _.doc

(Microsoft Word - B\300I 5. LE THOI TAN, NGUYEN DUC CAN _CHE BAN L1 - Tieng Anh_.doc)

(Microsoft Word - 8. Nguy?n Th? Phuong Hoa T\320_chu?n.doc)

(Microsoft Word - 4. \320\340o Thanh Tru?ng doc)

Tạp chí Khoa học ĐHQGHN, Ngoại ngữ 25 (2009) Thành phần khởi ngữ trong câu tiếng Việt xét về mặt hệ thống Nguyễn Lân Trung* Trường Đại học Ngo

(Microsoft Word - 1. L\352 Van C?m 1-10 NC.doc)

Toán Ứng Dụng Biên tập bởi: PGS.TS. Nguyễn Hải Thanh

TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q Về thẩm quyền của Hội đồng xét xử theo quy định của pháp luật tố tụng hình sự Việt Nam Lê Ngọc Thạnh

Dieãn ñaøn trao ñoåi 75 THÀNH NGỮ TRONG CUNG OÁN NGÂM KHÚC NGUYỄN GIA THIỀU Expressions in Cung oan Ngam Khuc Nguyen Gia Thieu Trần Minh Thương 1 Tóm

VNU Journal of Science: Earth and Environmental Sciences, Vol. 35, No. 1 (2019) Original Article Diversity of Medicinal Plants at Phia Oac - Phi

Tạp chí KHOA HỌC ĐHSP TPHCM Số 54 năm 2014 PHƯƠNG PHÁP SỬ DỤNG TRÒ CHƠI TRONG DẠY HỌC NGUYỄN THỊ BÍCH HỒNG * TÓM TẮT Bài viết trình bày phương pháp sử

PowerPoint Template

Bài tập trắc nghiệm Địa lý lớp 10 Bài 22

Microsoft Word - DA17-TRAN THI HIEN( )

19/12/2014 Do Georges Nguyễn Cao Đức JJR 65 chuyễn lại GIÁO DỤC MIỀN NAM

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN LÝ LỊCH KHOA HỌC (Thông tin trong 5 năm gần nhất và có liên quan trực tiếp đến đề

Microsoft Word - 1. Le Van Cam 1-14.doc

Microsoft Word - 03-KTXH-NGUYEN QUOC NGHI( )027

CÔNG BÁO/Số /Ngày QUY TRÌNH KIỂM TOÁN BÁO CÁO QUYẾT TOÁN NGÂN SÁCH NHÀ NƯỚC (Ban hành kèm theo Quyết định số 03/2013/QĐ-KTNN ng

TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ ISSN NHU CẦU HỌC TẬP KỸ NĂNG SỐNG CỦA HỌC SINH TRUNG HỌC PHỔ THÔNG TẠI THÀNH PHỐ BIÊN HÒA, T

The Total Economic Impact™ Of IBM Security Guardium

Năm PHÂN TÍCH DANH MỤC TÍN DỤNG: XÁC SUẤT KHÔNG TRẢ ĐƢỢC NỢ - PROBABILITY OF DEFAULT (PD) NGUYỄN Anh Đức Người hướng dẫn: Tiến sỹ ĐÀO Thị Th

1 Überschrift 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM NGHỆ THUẬT TRUNG ƯƠNG NGUYỄN DOÃN ĐÀI QUẢN LÝ DI TÍCH LỊCH SỬ VĂN HÓA ĐÌNH HUỀ TRÌ, XÃ AN PHỤ, HUYỆN KIN

Tạp chí Khoa học ĐHQGHN: Kinh tế và Kinh doanh, Tập 31, Số 1 (2015) Phát triển nhân lực lãnh đạo, quản lý khu vực hành chính công vùng Tây Bắc:

I - CÁC KHÁI NIỆM VỀ CHỢ VÀ PHÂN LOẠI CHỢ :

A DI ĐÀ KINH SỚ SAO DIỄN NGHĨA A DI ĐÀ KINH SỚ SAO DIỄN NGHĨA Liên Trì Đại Sư Chùa Vân Thê soạn Sớ Sao Pháp Sư Cổ Đức Diễn Nghĩa Giảng giải: Pháp Sư T

BỘ GIÁO DỤC VÀ ĐÀO TẠO

PHẦN III. NỘI DUNG CHƯƠNG TRÌNH ĐÀO TẠO 1. Tóm tắt yêu cầu chương trình đào tạo Tổng số tín chỉ của chương trình đào tạo: Khối kiến thức chung 158 tín

T Ạ P CHÍ KHOA HỌC TRƯỜNG ĐẠI HỌC TRÀ VINH, SỐ 31, THÁNG 9 NĂM 2018 NG H Ệ THUẬT C Ả I LƯƠNG N A M BỘ: THỰC TRẠNG V À ĐỊNH HƯỚNG PHÁT HUY GIÁ TRỊ DI S

Trung tâm Nghiên cứu Chính sách và Phát triển (DEPOCEN) Thâm hụt tài khoản vãng lai: Nguyên nhân và giải pháp Nguyễn Thị Hà Trang, Nguyễn Ngọc Anh, Ng

TCVN T I Ê U C H U Ẩ N Q U Ố C G I A TCVN :2014 ISO/IEC :2013 Xuất bản lần 1 KỸ THUẬT PHẦN MỀM VÀ HỆ THỐNG ĐẢM BẢO PHẦN MỀM VÀ HỆ THỐNG

A

TÊN CHƯƠNG

(Microsoft Word - 4_Vuong NC-T\ doc)

VAN HIEN UNIVERSITY JOURNAL OF SCIENCE VOLUME 4 NUMBER 3 THAM GIA CỘNG ĐỒNG KINH TẾ ASEAN (AEC) VÀ HIỆP ĐỊNH THƯƠNG MẠI XUYÊN THÁI BÌNH DƯƠNG (TPP) SO

QUỐC HỘI

Preliminary data of the biodiversity in the area

NguyenThiThao3B

Luật kinh doanh bất động sản

TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ ISSN DU LỊCH LÀNG NGHỀ Ở ĐÔNG NAM BỘ - THỰC TRẠNG VÀ MỘT SỐ GIẢI PHÁP PHÁT TRIỂN 62 Nguyễn N


Microsoft Word - Nhung tu tuong cua Doi moi I-final[1].doc

Microsoft Word - BÀi viết Ngô QuỂc Phương HỎi thảo Hè Porto 2019 (1)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN HOÀNG THỊ QUỲNH THẾ GIỚI NGHỆ

CÁC PHƯƠNG PHÁP GIẢNG DẠY TÍCH CỰC

Pháp luật về giải quyết tranh chấp đất đai thông qua cơ quan hành chính nhà nước trên địa bàn huyện Thanh Trì - Hà Nội Trần Thanh Thủy Khoa Luật Luận

SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 19, No Q Quản trị rủi ro tác nghiệp của ngân hàng theo Basel II - Tình huống ngân hàng Thương mại Cổ phần

THùC TR¹NG TI£U THô RAU AN TOµN T¹I MéT Sè C¥ Së

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM NGHỆ THUẬT TRUNG ƯƠNG NGUYỄN THỊ THU HIỀN XÂY DỰNG ĐỜI SỐNG VĂN HÓA CƠ SỞ Ở PHƯỜNG NINH PHONG, THÀNH PHỐ

Mẫu trình bày chương trình đào tạo theo tín chỉ

Microsoft Word - vietnam_vn.doc

HƯỚNG DẪN VIẾT BÀI

TRUNG TÂM ĐÀO TẠO LẬP TRÌNH VIÊN QUỐC TẾ

CHƯƠNG TRÌNH ĐÀO TẠO BẬC ĐẠI HỌC NGÀNH VIỆT NAM HỌC - Tên chương trình: Chương trình đào tạo ngành Việt Nam học - Trình độ đào tạo: Đại học - Ngành đà

Microsoft Word - PhuongThuy-Mang_van_hoc_tren_bao_Song.doc

Microsoft Word - DOCAT32

Tài chính, tín dụng, ngân hàng và lưu thông tiền tệ trong thời kỳ quá độ lên chủ nghĩa xã hội ở Việt Nam Tài chính, tín dụng, ngân hàng và lưu thông t

Microsoft Word - Hmong_Cultural_Changes_Research_Report_2009_Final_Edit.doc

CÔNG TY TNHH XÂY DỰNG TXD CẨM NANG XÂY NHÀ Dành cho người xây nhà 1 P a g e

ĐẠI HỌC QUỐC GIA HÀ NỘI

VuLan 2011 ChuyệnVãng Sanh Cực Lạc Viễn Lưu

Chương II - KIẾN TRÚC HỆ ĐIỀU HÀNH

Microsoft Word - Bai 3. Quach Manh Hao.doc

1 MỘT CHÚT GÓP Ý Nhân đọc bài viết NỀN TƯ PHÁP VÀ CÁC ĐỊNH CHẾ ĐẶC BIỆT CỦA VNCH của Luật sư NGUYỄN VẠN BÌNH (với sự góp ý của Thẩm Phán TRẦN AN BÀI v

TRUNG TÂM CON NGƯỜI VÀ THIÊN NHIÊN NÔNG NGHIỆP TÂY BẮC: NHẬN DIỆN THÁCH THỨC VÀ ĐỊNH HƯỚNG PHÁT TRIỂN TRONG BỐI CẢNH BIẾN ĐỔI KHÍ HẬU Nhà xuất bản Tha

Điện toán đám mây của Google và ứng dụng xây dựng hệ thống quản lý dịch vụ Đỗ Thị Phương Trường Đại học Quốc gia Hà Nội; Trường Đại học Công nghệ Chuy

Nghiên cứu ứng dụng mạng nơtron nhân tạo hỗ trợ công tác chọn thầu thi công ở Việt Nam

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 3(32).2009 LIÊN KẾT KINH TẾ MIỀN TRUNG VÀ TÂY NGUYÊN TỪ LÝ LUẬN ĐẾN THỰC TIỄN ECONOMIC TIES IN CEN

Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 GIỄU NHẠI BẰNG HÌNH THỨC NÓI MỈA TRONG TIỂU THUYẾT SỐ ĐỎ C

Khoa hoïc Xaõ hoäi vaø Nhaân vaên 49 CÁC NHÂN TỐ ẢNH HƯỞNG ĐẾN QUYẾT ĐỊNH ĐỔI MỚI CÔNG NGHỆ CỦA CÁC DOANH NGHIỆP NHỎ VÀ VỪA Ở THÀNH PHỐ CẦN THƠ Factor

FB.000.Bia

CHUYÊN ĐỀ KHOA HỌC VÀ GIÁO DỤC - 09 (4-2018) ĐÁNH GIÁ THỰC TRẠNG SỬ DỤNG KÊNH YOUTUBE CỦA TỔNG CỤC DU LỊCH TRONG VIỆC HỖ TRỢ TRUYỀN THÔNG THƯƠNG HIỆU

bệnh nghề nghiệp; quản lý sổ bảo hiểm xã hội, thẻ bảo hiểm y tế ban hành kèm theo quyết định số 595/QĐ-BHXH ngày 14/4/2017 của Tổng Giám đốc Bảo hiểm

Bộ Giáo dục và Đào tạo - Trường Đại học Duy Tân CÁC GIẢI PHÁP PHÁT TRIỂN BỀN VỮNG THỦY ĐIỆN TẠI MIỀN TRUNG VÀ TÂY NGUYÊN ĐOÀN TRANH * ABSTRACT The Cen

THÔNG TIN TRƯỜNG HÈ TOÁN HỌC SINH VIÊN 2019 I. MỤC ĐÍCH: Mục đích của Trường hè là hỗ trợ các sinh viên giỏi toán phát huy được khả năng học tập và tậ

2 2. Quỹ hoạt động theo mô hình Công ty trách nhiệm hữu hạn một thành viên do Nhà nước nắm giữ 100% vốn điều lệ. 3. Quỹ có tư cách pháp nhân, có vốn đ

Số 132 (7.115) Thứ Bảy, ngày 12/5/ XUẤT BẢN TỪ NĂM 1985 CUộC

Số 68 (7.051) Thứ Sáu, ngày 9/3/ XUẤT BẢN TỪ NĂM 1985 Ban Bí

Microsoft Word - CPJ_VNHRD.doc

000.FF50VI. Trang bia 1 - bia ngoai

1

NI SƯ THÍCH NỮ GIỚI HƯƠNG: Thế giới xung quanh chúng ta sẽ rất ý vị, nên thơ, nên nhạc * LỜI CUNG KÍNH ĐẾN TS. THÍCH NỮ GIỚI HƯƠNG Trụ trì Chùa Hương

Microsoft Word - ICT-rda08HBQuoc.doc

Nghiên Cứu & Trao Đổi Khơi thông nguồn lực vốn FDI ở Việt Nam: Thực trạng và khuyến nghị Nguyễn Đình Luận Nhận bài: 29/06/ Duyệt đăng: 31/07/201

Chương 4 Ước lượng tham số Bài giảng Lý thuyết xác suất và thống kê toán Lý thuyết mẫu Phương pháp mẫu Cách trình bày mẫu Các đặc trưng mẫu Tính các đ

ĐỀ CƯƠNG MÔN HỌC NHẬP MÔN TIN HỌC

NHỮNG BIẾN ĐỔI XÃ HỘI Ở NÔNG THÔN VIỆT NAM DO QUÁ TRÌNH CHUYỂN MỤC ĐÍCH SỬ DỤNG ĐẤT NÔNG NGHIỆP (QUA TÌM HIỂU Ở NINH BÌNH) Đặt vấn đề Ngô Thị Phượng *

PowerPoint Template

Nghị định số 159/2013/NĐ-CP ngày 12/11/2013 quy định xử phạt vi phạm hành chính trong hoạt động báo chí, xuất bản

BỘ LAO ĐỘNG - THƯƠNG BINH VÀ XÃ HỘI TRƯỜNG ĐÀO TẠO, BỒI DƯỠNG CÁN BỘ, CÔNG CHỨC LAO ĐỘNG - XÃ HỘI Chủ biên: TS. Nguyễn T

Đi Tìm Dấu Vết Cột Đồng Mã Viện Cao Nguyên Lộc Vào năm thứ 9 sau công nguyên ở Trung Hoa, quan đại triều Vương Mãn làm loạn cướp ngôi nhà H

JOURNAL OF SCIENCE OF HNUE Educational Science in Mathematics, 2014, Vol. 59, No. 2A, pp This paper is available online at

Hội Toán học Việt Nam Vietnamese Mathematical Society Kỳ thi tìm kiếm tài năng toán học (viết tắt tiếng Anh là MYTS), năm 2016 được tổ chức nhằm khơi

ĐỀ CƯƠNG MÔN HỌC NHẬP MÔN TIN HỌC

A DI ĐÀ KINH SỚ SAO DIỄN NGHĨA A DI ĐÀ KINH SỚ SAO DIỄN NGHĨA Liên Trì Đại Sư Chùa Vân Thê soạn Sớ Sao Pháp Sư Cổ Đức Diễn Nghĩa Giảng giải: Pháp Sư T

Bản ghi:

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 8, Số 2, 2018 3 12 DỊCH TỰ ĐỘNG VIỆT-K HO SỬ DỤNG PHƯƠNG PHÁP DỰA VÀO THỐNG KÊ Nguyễn Minh Hiệp a, Nguyễn Thị Lương a, Lê Văn Phượng b, Nguyễn Thị Minh Huyền b, Đinh Viết Tuấn a* a Khoa Công nghệ Thông tin, Trường Đại học Đà Lạt, Lâm Đồng, Việt Nam b Khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, Hà Nội, Việt Nam * Tác giả liên hệ: Email: tuandv@dlu.edu.vn Lịch sử bài báo Nhận ngày 11 tháng 01 năm 2018 Chỉnh sửa ngày 25 tháng 03 năm 2018 Chấp nhận đăng ngày 14 tháng 04 năm 2018 Tóm tắt Một ứng dụng dịch tự động (Machine Translation - MT) từ tiếng Việt sang tiếng dân tộc K Ho được trình bày. Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa vào thống kê (Statistics Machine Translation - STMT). Do tiếng Việt và tiếng dân tộc K Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Các nguyên tắc thiết kế của ứng dụng được mô tả chi tiết, cùng với giao diện của hệ thống. Một số kết quả dịch tự động cũng được trình bày để minh họa cho khả năng ứng dụng phương pháp STMT. Từ khóa: Dịch máy; Dịch tự động dựa vào thống kê; Dịch tự động; MT; STMT. Mã số định danh bài báo: http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/398 Loại bài báo: Bài báo nghiên cứu gốc có bình duyệt Bản quyền 2018 (Các) Tác giả. Cấp phép: Bài báo này được cấp phép theo CC BY-NC-ND 4.0 3

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] AN APPLICATION TO TRANSLATE FROM VIETNAMESE INTO K HO USING STMT APPROACH Nguyen Minh Hiep a, Nguyen Thi Luong a, Le Van Phuong b, Nguyen Thi Minh Huyen b, Dinh Viet Tuan a* a The Faculty of Information Technology, Dalat University, Lamdong, Vietnam b The Faculty of Mathematics - Mechanics - Informatics, VNU University of Science, Hanoi, Vietnam * Corresponding author: Email: tuandv@dlu.edu.vn Article history Received: January 11 th, 2018 Received in revised form: March 25 th, 2018 Accepted: April 14 th, 2018 Abstract This paper describes the Statistics Machine Translation (STMT) application to translate from Vietnamese into K Ho. Both Vietnamese and K Ho are in the same South Asian language family but they belong to different language groups, so the vocabulary, phrases, and sentences are used for language translation instead of the method based on general syntactic rules. The design principles of the application are described in detail, along with the system interface. Several machine translation results are also presented to illustrate the applicability of the STMT method. Keywords: Machine Translation; MT; Statistics Machine Translation; STMT. Article identifier: http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/398 Article type: (peer-reviewed) Full-length research article Copyright 2018 The author(s). Licensing: This article is licensed under a CC BY-NC-ND 4.0 4

1. GIỚI THIỆU Nguyễn Minh Hiệp, Nguyễn Thị Lương, Lê Văn Phượng, Nguyễn Thị Minh Huyền, và Đinh Viết Tuấn Hiện nay, trên thế giới có khoảng 5650 ngôn ngữ khác nhau (Đào, 2007). Số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin. Để có thể trao đổi thông tin phải cần đến một đội ngũ phiên dịch khổng lồ để dịch các văn bản, tài liệu, lời nói từ tiếng này sang tiếng khác. Vì vậy, con người đã nghĩ đến việc thiết kế một hệ thống tự động trong việc dịch. Hiện nay, khái niệm dịch tự động (dịch máy) đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng hầu hết đều tương đương với định nghĩa của Pushpak (2006, tr. 1) như sau: Dịch máy hay dịch tự động bằng máy tính là tiến trình dịch từ một ngôn ngữ nguồn (ngôn ngữ tự nhiên) sang những ngôn ngữ đích, có hoặc không có sự trợ giúp của con người. Dịch máy thường được thiết kế hoặc cho một cặp ngôn ngữ đặc biệt hoặc cho nhiều hơn hai ngôn ngữ. Theo Trần (2006) thì quá trình xử lý tài liệu của dịch tự động được mô tả như Hình 1. Đầu vào của một hệ dịch tự động thường là một văn bản được viết bằng ngôn ngữ nguồn và quá trình dịch được chia thành hai giai đoạn: i) Văn bản được phân tích thành các thành phần và ii) Được dịch thành văn bản ở dạng ngôn ngữ đích. Kết quả dịch có thể được con người hiệu chỉnh để trở thành bản dịch tốt hơn. Hình 1. Quá trình xử lý tài liệu của dịch tự động Hiện nay, dịch tự động vẫn còn nhiều khó khăn trong việc xử lý các nhập nhằng về ngôn ngữ trong quá trình dịch tự động. Các phương pháp thường dùng trong dịch tự động bao gồm: Dịch dựa trên cụm từ (Phrase Based Machine Translation - PBMT) (Đào, 2007) là phương pháp xác định nghĩa của câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp của cụm từ. Do thiếu thông tin ngữ cảnh khi xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ cảnh. Đôi khi, nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa của một từ trong ngôn ngữ nguồn và ngược lại; 5

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] Dịch dựa trên luật (Rule Based Machine Translation - RBMT) là phương pháp dựa trên luật cú pháp, ngữ nghĩa và một từ điển khá đầy đủ thông tin. Câu được dịch thường không đạt độ chính xác như mong đợi do lỗi mâu thuẫn giữa các luật hoặc do tập luật không bao quát (Satoshi & Makoto, 1990); Dịch tự động dựa trên ví dụ (Example-Based Machine Translation - EBMT) được Antal và Peter (2009) tổng kết là cách tiếp cận không đòi hỏi phải có sự phân tích ngôn ngữ học về cú pháp, ngữ nghĩa vì mọi câu dịch đều dựa vào việc so khớp mẫu. Việc so khớp mẫu dựa hoàn toàn vào kho ngữ liệu song ngữ để xác định mẫu nào gần đúng nhất, sau đó hiệu chỉnh và xuất ra thành phần dịch tương ứng của mẫu đó; Dịch tự động dựa trên thống kê (Statistics Machine Translation - STMT) là một phương pháp mà các bản dịch được tạo trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Ý tưởng dịch tự động bằng thống kê mang tính thuần túy về toán học, cách tiếp cận này không đòi hỏi sự phân tích sâu về ngôn ngữ, quá trình dịch được thực hiện dựa trên kết quả thống kê có được từ kho ngữ liệu (Adam, 2008). Về mặt ngôn ngữ, tiếng K Ho thuộc ngữ hệ Nam Á, nhóm ngôn ngữ Môn - Khmer (Trần, 1999). Vào đầu thế kỷ XX, ngôn ngữ K Ho được xây dựng bằng hệ thống chữ Latin với mục đích truyền đạo, về sau tiếng K Ho đã được cải tiến nhiều lần và được sử dụng phổ biến bởi các nhóm dân tộc thiểu số tại Lâm Đồng, Đăk Nông và các tỉnh Đông Nam bộ (Trần, 1999). Đến nay, tiếng K Ho được giảng dạy trong một số trường tiểu học tại vùng dân tộc thiểu số và để phục vụ cho công tác quản lý, phát triển kinh tế - xã hội, giữ gìn an ninh quốc phòng. Điều này đòi hỏi đội ngũ cán bộ công chức công tác ở các vùng có đồng bào dân tộc thiểu số phải biết sử dụng tiếng dân tộc bản địa trong giao tiếp và trong công tác theo qui định. Nhằm góp phần ứng dụng khoa học công nghệ vào việc nghiên cứu ngôn ngữ của đồng bào thiểu số và cung cấp thông tin dự báo thời tiết cho đồng bào dân tộc K Ho trên địa bàn tỉnh Lâm Đồng, đồng thời các bản tin dự báo thời tiết mang một lượng lớn thông tin mang tính cập nhật, do vậy một ứng dụng dịch tự động từ tiếng Việt sang tiếng K Ho trong phạm vi bản tin dự báo thời tiết của Đài Phát thanh và Truyền hình tỉnh Lâm Đồng đã được xây dựng. Do tiếng Việt và tiếng K Ho cùng ngữ hệ Nam Á nhưng lại thuộc nhóm ngôn ngữ khác nhau (Trần, 1999) nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Qua nghiên cứu tổng quan các phương pháp thì phương pháp dịch tự động dựa vào thống kê (STMT) là phương pháp phù hợp với yêu cầu và mục tiêu của đề tài. Trong báo cáo này, phương pháp STMT sẽ được trình bày trong việc áp dụng để xây dựng hệ dịch tự động Việt - K Ho. Nội dung bài viết sẽ đề cập chi tiết về phương pháp STMT, các nguyên tắc thiết kế của ứng dụng cùng một số kết quả dịch tự động sẽ được trình bày để minh họa cho khả năng ứng dụng phương pháp STMT. Cấu trúc của bài viết được tổ chức như sau: Mục 2 trình bày phương pháp STMT; Mục 3 đề cập đến kết quả thực nghiệm. Cuối cùng là phần kết luận và hướng phát triển. 2. PHƯƠNG PHÁP STMT 2.1. Phương pháp Dịch máy thống kê là quá trình dịch văn bản từ một ngôn ngữ này sang một ngôn ngữ khác dựa trên mô hình được sinh ra một cách tự động từ ngữ liệu song ngữ (parallel corpus). Phương pháp dịch máy thống kê lần đầu tiên được Antal và Peter (2009) đề cập trong bài báo với phương pháp sử dụng là mô hình kênh nhiễu. Bài toán được phát biểu như sau: 6

Nguyễn Minh Hiệp, Nguyễn Thị Lương, Lê Văn Phượng, Nguyễn Thị Minh Huyền, và Đinh Viết Tuấn Cho một câu ngôn ngữ nguồn v = v J 1 = v 1,v 2,, v J (tiếng Việt), ta cần dịch sang câu ngôn ngữ đích k = k I 1 = k 1,k 2,, k I (tiếng K Ho). Dịch máy thống kê sẽ chọn một câu kmax (có xác suất cao nhất) trong rất nhiều khả năng dịch được đưa ra. k max = arg max k 1 I p(k 1 I v 1 J ) (1) Sử dụng luật quyết định Bayes, p(k v) được tính như sau: p(k v) = p(v k)*p(k) p(v) (2) Do p(v 1 J ) và p(k 1 J ) không thay đổi với mỗi câu cần dịch khi dựa vào mô hình ngôn ngữ (ngữ pháp) nên công thức (1) có thể được viết lại như sau: k max = arg max k 1 I p(v 1 I k 1 J ) (3) Như vậy, để tính được kmax thì phải tính được các xác suất p(v 1 I k 1 J ) phụ thuộc vào mô hình dịch với câu dịch thích hợp hơn sẽ có xác suất cao hơn. Xác suất này được ước lượng bằng cách sử dụng ngữ liệu song ngữ và sử dụng ý tưởng cách tiếp cận Maximum và mô hình gióng hàng. Xác suất p(v 1 I k 1 J ) được phân tích qua biến ẩn được thêm vào như công thức (4): p(v 1 I k 1 J ) = p(v 1 I,a 1 I k 1 J ) (4) Trong đó p(v 1 I,a 1 I k 1 J ) được gọi là mô hình gióng hàng thống kê và gióng hàng a 1 I được gọi là biến ẩn. Gióng hàng xác định ánh xạ i j = a i : Từ vị trí i của câu nguồn tương ứng với vị trí j = ai của câu đích. Chẳng hạn với trường hợp như Hình 2. Hình 2. Mô hình gióng hàng Gọi a = (v i, k j ) là một liên kết, ta có: p(v 1 I k 1 J )= p(v 1 I,a 1 I k 1 J ). Trong đó, p(v 1 I,a 1 I k 1 J ) được xác định thông qua biểu thức (5). m S p( v j ka ) j j0 p(v, a k) l m (5) Trong đó: l, m lần lượt là độ dài (số từ) của v và k; S là số lần khi p(vj kaj) > 0; p(vj kaj) chính là xác suất của vj khi có kaj (hay nói cách khác là xác suất hai từ này có liên kết với nhau). Xác suất này hoàn toàn có thể thống kê được nhờ tập mẫu. Chẳng hạn, với ví dụ trên, ta có công thức (6). p(v,a k)= 7+[p(chiều mho)+ +p(rải rác bà do bà ne)] 7+7 7 (6)

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] Như vậy, xác suất p(v,a k) hoàn toàn tính được, do vậy p(k v) là tính được. Trong số các câu (k) trong tập mẫu, câu nào cực đại hoá (Maximum) được p(k v) chính là câu dịch cần chọn. Do vậy, thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng phương pháp thủ công, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên phương pháp thống kê. Rõ ràng, cách tiếp cận này không đòi hỏi một sự phân tích sâu về ngôn ngữ, chúng thực hiện hoàn toàn tự động các quá trình phân tích, chuyển đổi, tạo câu dựa trên kết quả thống kê có được từ kho ngữ liệu. Trong phần dưới đây sẽ trình bày cụ thể công thức đã nêu trên và thay vì sử dụng mô hình gióng hàng a với từng cặp tiếng Việt-K Ho mà thay vào đó là câu tiếng Việt với bản dịch của tiếng K Ho thông qua kho dữ liệu ngữ liệu song ngữ. 2.2. Sơ đồ dịch máy thống kê (Statistical Machine Translation - SMT) Sơ đồ dịch máy thống kê được mô tả như Hình 3 sau đây. 2.2.1. Tiền xử lý Hình 3. Sơ đồ dịch máy thống kê Khi nhận được văn bản đầu vào (tiếng Việt) hệ thống cần thực hiện việc xử lý phân đoạn từ tiếng Việt để tiện cho việc xử lý trong STMT. Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký tự được dựa trên hệ chữ cái Latin. Từ trong tiếng Việt ở đây lại không được xác định bởi khoảng trắng. Một từ tiếng Việt có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách nhau bởi các khoảng trắng. Do vậy để tiến tới những ứng dụng xa hơn về xử lý ngôn ngữ tiếng Việt như gán nhãn chức năng cú pháp, phân tích cú pháp hay cụ thể để phục vụ cho việc dịch máy thì việc đầu tiên là phải giải quyết bài toán tách từ. Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải quyết bài toán tách từ. Nhìn chung, các hướng tiếp cận đó được chia thành hai loại: i) Tiếp cận dựa trên từ điển và ii) Tiếp cận dựa trên thống kê. Nghiên cứu này thực hiện việc phân đoạn bằng phương pháp tiếp cận dựa trên từ điển. Ý tưởng của phương pháp này là duyệt một câu từ trái sang phải và chọn từ có nhiều tiếng nhất xuất hiện trong từ điển. Đây là một trong những phương pháp đơn giản nhưng có thể gặp phải rất nhiều các trường hợp nhập nhằng trong tiếng Việt. Tuy nhiên, nghiên cứu này chủ yếu triển khai thử 8

Nguyễn Minh Hiệp, Nguyễn Thị Lương, Lê Văn Phượng, Nguyễn Thị Minh Huyền, và Đinh Viết Tuấn nghiệm hệ thống dịch tự động trong một chủ đề nhất định, cụ thể là bản tin dự báo thời tiết, vì vậy vấn đề về nhập nhằng ngữ nghĩa sẽ ít xuất hiện. Sau khi kết thúc giai đoạn tiền xử lý thì mỗi câu trong đoạn văn bản đã được tách từ. Mỗi câu này sẽ là đầu vào của khối xử lý tiếp theo, khối lọc ra những câu có xác suất cao nhất. Có thể nói đây là khối xử lý phức tạp nhất, tốn nhiều thời gian nhất và chất lượng của nó sẽ ảnh hưởng đến hiệu suất dịch của toàn bộ hệ thống. 2.2.2. Bộ giải mã (Decoder) Phần tiếp theo của một hệ dịch máy thống kê là chức năng tìm kiếm câu đích (giải mã). Chức năng của một bộ giải mã là từ câu nguồn V sẽ tìm câu cần dịch K sao cho tích của hai xác suất mô hình dịch và mô hình ngôn ngữ là lớn nhất. Như đã trình bày ở trên, theo như công thức (5) và theo mô hình gióng hàng a thì p(v 1 I k 1 J ) sẽ được xác định bởi: m S p( v j ka ) j j0 p(v, a k) (7) l m Ví dụ: Với một câu đâu vào như sau: v = Hôm nay nắng nhiều quá (hôm nay nắng nhiều quá). Trong kho dữ liệu ngữ liệu song ngữ có câu: k = ngai tơngai gel du ềt (có bản dịch là Ngày nắng ít quá (ngày nắng ít quá)). Mô hình gióng hàng a sẽ là cặp câu liên kết giữa tiếng Việt và bản dịch của tiếng K Ho thông qua kho dữ liệu ngữ liệu song ngữ như sau: v: Hôm nay nắng nhiều quá k:ngày nắng ít quá Dựa vào từ điển đồng nghĩa ta có các xác suất như sau: p(hôm nay ngày)=0.7, p(nắng nắng)=1, p(nhiều ít)=0.3, p(quá quá)=1 Áp dụng công thức (7), ta có: p(v,a k)= 4+[p(hôm nay ngày)+ +p(quá quá)] = 4+3.0 4+4 4+4 =0.875 xử lý. Như vậy, sau khi chọn được câu có k có xác suất cao nhất, thì sẽ đến bước tiếp theo là hậu 2.2.3. Hậu xử lý Đầu vào của khối xử lý này là câu có kmax xác suất cao nhất được chọn đối với câu cần dịch thông qua bộ giải mã. Chỉ còn một pha cuối cùng chính là pha thay thế, thêm và xóa các từ cho câu đầu vào để có được câu dịch cần tìm. Thực chất đây là sự điều chỉnh phần câu dịch (ngôn ngữ đích) của mẫu để nó trở thành câu dịch cuối cùng. Ví dụ: v: hôm nay nắng nhiều quá; k: ngày nắng ít quá (K Ho: ngai tơngai gel du ềt). Bước 1: Đánh dấu các từ có thể thay thế, ví dụ ở đây từ nhiều là thành phần thay thế của ít. Bước 2: Thực hiện xóa các từ ở câu k. Kết quả hiện tại của câu k: 9

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] Việt: ngày nắng ít quá. K Ho: ngai tơngai gel du ềt. Bước 3: Thực hiện thêm các từ còn thiếu, xóa các từ dư thừa của câu k để giống hoàn toàn với câu input. Kết quả hiện tại của câu k: Việt: hôm nay ngày nắng ít quá. K Ho: ngai do ngai tơngai gel du ềt. Bước 4: Thực hiện pha thay thế, ở đây, từ ít chính là từ được thay thế bởi nhiều. Tra trong từ điển song ngữ từ nhiều có nghĩa là rà. Việc chính ở đây là thay thế trong câu ví dụ từ ít trong câu K Ho thành từ nhiều tương ứng. Trong câu song ngữ như đã nói ở phần kho ngữ liệu, có một trường được gọi là đánh dấu liên kết sẽ biết được từ ít trong câu ví dụ tiếng Việt sẽ tương ứng với từ nào trong câu ví dụ K Ho. Ở đây ít chính là từ du ềt và cuối cùng chỉ cần thay thế từ du ềt thành từ rà. Kết quả: ngai do ngai tơngai gel rà. Vậy câu dịch cuối cùng là ngai do tơngai gel rà. Ở đây, có một đánh giá đối với pha thay thế. Thay vì phải xóa từ ít và thêm vào câu ví dụ từ nhiều thì kết quả sau khi thực hiện pha tạo mẫu: ngai do ngai tơngai rà gel. Bởi thuật toán thêm từ sẽ dựa trên từ đứng sau nó, ở đây từ quá đứng sau nó vậy từ nhiều sẽ được thêm trước từ quá. Vì vậy, kết quả sẽ có một chút sai lệch so với câu k, từ đó mà thể hiện được vai trò của pha thay thế trong trường hợp này. 3. KẾT QUẢ THỰC NGHIỆM Ứng dụng dịch văn bản Việt - K Ho dựa trên phương pháp STMT đã được xây dựng với phạm vi là dịch các bản tin dự báo thời tiết của Đài Phát thanh và Truyền hình tỉnh Lâm Đồng. Chức năng cơ bản là dịch văn bản tiếng Việt thành tiếng K Ho với phạm vi như trên. Theo như thiết kế, hệ thống cần sử dụng đến ba loại dữ liệu chính: Từ điển song ngữ Việt K Ho; Từ điển đồng nghĩa; và Kho dữ liệu song ngữ. Để việc xử lý trong chương trình sau này được thuận tiện thì dữ liệu sẽ được cấu trúc và quản lý bằng hệ quản trị SQL Server. SQL Server là viết tắt của Structure Query Language, nó là một công cụ quản lý dữ liệu được sử dụng phổ biến ở nhiều lĩnh vực. Hầu hết các ngôn ngữ bậc cao đều có trình hỗ trợ SQL như VisualBasic, Oracle,Visual C Các chương trình ứng dụng và các công cụ quản trị cơ sở dữ liệu (CSDL) cho phép người sử dụng truy cập tới CSDL mà không cần sử dụng trực tiếp SQL. Nhưng khi chạy những ứng dụng đó thì phải sử dụng SQL. Chương trình thực nghiệm với cấu trúc từ điển song ngữ Việt - K Ho như Hình 4, cấu trúc từ điển đồng nghĩa được mô tả như Hình 5 và cấu trúc kho ví dụ song ngữ được mô tả như Hình 6. Hình 4. Cấu trúc từ điển Việt - K Ho 10

Nguyễn Minh Hiệp, Nguyễn Thị Lương, Lê Văn Phượng, Nguyễn Thị Minh Huyền, và Đinh Viết Tuấn Hình 5. Cấu trúc từ điển đồng nghĩa Hình 6. Cấu trúc tập mẫu Với phạm vi bản tin thời tiết của Đài Phát thanh và Truyền hình tỉnh Lâm Đồng, các kho dữ liệu đã được xây dựng bao gồm: Kho dữ liệu mẫu: Gồm 212 cặp câu song ngữ Việt K Ho được trích từ các bản tin dự báo thời tiết của các năm 2015, 2016 và 2017 của Đài Phát thanh và Truyền hình Lâm Đồng; Báo Lâm Đồng; và Đài Tiếng nói Việt Nam; Từ điển Việt - K Ho: Gồm 622 từ (Trần, 2014); Từ điển đồng nghĩa: Bao gồm 64 bản từ đồng nghĩa, mỗi từ sẽ có một hay nhiều từ đồng nghĩa (Nguyễn, 2001) và ứng với chúng là xác suất đồng nghĩa; Cùng nghĩa có thể thay thế nhau thì xác suất p(k v) bằng 1 và ngược lại thì khoảng cách bằng 0, càng sát nghĩa thì xác suất càng gần 1. Ngôn ngữ lập trình C#.NET đã được sử dụng với môi trường phát triển là Visual Studio 2013 để xây dựng ứng dụng chạy trên hệ điều hành Windows. Giao diện của ứng dụng như Hình 7. 11

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] 4. KẾT LUẬN Hình 7. Giao diện của ứng dụng Ứng dụng dịch văn bản Việt - K Ho dựa trên phương pháp STMT đã được xây dựng thành công. Ứng dụng dịch khá hiệu quả và câu dịch có chất lượng tốt trong phạm vi bản tin thời tiết của Đài Phát thanh và Truyền hình tỉnh Lâm Đồng. Nhược điểm của hệ thống là đòi hỏi phải có kho ví dụ song ngữ phong phú, từ điển song ngữ và từ điển đồng nghĩa đầy đủ thông tin thì độ chính xác của câu dịch sẽ càng cao. Ứng dụng cần hoàn thiện các nhược điểm trên để tiến tới xây dựng các công cụ phức tạp hơn trong xử lý ngôn ngữ tiếng K Ho như: Dịch văn bản cho nhiều lĩnh vực; Nhận dạng và tổng hợp tiếng K Ho TÀI LIỆU THAM KHẢO Adam, L. (2008). Statistical machine translation. ACM Computing Surveys, 40(3), 1-49. Antal, V. D. B., & Peter, B. (2009). Memory-based machine translation and language modelling. The Prague Bulletin of Mathematical Linguistics, (91), 17-26. Đào, N. T. (2007). Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh - Việt. (Luận văn Thạc sĩ), Học viện Công nghệ Bưu chính Viễn thông, Việt Nam. Nguyễn, V. T. (2001). Từ điển từ đồng nghĩa tiếng Việt. Hà Nội, Việt Nam: NXB. Giáo dục. Pushpak, B. (2006). Machine translation. Florida, USA: CRC Press. Satoshi, S., & Makoto, N. (1990). Toward memory-based translation. Paper presented at The 13 th Conference on Computational Linguistics, Finland. Trần, L. Q. (2006). Kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không. (Luận văn Thạc sĩ), Trường Đại học Bách khoa Hà Nội, Việt Nam. Trần, S. T. (1999). Dân tộc - dân cư Lâm Đồng. Hà Nội, Việt Nam: NXB. Thống kê. Trần, V. L. (2014). Từ điển K Ho - Việt. Hà Nội, Việt Nam: NXB. Giáo dục. 12