Ví dụ Dịch máy Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT Trường ĐHBKHN Au sortir de la saison 97/98 et s

Tài liệu tương tự
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM NGHỆ THUẬT TRUNG ƯƠNG PHẠM THỊ THU HƯƠNG DẠY HỌC MỸ THUẬT THEO HƯỚNG TIẾP CẬN PHÁT TRIỂN NĂNG LỰC Ở TRƯỜ

Microsoft Word - NOI DUNG BAO CAO CHINH TRI.doc

Chương trình dịch

I - CÁC KHÁI NIỆM VỀ CHỢ VÀ PHÂN LOẠI CHỢ :

Về khả năng của sẽ trong vai trò đánh dấu thời tương lai tiếng Việt Về khả năng của sẽ trong vai trò đánh dấu thời tương lai tiếng Việt Bởi: Trần Kim

toanth.net MỆNH ĐỀ - TẬP HỢP 1. Mệnh đề và mệnh đề chứa biến. Bài 1. Trong các câu dưới đây, câu nào là mệnh đề, câu nào không phải là mệnh đề? Nếu là

Microsoft Word - khoahochethong.docx

PowerPoint Presentation

1

copy Vietnamese by Khoa Dang Nguyen

CÔNG TY TNHH XÂY DỰNG TXD CẨM NANG XÂY NHÀ Dành cho người xây nhà 1 P a g e

Microsoft Word - menh-de-quan-he-trong-tieng-anh.docx

Đề cương chương trình đại học

TÀI LIỆU ĐẠI HỘI ĐỒNG CỔ ĐÔNG THƯỜNG NIÊN NĂM TÀI CHÍNH 2018 Ngày 26 tháng 04 năm 2019

Mau ban thao TCKHDHDL

Layout 1

BỘ ĐỀ THI HỌC KÌ 1 MÔN ĐỊA LÝ LỚP 7 NĂM HỌC 2016 – 2017

Mười Vạn Câu Hỏi Vì Sao?: Toán Học Chia sẽ ebook : Tham gia cộng đồng chia sẽ sách : Fanpage :

BÁO CÁO THỰC HIỆN ĐỀ TÀI

Uû Ban Nh©n D©n tp Hµ néi Céng hoµ x· héi chñ nghÜa viÖt nam

Các biến và các kiểu dữ liệu trong JavaScript Các biến và các kiểu dữ liệu trong JavaScript Bởi: Hà Nội Aptech Các biến (Variables) Biến là một tham c

QUY CHẾ ỨNG XỬ Mã số: NSĐT/QC-01 Soát xét: 00 Hiệu lực: 03/07/2018 MỤC LỤC Trang CHƯƠNG I. QUY ĐỊNH CHUNG... 3 Điều 1. Phạm vi điều chỉnh và đối tượng

Microsoft Word - NhatTuViSuBanTuViSu-KimPhuong

2018 Nhận xét, phân tích, góp ý cho Chương trình môn Tin học trong Chương trình Giáo dục Phổ thông mới

BỘ GIÁO DỤC VÀ ĐÀO TẠO HỌC VIỆN TÀI CHÍNH BỘ TÀI CHÍNH NGUYỄN HOÀNG DŨNG HOÀN THIỆN TỔ CHỨC HỆ THỐNG THÔNG TIN KẾ TOÁN QUẢN TRỊ TRONG CÁC DOANH NGHIỆP

SM-G925F Sách hướng dẫn sử dụng Vietnamese. 04/2015. Rev.1.0

Microsoft Word - Van pháp ti?ng Vi?t.doc

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐỀ CƯƠNG BÁO CÁO CHÍNH TRỊ TRÌNH ĐẠI HỘI ĐẢNG BỘ TỈNH LẦN THỨ XV

1. PHI1004 Những nguyên lý cơ bản của Chủ nghĩa Mác Lênin 1 2 tín chỉ Học phần tiên quyết: Không Tóm tắt nội dung học phần: Học phần những nguyên lý c

Lý thuyết Keynes, các tranh cãi và ngăn chặn suy thoái kinh tế ở Việt Nam Nguyễn Hoàng Bảo,a,1, Hồ Hoàng Anh,b,1, Đoàn Kinh Thành,c,2, a Khoa Kinh Tế

MỞ ĐẦU

Việc hôm nay (cứ) chớ để ngày mai

Microsoft Word - SKKN_TIENG ANH 7

MỘT SỐ LƯU Ý KHI DẠY CÁC TIẾT ÔN TẬP CHƯƠNG Môn Tin học cung cấp cho học sinh những kiến thức phổ thông về ngành khoa học tin học, hình thành và phát

UÛy ban nhaân daân

Nghiên cứu ứng dụng mạng nơtron nhân tạo hỗ trợ công tác chọn thầu thi công ở Việt Nam

Microsoft Word - KHÔNG GIAN TINH THẦN

SO SÁNH TRẬT TỰ TỪ CỦA ĐỊNH NGỮ GIỮA TIẾNG ANH VÀ TIẾNG VIỆT ĐINH ĐIỀN (*) Chính Wilhelm Von Humboldt đã nhận định rằng ngôn ngữ là linh hồn (spirit)

MỞ ĐẦU

SM-G935F SM-G935FD Sách hướng dẫn sử dụng Vietnamese. 02/2016. Rev.1.0

BIỂU ĐẠT HÌNH THÁI DĨ THÀNH TIẾNG ANH TRONG TIẾNG VIỆT 1. Mục đích và phương pháp 1.1. Mục đích 19 ThS. Trương Thị Anh Đào Dựa trên nền tảng lý thuyết

INSTRUCTION MANUAL AQR-IG656AM

DANH MỤC ĐỀ TÀI TIỂU LUẬN MÔN HỌC

PowerPoint Template

BỘ Y TẾ TRƯỜNG ĐẠI HỌC ĐIỀU DƯỠNG NAM ĐỊNH Số: 1893/QĐ-ĐDN CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập -Tự do- Hạnh phúc Nam Định, ngày 09 tháng 12 năm

BCTN 2017 X7 MG thay anh trang don.cdr

ĐỊNH HƯỚNG CÔNG TÁC TUYÊN GIÁO: RA SỨC PHẤN ĐẤU THỰC HIỆN CÁC NHIỆM VỤ PHÁT TRIỂN KINH TẾ-XÃ HỘI NĂM NĂM BẢN LỀ CỦA KẾ HOẠCH 5 NĂM Ngô

Microsoft Word - thuong-mai-dien-tu-va-kiem-tien-online.docx

Successful Christian Living

Cảm nhận về bài thơ Đoàn thuyền đánh cá của Huy Cận

Thuyết minh về lễ hội làng – Văn mẫu lớp 9

Thư Ngỏ Gửi Đồng Bào Hải Ngoại Của Nhà Báo Nguyễn Vũ Bình

User Manual

Nghị quyết số 06/NQ-TW ngày 5/11/2016, Hội nghị lần thứ tư Ban Chấp hành Trung ương Đảng (khóa XII) về thực hiện có hiệu quả tiến trình hội nhập kinh

Truyện ngắn QUẢ PHỤ HOÀNG SA Kính tặng tất cả Quả Phụ Hoàng Sa ĐIỆP MỸ LINH Vừa đẩy cửa bước vào, Bằng hơi khựng lại, vì tiếng đàn và giọ

i LỜI CAM ĐOAN Tôi xin cam đoan tất cả các nội dung của luận văn này hoàn toàn được hình thành và phát triển từ quan điểm của chính cá nhân tôi, dưới

Chương 1:

INTRODUCTION TO THE CRACKING WITH OLLYDBG

Tả người bạn thân của em

SỞ GD ĐT BẮC NINH TRƯỜNG THPT THUẬN THÀNH SỐ 1 ĐỀ KHẢO SÁT CHẤT LƯỢNG LẦN 1 NĂM HỌC Môn: Ngữ văn 11 Thời gian làm bài: 120 phút, không kể th

GV: Trần Thiên Đức - V2011 HƯỚNG DẪN THÍ NGHIỆM BÀI 5 1. Tên bài: Khảo sát hiện tượng quang điện ngoài Xác định hằng số

Thư viện đề thi thử lớn nhất Việt Nam SỞ GD&ĐT KONTUM KIỂM TRA HỌC KÌ I NĂM HỌC TRƯỜNG THPT DUY TÂN MÔN: TIN HỌC - LỚP: 10 Thời gian: 45 phú

Tác Giả: Bản Lật Tử BẢN SONATA ĐÀO HÔN Chương 4 Bữa Trưa Sau khi trải qua lần kiếm ăn rung động lòng người ấy, Mễ Quang ngủ ngon giấc. Sáng sớm hôm sa

Tom tat luan van - Nhung cuoi.doc

Một khuôn khổ cho việc hoạch định chính sách của Mỹ đối với Trung Quốc Những ai suy nghĩ nghiêm túc về quan hệ Mỹ - Trung đều

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Khi đọc qua tài liệu này, nếu phát hiện sai sót hoặc nội dung kém chất lượng xin hãy thông báo để chúng tôi sửa chữa hoặc thay thế bằng một tài liệu c

Kể lại một kỉ niệm sâu sắc về tình bạn

Slide 1

ĐÊ CƯƠNG CHI TIẾT HỌC PHẦN

Microsoft PowerPoint - Chap03_Data processing1

KỸ NĂNG GIAO TIẾP ỨNG XỬ Trong cuộc sống, trong giao tiếp hàng ngày con người luôn phải ứng phó với biết bao tình huống, có lúc dễ dàng xử lý, có lúc

TÓM TẮT LUẬN VĂN Công ty TNHH May Việt Hàn là công ty may của Hàn Quốc, chuyên gia công các sản phẩm may mặc có tính năng bền đẹp, hợp thời trang, chấ

CƠ QUAN CỦA ĐẢNG BỘ ĐẢNG CỘNG SẢN VIỆT NAM TỈNH LÂM ĐỒNG - TIẾNG NÓI CỦA ĐẢNG BỘ, CHÍNH QUYỀN, NHÂN DÂN LÂM ĐỒNG Tòa soạn: 38 QUANG TRUNG - ĐÀ LẠT Điệ

NHỮNG HOẠT ĐỘNG

GO-IXE HƯỚNG DẪN SỬ DỤNG ỨNG DỤNG ANDROID DRIVER Phiên bản /12/2018

Đề cương chương trình đại học

Nokia 8.1 Hướng dẫn sư dụng Bản phát hành vi-vn

Microsoft Word - 7_ Ly_8tr _ _.doc

Microsoft Word - GT modun 04 - Nhan dan ong

ĐÔI DÒNG VỀ TÁC GIẢ: DU LI Tác giả Du Li, tên thật là Nguyễn Thị Phương Dung, aka June Nguyen, sinh năm 1938 tại Hà Nội. Thuở nhỏ đi học ở Hải Phòng (

ĐẠO ĐỨC LẻM NGƯỜI

BỘ GIÁO DỤC VÀ ĐÀO TẠO VỤ GIÁO DỤC TRUNG HỌC CHƢƠNG TRÌNH PHÁT TRIỂN GIÁO DỤC TRUNG HỌC Giai đoạn 2 TÀI LIỆU TẬP HUẤN CÁN BỘ QUẢN LÍ, GIÁO VIÊN TRUNG

BAN CHẤP HÀNH TRUNG ƯƠNG

Chương 2 Phương pháp nghiên cứu khoa học

Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] Phân tích nhân vật Việt và Chiến trong Những đứa con trong gia đình Những đứa con trong gia đình của nhà

Về Hạnh Bố Thí Trong đời sống hàng ngày của mỗi người chúng ta, rất nhiều khi chúng ta cứ thấy khó nghĩ khi phải cho ai hay nhận của ai một cái gì. Ng

TRƯỜNG ĐẠI HỌC TÀI CHÍNH MARKETING KHOA DU LỊCH T CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập Tự do Hạnh phúc Tp. HCM, ngày 26 tháng 11 năm 2018 KẾ HOẠ

1_GM730_VIT_ indd

17. CTK tin chi - CONG NGHE KY THUAT O TO.doc

Trước khi sử dụng Hướng dẫn cơ bản Hướng dẫn chuyên sâu Thông tin cơ bản về máy ảnh Chế độ tự động / Chế độ bán tự động Chế độ chụp khác Chế độ P Chế

ĐÁNH GIÁ BỔ SUNG KẾT QUẢ PHÁT TRIỂN KINH TẾ - XÃ HỘI NĂM 2018, TÌNH HÌNH NHỮNG THÁNG ĐẦU NĂM 2019 VÀ NHIỆM VỤ, GIẢI PHÁP TRỌNG TÂM THỜI GIAN TỚI (Báo

Microsoft Word - Tom tat - Le Ha Anh Tuyet.doc

Các Vấn Đề Cơ Sở Của Khoa Học Máy Tính Th.S GVC Tô Oai Hùng BAØI TAÄP CHÖÔNG 1 1. Viết giải thuật để mô tả thói quen mỗi buổi sáng của bạn, từ lúc ngh

Bản ghi:

Ví dụ Dịch máy Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT Trường ĐHBKHN Email: huonglt@soict.hust.edu.vn Au sortir de la saison 97/98 et surtout au debut de cette saison 98/99 With leaving season 97/98 and especially at the beginning of this season 98/99 1 2 Các vấn đề 1. Xử lý sự giống và khác nhau giữa các ngôn ngữ Hình vị: # số âm tiết/từ: Ngôn ngữ đơn âm tiết ( tiếng Việt, Trung Quốc) 1 tiếng/từ Ngôn ngữ đa âm tiết (Siberian Yupik), 1 từ = cả 1 câu Mức độ phân chia âm tiết Các vấn đề 2. Cú pháp: trật tự từ trong câu To Yukio; Yukio ne Tiếng Anh tiếng Việt: The (affix1) red (affix2) flag (head) Lá cờ (head) đỏ (affix2) ấy (affix1) 3. Các nét riêng biệt English brother Vietnamese anh em English wall German wand (inside) mauer(outside) German berg English hill mountain 3 4 1

Không gian khái niệm Ba khối chính trong dịch máy ngôn ngữ nguồn S hiểu ngôn ngữ dịch ngôn ngữ ngôn ngữ đích T thông tin ánh xạ ngôn ngữ nguồn - đích Khoảng trống từ vựng: tiếng Nhật không có từ nào nghĩa privacy; tiếng Anh không có từ ứng với yakoko (lòng hiếu thảo) 5 6 Hiểu ngôn ngữ 1. Nhập nhằng từ vựng: English: book - Spanish libro, reservar Sử dụng thông tin cú pháp 2. Nhập nhằng cú pháp: I saw the guy on the hill with the telescope 3. Nhập nhằng ngữ nghĩa: E: While driving, John swerved & hit a tree John s car S: Minetras que John estaba manejando, se desvio y golpeop con un arbo Các phương pháp dịch máy cao mức trừu tượng thấp s a siêu ngôn ngữ ngữ nghĩa g cú pháp t từ-từ a = a(s) g = f(a(s)); f hàm chuyển đổi t=g(f(a(s))) siêu ngôn ngữ dịch chuyển đổi dịch trực tiếp 7 8 2

Sơ đồ chuyển đổi Luật chuyển đổi 9 10 Sơ đồ chuyển đổi Cách tiếp cận siêu ngôn ngữ: sử dụng nghĩa Chuyển đổi: các luật chuyển đổi từ ngôn ngữ này sang ngôn ngữ khác Đối tượng/sự kiện (ontology) 11 12 3

Các kiểu dịch máy Dịch máy thống kê cao mức độ trừu tượng thấp s a siêu ngôn ngữ ngữ nghĩa } chuyển đổi cú pháp g t từ-từ 13 14 ý tưởng Coi việc dịch như bài toán kênh có nhiễu Input (Nguồn) Noisy Output (đích) The channel E: English words... (adds noise ) F: Les mots Anglais... Dịch máy thống kê Mô hình dịch: P(E F) = P(F E) P(E) / P(F) Khôi phục lại E khi biết F: Sau khi đơn giản hóa (P(F) không đổi): argmax E P(E F) = argmax E P(F E) P(E) 15 16 4

Các yếu tố Mô hình ngôn ngữ - Language Model (LM): xác suất thấy 1 câu tiếng Anh (E) (xác suất tiền nghiệm): P(E) Mô hình dịch - Translation Model (TM): câu đích trong tiếng Pháp (F) khi có câu tiếng Anh: P(F E) Thủ tục tìm kiếm: Cho F, tìm E tốt nhất sử dụng mô hình ngôn ngữ LM và mô hình dịch TM. Vấn đề: thiếu dữ liệu! Ta không thể tạo từ điển câu E F Thậm thí bình thường ta không thấy 1 câu lặp lại 2 lần 17 Ý tưởng gióng hàng Mô hình dịch TM không quan tâm đến chuỗi đúng các từ tiếng Anh Sử dụng cách tiếp cận gán nhãn: 1 từ tiếng Anh( tag ) ~ 1 từ tiếng Pháp ( word ) không thực tế: thậm chí số từ trong 2 câu không bằng nhau sử dụng gióng hàng. Gióng hàng câu: tìm các nhóm câu trong 1 ngôn ngữ tương ứng với các nhóm câu khác trong ngôn ngữ khác 18 Gióng hàng câu Gióng hàng câu The old man is happy. He has fished many times. His wife talks to him. The fish are jumping. The sharks await. El viejo está feliz porque ha pescado muchos veces. Su mujer habla con él. Los tiburones esperan. 1. The old man is happy. 2. He has fished many times. 3. His wife talks to him. 4. The fish are jumping. 5. The sharks await. 1. El viejo está feliz porque ha pescado muchos veces. 2. Su mujer habla con él. 3. Los tiburones esperan. 19 20 5

Gióng hàng câu 1. The old man is happy. 2. He has fished many times. 3. His wife talks to him. 4. The fish are jumping. 5. The sharks await. 1. El viejo está feliz porque ha pescado muchos veces. 2. Su mujer habla con él. 3. Los tiburones esperan. Khó khăn: Sự liên quan chéo: trật tự câu thay đổi khi dịch Gióng hàng từ - Mức dễ 21 22 Gióng hàng từ - Khó hơn Gióng hàng từ - Khó hơn 23 24 6

Gióng hàng từ - Khó Gióng hàng từ - Mã hóa 0 1 2 3 4 5 6 e 0 And the program has been implemented f 0 Le programme a été mis en application 0 1 2 3 4 5 6 7 Gán thông tin tuyến tính: f 0 (1) Le(2) programme(3) a(4) été(5) mis(6) en(6) application(6) e 0 And(0) the(1) program(2) has(3) been(4) implemented(5,6,7) 25 26 Học việc gióng hàng từ sử dụng EM Học việc gióng hàng từ sử dụng EM 27 28 7

Học việc gióng hàng từ sử dụng EM Kênh nhiễu Mô hình ngôn ngữ P(e) e Mô hình dịch P(f e) f Giải mã Argmax e =P(e f) e 29 30 Các thành phần của mô hình dịch Giả thiết Việc dịch các dữ liệu độc lập với nhau 1 từ tiếng Anh n từ tiếng Pháp 1 từ tiếng Pháp - (0-1) từ tiếng Anh l l m 1 P( f )( e ) P f j ea j Z a1 am 0 j 1 f j - từ j trong f; a j - vị trí trong e được gióng hàng với f j e aj - từ trong e được gióng hàng với f j Z là hằng số chuẩn hóa a j = 0: từ j trong câu tiếng Pháp được gióng hàng với một từ rỗng (không dịch sang) m độ dài của f 31 Ví dụ P(Jean aime Marie John loves Mary) Gióng hàng(jean, John), (aime, loves), (Marie, Mary), ta có 3 xác suất P(Jean John) x P(aime loves) xp(marie Mary) 32 8

Giải mã e arg max P( e f ) arg max P( e) P( f e) P( f ) arg max P( e) P( f e) Vấn đề: không gian tìm kiếm vô hạn Mẹo: tìm kiếm dùng ngăn xếp: xây dựng dần, lưu trong stack các phần đã dịch sử dụng một số độ đo về độ phù hợp, vd., chamber/house, (nhưng có thể đi sai đường nếu 1 từ thường xuất hiện với từ khác, như commune/house, vì có Chambre de Communes (hạ nghị viện) e e e 33 Học mô hình dịch Ta muốn đánh giá xác suất dịch p(f e) từ tập dữ liệu song ngữ... nhưng không có thông tin về gióng hàng Bài toán con gà quả trứng nếu ta có gióng hàng --> có thể đánh giá các tham số của mô hình nếu ta có các tham số của mô hình --> có thể đánh giá gióng hàng 34 Thuật toán EM Dữ liệu không đầy đủ Nếu có dữ liệu đầy đủ --> có thể đánh giá mô hình Nếu có mô hình --> có thể lấp lỗ hổng của dữ liệu EM: khởi tạo các tham số của mô hình gán xác suất cho phần dữ liệu thiếu đánh giá các tham số của mô hình từ phần dữ liệu đủ Lặp lại quá trình 35 Thuật toán EM Expectation-Step: áp dụng mô hình vào dữ liệu thiếu thông tin về một phần của dữ liệu (gióng hàng) sử dụng mô hình, gán xác suất với 1 giá trị nào đó Maximization-Step: đánh giá mô hình từ dữ liệu dùng các giá trị được gán như giá trị đúng đếm sự xuất hiện của các tham số trong mô hình (với trọng số là xác suất) đánh giá mô hình từ phép đếm Lặp đến khi hội tụ 36 9

Thuật toán EM Expectation-step Khởi tạo giá trị P(w f w e ) ngẫu nhiên Tính số lần tìm thấy w f trong tiếng Pháp khi có w e trong tiếng Anh z,( ) P w w w f we f e ( e,) f. s. t w Maximization-step e, e wf f Đánh giá lại xác suất dịch P từ giá trị z trên: P( w w ) w, w f e z v v, we tổng được tính trên tất cả các từ tiếng Pháp v z f e Đánh giá Đánh giá dựa trên tập ngữ liệu Hansard: 48% câu tiếng Pháp được dịch đúng 2 loại lỗi: Dịch sai nghĩa: Permettez que je donne un example à chambre Let me give an example in the House (incorrect decoding) (Let me give the House an example) Dịch sai ngữ pháp: Vous avez besoin de toute l aide disponsible You need all of the benefits available (ungrammatical decoding) (You need all the help you can get) 37 38 Lý do Hiện tượng méo: từ tiếng Anh ở đầu câu được gióng hàng với từ tiếng Pháp ở cuối câu hiện tượng này giảm xác suất gióng hàng Hiện tượng sinh (fertility): sự tương ứng giữa từ tiếng Anh và tiếng Pháp (1-to-1, 1-to-2, 1-to-0, ), Vd, fertility(farmers) trong tập ngữ liệu = 2, vì từ này khi dịch sang tiếng Anh thường gồm 2 từ : les argiculteurs To go aller 39 Lý do Các giả thiết độc lập: các câu ngắn được ưu tiên hơn vì có ít xác suất hơn (khi nhân) nhân kết quả với 1 hằng số tỉ lệ thuận với độ dài câu Phụ thuộc dữ liệu luyện: 1 thay đổi nhỏ trong dữ liệu luyện gây ra thay đổi lớn trong các giá trị ước lượng tham số Vd, P(le the) thay đổi từ 0.610 xuống 0.497 TÍnh hiệu quả. Bỏ các câu > 30 từ, vì làm không gian tìm kiếm tăng theo cấp số mũ Thiếu tri thức ngôn ngữ 40 10

Thiếu tri thức ngôn ngữ Không lưu thông tin về các ngữ: ví dụ không gióng hàng được to go và aller Không có ràng buộc cục bộ: Eg, is she a mathematician Âm vị. Các từ tạo bởi các âm vị khác nhau được coi là các ký hiệu riêng biệt Dữ liệu thưa. Các đánh giá cho các từ ít gặp không chính xác Các hệ thống gióng hàng khác Các tập ngữ liệu sử dụng giả thiết: Dữ liệu song song (dịch E F) Gióng hàng câu Phát hiện câu Gióng hàng câu Gióng hàng từ Tách từ Gióng hàng từ (với 1 số ràng buộc) 41 42 Phát hiện biên của câu Gióng hàng câu Sử dụng luật, danh sách liệt kê: Dấu kết thúc câu: Dấu ngắt đoạn (nếu được đánh dấu) 1 số ký tự:?,!, ; Vấn đề: dấu chấm. Kết thúc câu (... left yesterday. He was heading to...) Dấu chấm thập phân : 3.6 (three-point-six) Dấu chấm hàng nghìn: 3.200 Viết tắt: cf., e.g., Calif., Mt., Mr. Vân vân:... 1 số ngôn ngữ: 2nd ~ 2. Ký hiệu đầu: A. B. Smith Phương pháp thống kê: vd Maximum Entropy 43 Vấn đề với phát hiện biên của câu: E: F: Đầu ra mong đợi: Các phân mảnh với cùng số lượng mảnh liên tiếp nhau. Gióng hàng: E: F: Kết quả: 2-1, 1-1, 1-1, 2-2, 2-1, 0-1 44 11

Các phương pháp gióng hàng Nhiều phương pháp (xác suất hoặc không) Dựa trên độ dài ký tự Dựa trên độ dài từ cùng gốc (sử dụng nghĩa từ) Sử dụng từ điển (F: prendre ~ E: make, take) Sử dụng khoảng cách từ (độ tương tự): tên, số, từ vay mượn, từ gốc Latin Kết quả tốt nhất: Thống kê, dựa trên từ hoặc dựa trên ký tự 45 Gióng hàng dựa trên độ dài Định nghĩa bài toán như việc tính xác suất: argmax A P(A E,F) = argmax A P(A,E,F) (E,F cố định) Định nghĩa 1 bead : E: F: Lấy xấp xỉ: bead (2:2) P(A,E,F) Π i=1..n P(B i ), Trong đó B i là 1 bead; P(B i ) không phụ thuộc vào phần còn lại của E,F. 46 Nhiệm vụ gióng hàng Định nghĩa: Cho P(A,E,F) Π i=1..n P(B i ), tìm cách chia (E,F) thành n bead B i=1..n, sao cho tối đa xác suất P(A,E,F) trên tập luyện. B i = p:q α i, với p:q {0:1,1:0,1:1,1:2,2:1,2:2} mô tả phép gióng hàng Pref(i,j) xác suất của cách gióng hàng tốt nhất từ điểm đầu cho đến (i,j) Định nghĩa đệ qui Khởi tạo: Pref(0,0) = 1. Pref(i,j) = max ( Pref(i,j-1) P( 0:1 α k ), Pref(i-1,j) P( 1:0 α k ), Pref(i-1,j-1) P( 1:1 α k ), Pref(i-1,j-2) P( 1:2 α k ), Pref(i-2,j-1) P( 2:1 α k ), Pref(i-2,j-2) P( 2:2 α k ) ) E: F: P( Pref(i-2,j-2) Pref(i-2,j-1) Pref(i-1,j-2) Pref(i-1,j-1) Pref(i-1,j) P( 2:2 P( α 2:1 P( k ) α 1:2k ) 1:0 α k ) Pref(i,j-1) P( 0:1 1:1 α k ) j i 47 48 12

Xác suất của 1 Bead Định nghĩa P( p:q α k ): k đề cập đến bead kế tiếp, với các đoạn của câu p và q, độ dài l k,e và l k,f. Sử dụng phân bố chuẩn cho các độ dài khác nhau: P( p:q α k ) = P(δ(l k,e,l k,f,µ,σ 2 ),p:q) P(δ(l k,e,l k,f,µ,σ 2 ))P(p:q) δ(l k,e,l k,f,µ,σ 2 ) = (l k,f - µl k,e )/ l k,e σ 2 Đánh giá P(p:q) từ tập dữ liệu nhỏ, hoặc đoán và đánh gía lại sau khi gióng hàng Từ có thể được dùng như dấu hiệu tốt hơn để định nghĩa P( p:q α k ). 49 Gióng hàng từ Nếu chỉ dựa trên độ dài, không thực hiện được: từ có thể bị đảo trật tự, các phép dịch thường có độ dài khác nhau Ý tưởng: Đưa ra vài mô hình dịch đơn giản. Tìm các tham số bằng cách xét tất cả các cách gióng hàng. Sau khi có tham số, tìm cách gióng hàng tốt nhất khi có các tham số này. 50 Thuật toán gióng hàng từ Cách gióng hàng tốt nhất Khởi tạo với tập ngữ liệu gióng hàng câu. Cho (E,F) là 1 cặp câu (là 1 bead). 1. Khởi tạo ngẫu nhiên p(f e), f F, e E. 2. Đếm trên tập ngữ liệu: c(f,e) = Σ (E,F);e E,f F p(f e) với cặp gióng hàng (E,F), kiểm tra xem e có trong E và f có trong F không. Nếu đúng, bổ sung p(f e). 3. Đánh giá lại: p(f e) = c(f,e) / c(e) [c(e) = Σ f c(f,e)] 4. Lặp đến khi p(f e) thay đổi ít. 51 Với mỗi cặp (E,F), tìm A = argmax A P(A F,E) = argmax A P(F,A E)/P(F) = argmax A P(F,A E) = argmax A (ε / (l+1) m Π j=1..m p(f j e aj )) = argmax A Π j=1..m p(f j e aj ) Sử dụng thuật toán lập trình động theo kiểu Viterbi. Tính lại p(f e) 52 13

Ví dụ Cuộc_sống tươi đẹp. Life is beautiful. Dịch máy sử dụng cú pháp It is my life. Đây là cuộc_sống của tôi. 53 54 Tại sao dùng cú pháp Cần thông tin ngữ pháp Cần các ràng buộc khi sắp lại câu Khi chèn các từ chức năng vào câu, cần đặt ở vị trí chính xác Khi dịch từ cần sử dụng từ có cùng từ loại với nó Yamada and Knight (2001): Lý do cần cú pháp 55 56 14

Mô hình dựa trên cú pháp Cây cú pháp (Anh) câu (Nhật) Cây cú pháp (tiếng Anh) Mô hình dịch Câu (tiếng Nhật) Tiền xử lý câu tiếng Anh bằng bộ PTCP Thực hiện các phép tính xác suất trên cây cú pháp Sắp lại trật tự các nút Chèn nút mới vào Dịch các từ ở lá 57 58 1. Sắp lại trật tự Bảng tham số: sắp lại Trật tự gôc Sắp lại P(Sắp lại Trật tự gốc) Đặc trưng điều kiện = dãy các nhãn con 59 60 15

2. Chèn Bảng tham số: chèn Đặc trưng điều kiện = nhãn cha & nhãn nút (vị trí) & none (là từ) 61 62 3. Dịch Bảng tham số: Dịch Đặc trưng điều kiện = từ (tiếng Anh) Ghi chú: Dịch thành NULL xóa 63 64 16

Thử nghiệm Dữ liệu luyện: 2000 cặp câu J-E J: tách từ sử dụng Chasen E: PTCP sử dụng bộ PTCP Collins Luyện trên 40000 câu từ Treebank, độ cx ~90% E: từ cây cú pháp, xác định trật tự từ và chuyển đổi (SVO <-> SOV) Luyện sử dụng EM: 20 vòng lặp Kết quả Điểm trung bình Y/K model 0.582 10 IBM model 5 0.431 0 #câu Điểm trung bình được tính trên 3 người với 50 câu ok(1.0), không chắc (0.5), sai (0.0) chỉ tính độ chính xác 65 66 Kết quả: gióng hàng 1 Kết quả: gióng hàng 2 67 68 17

Một số mã nguồn mở Xem http://fosmt.org/ Moses Giza++ Một số hệ thống dịch máy trên Internet http://www.google.com/language_tools?hl=en http://www.systransoft.com/index.html http://babelfish.altavista.digital.com/ 69 70 71 72 18

74 75 19