BÁO CÁO THỰC HIỆN ĐỀ TÀI

Tài liệu tương tự
(Microsoft Word - HD GI?I 14 b\340i TO\301N N\302NG CAO L?P 7.doc)

TRƯỜNG ĐẠI HỌC Y TẾ CÔNG CỘNG TÀI LIỆU HƯỚNG DẪN BÀI TẬP CHUYÊN ĐỀ QUẢN LÝ Dành cho học viên Chuyên khoa II Tổ chức quản lý y tế Hà Nội, 2018

Trường Đại học Dân lập Văn Lang - Nội san Khoa học & Đào tạo, số 5, 11/2005 NHÓM HỌC TẬP SÁNG TẠO THS. NGUYỄN HỮU TRÍ Trong bài viết này tôi muốn chia

Mau ban thao TCKHDHDL

ĐỀ cương chương trình đẠi hỌc

QUY ĐỊNH HỌC PHẦN THỰC TẬP TỐT NGHIỆP ĐỐI VỚI SINH VIÊN CÁC HỆ ĐẠI HỌC LOẠI HÌNH ĐÀO TẠO CHÍNH QUY (Ban hành kèm theo Quyết định số: 1206 /QĐ-HVTC ngà

Toán Ứng Dụng Biên tập bởi: PGS.TS. Nguyễn Hải Thanh

CÔNG BÁO/Số /Ngày BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ GIÁO DỤC VÀ ĐÀO TẠO Số: 14/2018/TT-BGDĐT CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập -

LỜI CAM ĐOAN

B312 M?U BCKT

Microsoft Word - ICT-rda08HBQuoc.doc

Chương 4 Ước lượng tham số Bài giảng Lý thuyết xác suất và thống kê toán Lý thuyết mẫu Phương pháp mẫu Cách trình bày mẫu Các đặc trưng mẫu Tính các đ

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Chương trình dịch

1. PHI1004 Những nguyên lý cơ bản của Chủ nghĩa Mác Lênin 1 2 tín chỉ Học phần tiên quyết: Không Tóm tắt nội dung học phần: Học phần những nguyên lý c

THƯ MỤC SÁCH ÔN LUYỆN THI TỐT NGHIỆP THPT QUỐC GIA NĂM 2018 Thư viện Trường THPT Lê Quý Đôn 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO HỌC VIỆN TÀI CHÍNH BỘ TÀI CHÍNH NGUYỄN HOÀNG DŨNG HOÀN THIỆN TỔ CHỨC HỆ THỐNG THÔNG TIN KẾ TOÁN QUẢN TRỊ TRONG CÁC DOANH NGHIỆP

CHÍNH PHỦ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Số: 42/2013/NĐ-CP Hà Nội, ngày 09 tháng 05 năm 2013

ĐÊ CƯƠNG CHI TIẾT HỌC PHẦN

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH KHOA NGOẠI NGỮ Ngành đào tạo: Sư phạm Anh văn Trình độ đào tạo: Đại học Chương trình đào tạo: Sư phạm

Microsoft PowerPoint - GioiThieu_PMCBCCVC.pptx

NguyenThiThao3B

Microsoft Word Bia va muc luc.doc

QUỐC HỘI

ỦY BAN NHÂN DÂN HUYỆN NHÀ BÈ PHÒNG GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG TRUNG HỌC CƠ SỞ HIỆP PHƯỚC BÁO CÁO TỰ ĐÁNH GIÁ THÀNH PHỐ HỒ CHÍ MINH

BỘ CÔNG AN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Số: 08/2018/TT-BCA Hà Nội, ngày 05 tháng 3 năm 2018

Nghiên cứu ứng dụng mạng nơtron nhân tạo hỗ trợ công tác chọn thầu thi công ở Việt Nam

Phụ lục II

VĂN PHÒNG LUẬT SƯ TÔ ĐÌNH HUY BẢN TIN PHÁP LUẬT THÁNG 04/2017 Liên hệ: Văn Phòng Luật Sư Tô Đình Huy Địa chỉ: 441/15B Điện Biên Phủ, Phường 25, Quận B

CHUYEN NGANH NGON NGU HOC SO SANH - DOI CHIEU.xls

Microsoft Word ke toan_da bs muc 9

PowerPoint Template

CÔNG TY CỔ PHẦN THƯƠNG MẠI XUẤT NHẬP KHẨU THIÊN NAM THUYẾT MINH BÁO CÁO TÀI CHÍNH HỢP NHẤT GIỮA NIÊN ĐỘ (Tiếp theo) MẪU SỐ B 09a-DN THUYẾT MINH BÁO CÁ

Học viện Phật giáo Việt Nam tại TP. HCM Tâm lý học đại cương

Hòa thượng Thích Hành Trụ

PowerPoint Template

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Nguyễn Văn Tảo Ngày sinh: 05/1

chuong_trinh_dao_tao_27_chuyen_nganh

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRUNG TÂM LUYỆN THI THỦ KHOA Hồ Chí Minh - Năm

TỈNH UỶ GIA LAI

Microsoft Word - Tom tat - Le Ha Anh Tuyet.doc

Microsoft Word - GT modun 04 - Nhan dan ong

ĐẢNG BỘ TỈNH BÌNH ĐỊNH

Chuyên đề

Aucun titre de diapositive

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM KHOA GIÁO DỤC CHÍNH TRỊ KHÓA LUẬN TỐT NGHIỆP Đề tài: NGHIÊN CỨU ỨNG DỤNG CÁC BÀI TẬP PHÁT TR

CÔNG BÁO/Số /Ngày QUỐC HỘI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Luật số: 14/2012/QH13 LUẬT Phổ biến, g

Hòa Thượng Trí Tịnh

Chương trình dịch

MỘT SỐ PHƯƠNG PHÁP GIẢI PHƯƠNG TRÌNH CHỨA ẨN DƯỚI DẤU CĂN Ở ĐẠI SỐ LỚP 1O

Consultancy Terms of Reference -

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐH NAM CẦN THƠ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc CHƯƠNG TRÌNH ĐÀO TẠO (Ban hành theo Quyết

2 TỔNG ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM TỔ CHỨC THỰC HIỆN VÀ KẾT QUẢ SƠ BỘ

hướng dẫn sử dụng phần mềm tính toán cỡ mẫu

Microsoft Word - Bai giang ve quan ly DADTXD doc

Microsoft Word - 03-GD-HO THI THU HO(18-24)

Microsoft Word - PHAPLUATDAICUONG[1].doc

Thỏa thuận Quan hệ Khách hàng cho Sản phẩm

BỘ TƯ PHÁP CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Số: 03/2018/TT-BTP Hà Nội, ngày 10 tháng 03 năm 2018

VẤN ĐỀ GÁN NHÃN TỪ LOẠI CHO VĂN BẢN TIẾNG VIỆT

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM NGHỆ THUẬT TRUNG ƯƠNG ĐẶNG THỊ THU TRANG RÈN LUYỆN KỸ NĂNG HÁT CHO SINH VIÊN NGÀNH GIÁO DỤC TIỂU HỌC TRƯ

CƠ QUAN CỦA ĐẢNG BỘ ĐẢNG CỘNG SẢN VIỆT NAM TỈNH LÂM ĐỒNG - TIẾNG NÓI CỦA ĐẢNG BỘ, CHÍNH QUYỀN, NHÂN DÂN LÂM ĐỒNG Tòa soạn: 38 QUANG TRUNG - ĐÀ LẠT Điệ

MỞ ĐẦU

ĐÁNH GIÁ KINH TẾ CÁC PHƯƠNG ÁN PHÁT TRIỂN

17. CTK tin chi - CONG NGHE KY THUAT O TO.doc

ẤN QUANG PHÁP SƯ VĂN SAO TỤC BIÊN ẤN QUANG PHÁP SƯ VĂN SAO TỤC BIÊN Giảng giải: Đại Sư Ấn Quang Việt dịch: Bửu Quang Tự đệ tử Như Hòa PHẦN MƯỜI TÁM 17

Microsoft Word - 1. Bia muc luc nam 2009.doc

MẪU BÁO CÁO TỰ KIỂM TRA, ĐÁNH GIÁ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN NGUYỄN THỊ THANH LOAN BƢỚC ĐẦU THIẾT KẾ NGỮ

ĐÊ CƯƠNG CHI TIẾT HỌC PHẦN

I. MỤC ĐÍCH - YÊU CẦU 1. Kiến thức: - Trẻ biết tên bài tập Bật tách, khép chân qua 7 ô. - Trẻ biết dùng sức của đôi chân để bật tách, khép chân qua cá

Chương trình đào tạo Tiếng Anh trình độ cao đẳng UBND TỈNH TRÀ VINH TRƯỜNG ĐẠI HỌC TRÀ VINH Phụ lục 1 Chính quy CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc

I - CÁC KHÁI NIỆM VỀ CHỢ VÀ PHÂN LOẠI CHỢ :

Microsoft Word - Pressemitteilung_Schiebetuerbeschlaege_M072013_VI

Biên soạn: MS David Dong (Dưỡng Linh Liên Hội Báp-tít Việt Nam Bắc Mỹ)

BỘ VĂN HÓA, THỂ THAO VÀ DU LỊCH TRƯỜNG ĐẠI HỌC VĂN HÓA TP. HỒ CHÍ MINH & QUY CHẾ HỌC VỤ Tài liệu dành cho sinh viê

TỔ CHỨC SHCM MỚI TẠI TRƯỜNG NHƯ THẾ NÀO ?

HỌC VIỆN NÔNG NGHIỆP VIỆT NAM SỔ TAY SINH VIÊN (Dùng cho sinh viên khóa 63) Sinh viên : Mã sinh viên :..

Microsoft Word - Bia va muc luc.doc

Phần mở đầu

ỦY BAN NHÂN DÂN TỈNH ĐỒNG THÁP CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Số:833 /QĐ-UBND.HC Đồng Tháp, ngày 24 tháng 7năm 2017 QU

QUỐC HỘI

BỘ GIÁO DỤC & ĐÀO TẠO TRƢỜNG ĐẠI HỌC CẦN THƠ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập Tự do Hạnh phúc TỔNG HỢP Ý KIẾN PHẢN ÁNH VÀ TRẢ LỜI PHẢN ÁNH,

Số 130 (7.113) Thứ Năm, ngày 10/5/ XUẤT BẢN TỪ NĂM 1985 ƯU T

THÔNG TƯ CỦA BỘ TÀI CHÍNH SỐ 11/2010/TT-BTC NGÀY 19 THÁNG 01 NĂM 2010 HƯỚNG DẪN THỰC HIỆN NGHĨA VỤ THUẾ ĐỐI VỚI NHÀ ĐẦU TƯ VIỆT NAM ĐẦU TƯ RA NƯỚC NGO

CÔNG TY CỔ PHẦN VĂN HÓA DU LỊCH GIA LAI Báo cáo tài chính hợp nhất Cho năm tài chính kết thúc ngày 31/12/2010

Bài giảng Tổ chức sản xuất Người soạn: Trương Hạnh Ly - 1 -

Số 214 (6.832) Thứ Tư, ngày 2/8/ Việt Nam sẽ trở thành cầu nối của Mozambique vớ

Microsoft PowerPoint - L2-Gioi_thieu_WEKA.ppt [Compatibility Mode]

Dịch tự động Dịch tự động Bởi: Wiki Pedia Dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation) là một nhánh của xử lý ngôn ngữ tự nhi

1 I. TÊN ĐỀ TÀI: "MỘT SỐ BIỆN PHÁP TRONG CÔNG TÁC TỔ CHỨC, BỒI DƯỠNG VỀ GIẢI TOÁN TRÊN MÁY TÍNH CẦM TAY CHO HỌC SINH GIỎI LỚP 8; LỚP 9 ĐẠT HIỆU QUẢ."

SỞ GIÁO DỤC VÀ ĐÀO TẠO THÀNH PHỐ ĐÀ NẴNG TRƯỜNG THPT PHAN CHÂU TRINH ĐỀ CƯƠNG ÔN TẬP MÔN NGỮ VĂN LỚP 11 HỌC KÌ I NĂM HỌC A. CẤU TRÚC ĐỀ THI:

BOÄ GIAO THOÂNG VAÄN TAÛI

BỘ TÀI CHÍNH

Microsoft Word - Copy of BCTC doc

CÔNG TY CỔ PHẦN MÔI TRƯỜNG ĐÔ THỊ TỈNH LÀO CAI Số: 66/MTĐT-HĐQT V/v công bố thông tin điều chỉnh một số chỉ tiêu kế hoạch năm 2019 trong báo cáo thườn

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUÂN ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG LUẬN V

Bản ghi:

BÁO CÁO THỰC HIỆN ĐỀ TÀI 1. Tên đề tài nhánh: SP8.3: Hệ phân loại từ Việt 2. Thời gian thực hiện: 11/2007-03/2007 3. Người phụ trách: Phan Xuân Hiếu 4. Kế hoạch của đề tài Nội dung cần thực hiện từ 05/2007 đến 05/2009 Nội dung thực hiện Nghiên cứu tập nhãn từ loại của các ngôn ngữ Ấn-Âu và tập nhãn từ loại của các ngôn ngữ đơn lập tương tự như tiếng Việt (Trung, Thái). SP: 1 báo cáo Nghiên cứu, thống nhất về quy tắc và chuẩn phân loại từ tiếng Việt. SP: 1 báo cáo Hệ prototype gắn nhãn từ loại tiếng Việt với mức thử nghiệm đầu tiên dựa trên dữ liệu sẵn có trong cộng đồng nghiên cứu NLP Việt Nam Thời gian 12/2007 12/2007 03/2008 Xây dựng tập nhãn từ loại tiếng Việt. SP: 1 báo cáo 03/2008 Nghiên cứu các phương pháp gán nhãn từ loại tự động. SP: 1 05/2008 báo cáo Công cụ chuyển đổi dữ liệu từ điển của SP 7.2 sang dữ liệu từ 10/2008 điển dùng cho gán nhãn. SP phần mềm. Đầu vào: từ điển SP 7.2. Đầu ra: Danh sách từ, từ loại Bộ phân lớp MaxEnt và CRF s phần mềm mã nguồn mở xây 12/2008 dựng các hệ phân lớp từ loại từ tiếng Việt. Độ chính xác dự kiến khoảng 90% trở lên. SP phần mềm. Đầu vào: Văn bản đã tách từ. Đầu ra: Văn bản có gán nhãn từ loại. Công cụ hỗ trợ hiệu chỉnh kho ngữ liệu câu đã được gán nhãn. 12/2008 SP phần mềm. Đầu vào: Kho văn bản đã gán nhãn từ loại. Đầu ra: Kho văn bản đã kiểm tra gán nhãn từ loại. Giao diện cho phép biên soạn kết quả. Công cụ đánh giá độ chính xác của gán nhãn tự động. Đầu vào: 12/2008 kho văn bản gán nhãn mẫu và gán nhãn tự động. Đầu ra: Độ đo

đánh giá kết quả gán nhãn tự động. Giao diện web cho phép cộng đồng nghiên cứu tra cứu, cập nhật kho ngữ liệu. SP phần mềm. Đầu vào: Kho văn bản đã gán nhãn. Giao diện web cho phép tra cứu và cập nhật kho ngữ liệu. 04/2009 5. Nội dung đã thực hiện Chúng tôi đã tiến hành xây dựng hệ prototype Phân loại từ Việt với hai phương pháp học máy thống kê là Maximum Entropy và Conditional Random Fields. Ngoài báo cáo tiến độ này, chúng tôi đang xây dựng báo cáo chi tiết về kỹ thuật để các thành viên trong nhóm và liên nhóm tiện trao đổi và phát triển. Nội dung thực hiện cụ thể như sau: a) Kho dữ liệu thử nghiệm: Để xây dựng các hệ thử nghiệm prototype, chúng tôi sử dụng tập dữ liệu được chị Nguyễn Thị Minh Huyền cung cấp. Tập dữ liêu này gồm khoảng 6400 câu và được gắn nhãn ở hai mức: mức 1 gốm 11 nhãn cơ bản và mức 2 gồm tập nhãn được chi tiết hóa. Từ tập nhãn chi tiết ở mức 2 có thể thu gọn về tập nhãn cơ bản ở mức 1 dễ dàng. Các nhãn cơ bản bao gồm: N danh từ; A tính từ; V động từ; P đại từ; Cc liên từ; Cm giới từ; J phụ từ (adverb); E cảm từ; I tình thái từ; Nn số từ; X không được phân loại. Ngoài ra còn 11 nhãn cho các dấu câu, ký tự đặc biệt, các dấu mở đóng ngoặc được gắn nhãn chính là ký tự đó. Tập nhãn mức cụ thể (mức 2) gồm 49 nhãn và 11 nhãn cho các dấu câu, ký tự đặc biệt như trên. Để thử nghiệm và đánh giá, chúng tôi chia tập dữ liệu ra thành 4 phần bằng nhau (4 folds) và thực hiện huấn luyện lần lượt trên 3 phần và kiểm thử độ chính xác trên phần còn lại (thuật ngữ gọi là 4-fold cross validation test). b) Lựa chọn thuộc tính (đặc trưng) ngôn ngữ để huấn luyện hệ phân loại từ Việt: Để huấn luyện cho các hệ thống phân loại, chúng tôi trích chọn các thuộc tính từ dữ liệu như sau. Để phân lớp từ loại cho mỗi từ trong câu, chúng tôi sử dụng một cửa sổ trượt (sliding window) trải rộng từ 2 từ đi phía trước đến 2 từ đi phía sau của từ hiện tại. Và trong cửa sổ đó, các đặc trưng sau được lựa chọn: 1. Các từ trong cửa sổ từ vị trí -2, -1, 0 (vị trí hiện tại), +1, +2 2. Kết hợp của hai từ phía trước từ hiện tại: -2-1 3. Kết hợp của hai từ phía sau từ hiện tại: +1+2 4. Kết hợp từ phía trước và từ hiện tại: -10 5. Kết hợp của từ hiện tại và từ phía sau: 0+1 6. Từ hiện tại có gồm toàn chữ số hay ko? 7. Từ hiện tại có chứa chữ số hay không? 8. Từ hiện tại có chứa ký tự - hay không? 9. Từ hiện tại có được viết hoa toàn bộ hay không? 10. Từ hiện tại có được viết hoa ký tự đầu tiên hay không?

11. Từ hiện tại có phải là một trong các dấu câu hay ký tự đặc biệt hay không? (nghĩa là các ký tự.,!,?,;,/,...) Tập đặc trưng trên đây còn ở mức rất đơn giản do chúng tôi mới bắt đầu quá trình thử nghiệm. Đặc biệt là chúng tôi hoàn toàn chưa sử dụng đến thông tin tra cứu về nhãn từ loại từ từ điển. Trong thời gian tới chúng tôi sẽ thử nghiệm nhiều hơn nhằm tìm ra được những tập đặc trưng khả dĩ nhất. c) Kết quả thử nghiệm: Dưới đây là kết quả thử nghiệm với hai phương pháp học máy Maximum Entropy (MaxEnt) và Conditional Random Fields (CRFs) cho 4 folds tương ứng cho hai mức nhãn cơ bản và chi tiết. Bảng 1. Kết quả gán nhãn từ vựng mức tổng quát (11 nhãn từ vựng và 11 dấu câu) và mức cụ thể (48 nhãn từ vựng và 11 dấu câu) F1-measure (tổng quát) F1-measure (cụ thể) Maxent CRFs Maxent CRFs Fold 1 91.33 91.55 83.82 84.21 Fold 2 91.18 91.56 83.82 84.12 Fold 3 90.22 91.98 82.04 84.01 Fold 4 91.00 91.59 83.70 83.84 T.bình 90.93 91.67 83.35 84.05 Bảng 2. So sánh về chất lượng gán nhãn với các nhãn từ loại khác nhau trong trường hợp tổng quát (thử nghiệm với fold3, mức tổng quát và CRFs) Nhãn Độ chính xác Độ hồi tưởng F1-measure Nn 98.41 97.01 97.7 N 93.09 94 93.54 P 96.48 95.48 95.98 V 89.13 88.74 88.94 Cc 93.59 93.2 93.4 Cm 87.97 90.01 88.98 A 81.09 78.15 79.59 J 92.44 90.22 91.32 E 30.77 70.59 42.98 I 67.07 67.07 67.07 X 81 66.94 73.3 Như vậy độ chính xác trung bình cho mức nhãn cơ bản đối với phương pháp MaxEnt là 90.93% và với phương pháp CRFs là 91.67%. Với mức nhãn chi tiết thì tương ứng là 83.35% và 84.05%. Chúng ta có thể thấy phương pháp CRFs cho độ chính xác cao hơn khá nhiều so với MaxEnt. Với tập dữ liệu chưa đủ lớn và tập đặc trưng đơn giản (chưa tra cứu từ điển) thì độ chính xác này có thể chấp nhận được. Tuy vậy, như dự kiến ban đầu, chúng tôi sẽ thử nghiệm nhiều hơn nữa về các phương pháp học máy, tận dụng các đặc trưng bao gồm cả từ điển và các

nguồn dữ liệu bên ngoài để có thể đạt độ chính xác phân loại từ trên 90% cho mức nhãn chi tiết như dự kiến ban đầu. Precision Recall F1-measure 120 100 80 60 40 20 0 Nn N P V Cc Cm A J E I X Hình 1. So sánh về chất lượng gán nhãn với các nhãn từ loại khác nhau trong trường hợp tổng quát (thử nghiệm với fold3, mức tổng quát và CRFs) Bảng 3. So sánh về thời gian giữa Maximum Entropy và Conditional Random Fields Thời gian trung bình (s) (trên môt vòng lặp) Tối ưu ở vòng lặp thứ (trung bình) Tổng quát Cụ thể Tổng quát Cụ thể Maxent ~3 ~8 ~35 ~40 CRFs ~48 ~353 ~36 ~40 d) Nhận xét: Thực nghiệm cho thấy tính khả quan của các hướng tiếp cận dựa trên CRFs và Maxent đối với bài toán gán nhãn từ vựng trong tiếng Việt. Dù CRFs mất nhiều thời gian hơn cho việc huấn luyện và gán nhãn nhưng nó đem lại cải thiện đáng kể chất lượng gán nhãn (trung bình tốt hơn Maxent 0.7%). Ưu điểm của cả 2 phương pháp trên là ta có thể tích hợp rất nhiều các đặc trưng phong phú, hữu ích từ dữ liệu. Dù chỉ với một số đặc trưng đơn giản (chưa tích hợp từ điển từ vựng, chưa dùng đến các biểu thức chính qui,...), kết quả đạt được vẫn rất đáng chú ý (tốt nhất đạt 91.98% với mức tổng quát và CRFs). Thực nghiệm cũng khẳng định những nhận xét trong [1], đó là việc gán nhãn ở mức cụ thể thường không tốt bằng gán nhãn ở mức tổng quát. Hình 1 cho thấy việc gán với các nhãn từ vựng quan trọng như N, V, P, A đạt được kết quả rất tốt so với các nhãn ít phổ biến hơn như E và I. Chúng tôi tin rằng với việc xây dựng một kho dữ liệu có độ phủ lớn và cân bằng giữa các nhãn thì sự khác biệt này có thể được cải thiện đáng kể.

6. Sản phẩm: Chúng tôi đã tiến hành thử nghiệm phiên bản đầu tiên (mức prototype) cho Hệ phân loại từ Việt dựa trên hai phương pháp học máy MaxEnt và CRFs. Chúng tôi tạm sử dụng tập dữ liệu của chị Minh Huyền cung cấp trước khi thử nghiệm trên tập ngữ liệu chính thức Viet Treebank. Ngoài hệ prototype, chúng tôi có cung cấp thêm báo cáo kỹ thuật ghi lại quá trình thử nghiệm và phát triển để tiện trao đổi trong nhóm và liên nhóm của dự án. 7. Người thực hiện đề tài Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú 8. Đánh giá kết quả - Kịp tiến độ như dự kiến - Kết quả: kết quả thử nghiệm khá khả quan và không khác nhiều lắm so với ước đoán ban đầu - Phát triển thuận lợi với sự trợ giúp của các nhóm khác trong dự án, điển hình là chúng tôi được hỗ trợ về dữ liệu để hoàn thành phần thử nghiệm này. Tài liệu tham khảo: [1]. Dien Dinh and Kiem Hoang, POS-tagger for English-Vietnamese bilingual corpus. HLT-NAACL Workshop on Building and using parallel texts: data driven machine translation and beyond, 2003. [2]. Thi Minh Huyen Nguyen, Laurent Romary, and Xuan Luong Vu, A Case Study in POS Tagging of Vietnamese Texts. The 10th annual conference TALN 2003. [3]. Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, and Xuan Luong Vu, A lexicon for Vietnamese language processing. Language Resources and Evaluation, 2007. [4]. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt