Microsoft Word - ICT-rda08HBQuoc.doc

Tài liệu tương tự
Microsoft Word - 7_ Ly_8tr _ _.doc

PHẦN III. NỘI DUNG CHƯƠNG TRÌNH ĐÀO TẠO 1. Tóm tắt yêu cầu chương trình đào tạo Tổng số tín chỉ của chương trình đào tạo: Khối kiến thức chung 158 tín

BÁO CÁO THỰC HIỆN ĐỀ TÀI

VẤN ĐỀ GÁN NHÃN TỪ LOẠI CHO VĂN BẢN TIẾNG VIỆT

Điện toán đám mây của Google và ứng dụng xây dựng hệ thống quản lý dịch vụ Đỗ Thị Phương Trường Đại học Quốc gia Hà Nội; Trường Đại học Công nghệ Chuy

1 Überschrift 1

Toán Ứng Dụng Biên tập bởi: PGS.TS. Nguyễn Hải Thanh

Mau ban thao TCKHDHDL

Chương trình dịch

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC NGOẠI NGỮ CHƯƠNG TRÌNH ĐÀO TẠO TIẾN SỸ LÝ LUẬN VÀ PHƯƠNG PHÁP DẠY HỌC BỘ MÔN TIẾNG ANH HUẾ,

Microsoft Word - cai_dat_android_studio.docx

Thực hành trên Rose Thực hành trên Rose Bởi: Đoàn Văn Ban Xây dựng biểu đồ thành phần + Tạo lập mới hoặc mở một biểu đồ thành phần đã được tạo lập trư

TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN XÂY DỰNG WEBSITE QUẢN LÝ RẠP CHIẾU PHIM TRÊN CƠ SỞ YII FRAMEWORK Hà Nội 2016

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI TRUNG HIẾU NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN QUẢN LÝ DÂN CƯ LU

FB.000.Bia

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Nguyễn Thị Hằng Ngày sinh: 10/

Microsoft Word - Chương trình ĂÀo tạo - Website

cn_cntt_14

Microsoft Word - Tin hoc dai cuong 2015

TCVN 11391:2016 MỤC LỤC 1 Phạm vi áp dụng Tài liệu viện dẫn Thuật ngữ, định nghĩa và các từ viết tắt Thuật ngữ và định nghĩa...

Công ty CP công nghệ thẻ NACENCOMM HÓA ĐƠN ĐIỆN TỬ CA2 CÔNG TY CỔ PHẦN CÔNG NGHỆ THẺ NACENCOMM TÀI LIỆU NGHIỆP VỤ HÓA ĐƠN ĐIỆN TỬ CA2 Hà Nội 12/2017 1

Chöông 1 (tt.)

Microsoft Word - 03-GD-HO THI THU HO(18-24)

Chương II - KIẾN TRÚC HỆ ĐIỀU HÀNH

CHƯƠNG TRÌNH ĐÀO TẠO BẬC ĐẠI HỌC NGÀNH VIỆT NAM HỌC - Tên chương trình: Chương trình đào tạo ngành Việt Nam học - Trình độ đào tạo: Đại học - Ngành đà

(Microsoft Word - B\300I 5. LE THOI TAN, NGUYEN DUC CAN _CHE BAN L1 - Tieng Anh_.doc)

Phân tích và thiết kế hệ thống thông tin

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Nguyễn Văn Tảo Ngày sinh: 05/1

Microsoft Word - [vanbanphapluat.co] qcvn bct

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN LÝ LỊCH KHOA HỌC (Thông tin trong 5 năm gần nhất và có liên quan trực tiếp đến đề

Xử lý thông tin bản đồ trong GIS Xử lý thông tin bản đồ trong GIS Bởi: Vo Quang Minh CẤU TRÚC THÔNG TIN BẢN ĐỒ Giới thiệu Các đối tượng số trong cơ sở

Installation and Operating Instructions (Vietnamese)

Microsoft Word - bai2.doc

TRUNG TÂM ĐÀO TẠO LẬP TRÌNH VIÊN QUỐC TẾ

TÊN CHƯƠNG

Đoàn Viết Hoạt và sứ mệnh xương rồng Đỗ Thái Nhiên So với các loài thực vật khác, xương rồng là loại cây có sức chịu đựng cao cấp nhất và trường kỳ nh

1 Tạo slide trình diễn với Microsoft Powerpoint Tạo slide trình diễn với Microsoft Powerpoint Người thực hiện Hoàng Anh Tú Phạm Minh Tú Nội dung 1 Mục

TẬP ĐOÀN VIỄN THÔNG QUÂN ĐỘI VIETTEL TRUNG TÂM CÔNG NGHỆ THÔNG TIN 1 HƯỚNG DẪN SỬ DỤNG HỆ THỐNG QUẢN LÝ VÀ ĐIỀU HÀNH VĂN BẢN ĐIỆN TỬ Đối tượng Văn thư

Tìm hiểu ngôn ngữ lập trình Visual Basic Tìm hiểu ngôn ngữ lập trình Visual Basic Bởi: Khuyet Danh Tìm hiểu ngôn ngữ lập trình Visual Basic Tổng quan

BỘ GIÁO DỤC VÀ ĐÀO TẠO

CÔNG TY TNHH GIẢI PHÁP TRỰC TUYẾN TOTAL 60 Đường 18, Phường Hiệp Bình Chánh, Quận Thủ Đức, TP.HCM MST:

Hướng dẫn sử dụng Bếp Từ Bosch PID775N24E Bếp từ 3 bếp nhập khẩu Bosch PID775N24E có DirectControl với truy cập trực tiếp đến 17 cấp độ nấu ăn. 3 khu

INSTRUCTION MANUAL AQR-IFG50D

HƯỚNG DẪN SỬ DỤNG BẾP TỪ BOSCH PID679F27E Cảm ơn quý khách hàng đã lựa chọn sản phẩm bếp điện từ mang thương hiệu nổi tiếng BOSCH, hi vọng sản phẩm sẽ

SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 19, No Q Quản trị rủi ro tác nghiệp của ngân hàng theo Basel II - Tình huống ngân hàng Thương mại Cổ phần

Microsoft Word - Co so du lieu - cap nhat

2018 Nhận xét, phân tích, góp ý cho Chương trình môn Tin học trong Chương trình Giáo dục Phổ thông mới

THỦ TƯỚNG CHÍNH PHỦ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Số: 950/QĐ-TTg Hà Nội, ngày 01 tháng 08 năm

BẢN ĐIỀU KIỆN GIAO DỊCH DỊCH VỤ NGÂN HÀNG ĐIỆN TỬ (Ban hành kèm theo Quyết định số 4209/2017/QĐ-TGĐ14 của Tổng Giám đốc MSB) Điều 1. Điều kiện sử dụng

Nội dung chương 3 IT1110 Tin học đại cương Phần I: Tin học căn bản Chương 3: Hệ thống máy tính 3.1. Giới thiệu 3.2. Chức năng và các thành phần của má

CÁC PHƯƠNG PHÁP GIẢNG DẠY TÍCH CỰC

OpenStax-CNX module: m Các ứng dụng của hệ thống thông tin địa lý Võ Quang Minh This work is produced by OpenStax-CNX and licensed under the Cr

Nghiên cứu kiến trúc hệ thống Media - LBS

ĐẠI HỌC QUỐC GIA HÀ NỘICỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc lập - Tự do - Hạnh phúc DANH SÁCH SINH VIÊN ĐẠI HỌC HỆ CHÍNH QU

TIẾN TỚI XÂY DỰNG MỘT BỘ TIÊU ĐỀ CHỦ ĐỀ (SUBJECT HEADINGS) DÙNG CHUNG CHO CÁC THƯ VIỆN VIỆT NAM

Phân tích bài Tiếng nói của văn nghệ

TRƯỜNG Đ CK Joel Murach lay Harris TÜ SACH BẢN QUYỄN FPT Polytechnic P H P v ä MySQL Murach's PHP and MySQL Khởi động nhanh với PHP & MySQL

MB_ver3_Full

Zotero Công Cụ Hỗ Trợ Lưu và Trích Dẫn Tài Liệu Tham Khảo Zotero [zoh-tair-oh] là phần mềm miễn phí và dễ sử dụng, được dùng cho việc sưu tập-lưu trữ,

Hướng dẫn Bài thực hành 7 SGK Tin học 6 | Giải bài tập SGK Tin lớp 6

LUẬN VĂN: Áp dụng quản lý rủi ro vào qui trình thủ tục hải quan đối với hàng hóa xuất, nhập khẩu

17. CTK tin chi - CONG NGHE KY THUAT O TO.doc

Huong dan su dung phan mem Quan ly chat luong cong trinh GXD

365 Ngày Khai Sáng Tâm Hồn Osho Chia sẽ ebook : Tham gia cộng đồng chia sẽ sách : Fanpage :

TRƢỜNG ĐẠI HỌC DUY TÂN TRUNG TÂM TIN HỌC DUY TÂN ĐỀ CƢƠNG KHẢO SÁT TIN HỌC DÀNH CHO KHỐI KHÔNG CHUYÊN TIN TOÀN TRƢỜNG ÁP DỤNG CHUẨN ỨNG DỤNG KỸ NĂNG C

Bài 3 Tựa bài

Đăng ký khu vực bị ô nhiễm tại Việt Nam Phần 1: Thông tin cơ sở

ch­ng1

Microsoft Word - HBO860X \( \) -Vn

Một số thao tác trong windows XP Một số thao tác trong windows XP Bởi: Vien CNTT DHQG Hanoi MỘT SỐ THAO TÁC TRONG WINDOWS XP Tạo đĩa mềm khởi động DOS

CÔNG BÁO/Số ngày BỘ XÂY DỰNG BỘ XÂY DỰNG Số: 10/2010/TT-BXD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Hà Nộ

Microsoft Word - SGV-Q4.doc

PowerPoint Template

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM NGHỆ THUẬT TRUNG ƯƠNG VŨ VĂN HƯNG QUẢN LÝ DI TÍCH LỊCH SỬ - VĂN HÓA Ở HUYỆN NINH GIANG, TỈNH HẢI DƯƠNG L

454 Trịnh Xuân Giang KHAI THÁC NGUỒN HỌC LIỆU MỞ TỪ CÁC THƯ VIỆN TRÊN THẾ GIỚI VỚI GIẢI PHÁP SỬ DỤNG DỊCH VỤ TÌM KIẾM VÀ CHUYỂN GIAO TÀI NGUYÊN THÔNG

000.FF50VI. Trang bia 1 - bia ngoai

Nhập môn Công Nghệ Thông Tin 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Nguyễn Văn Huân Ngày sinh: 10/

Microsoft Word - Note03.doc

NHẬP MÔN CÔNG NGHỆ PHẦN MỀM Giảng viên: Đỗ Thị Thanh Tuyền

Sổ tay hướng dẫn Phương pháp đánh giá hiện trạng bờ biển bằng ghi hình video (SVAM)

0.00 Trang bia

HƯỚNG DẪN TÌM KIẾM VÀ TRUY CẬP CƠ SỞ DỮ LIỆU ĐIỆN TỬ Đăng nhập bằng tài khoản hoặc Khi gặp vấn đề về UEH, v

TRUNG TÂM KINH DOANH VNPT ĐỒNG THÁP o0o TÀI LIỆU HƯỚNG DẪN KHAI THÁC Website QUẢN LÝ CÔNG NỢ - HÓA ĐƠN ĐIỆN TỬ dongthap.vnpt.vn/tt

PowerPoint Presentation

(Microsoft Word - 8. Nguy?n Th? Phuong Hoa T\320_chu?n.doc)

Hợp đồng Chính

QUỐC HỘI

Thủ tục tố tụng tại phiên tòa hình sự sơ thẩm Nguyễn Quỳnh Trang Khoa Luật Luận văn ThS ngành: Luật Hình sự; Mã số: Người hướng dẫn: TS. Nguy

ĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KẾT QUẢ THẨM ĐỊNH ĐỀ TÀI LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH ĐỢT 2/2018 STT MÃ HV HỌ VÀ

Thuyết minh về một danh lam thắng cảnh (Hồ Gươm) – Văn mẫu lớp 8

CHARTER

Nhúng mã-cách khai báo biến Nhúng mã-cách khai báo biến Bởi: Khoa CNTT ĐHSP KT Hưng Yên Nhúng mã javascript trong trang HTML Bạn có thể nhúng JavaScri

ISSN: Tröôøng Ñaïi hoïc Caàn Thô Journal of Science, Can Tho University Säú 28a (2013) Volume 28a (2013)

Microsoft Word - LugiangRoiseditoidau.doc

MẪU CÔNG VĂN CỬ DỰ THI TUYỂN SINH SAU ĐẠI HỌC

03. CTK tin chi - CONG NGHE KY THUAT CO KHI.doc

Bản ghi:

Nghiên cứu và đề xuất một kiến trúc khung cho xử lý tài liệu tiếng Việt 1. Giới thiệu Hồ Bảo Quốc, Hồ Tú Bảo, Đinh Điền Tóm tắt : Trong bài báo này chúng tôi muốn trình bày một quan điểm tổng thể về các đối tượng liên quan đến hệ thống xử lý tài liệu, một kiến trúc phần mềm khung cho việc xử lý tài liệu từ đó đề nghị một giải pháp xây dựng một hệ thống xử lý văn bản tiếng Việt. Trước hết xin được xác đinh rõ nghĩa của thuật ngữ xử lý tài liệu (Text processing) trong ngữ cảnh của bài này là các xử lý liên quan đến việc phân tích nội dung tài liệu (content analyse) chứ không đề cập đến việc soạn thảo, hiệu đính và thể hiện tài liệu. Các ứng dụng liên quan đến phân tích nội dung tài liệu như : xác định ranh giới các đối tượng trong tài liệu như : từ, ngữ, đoạn, câu...đến việc gán nhãn ngữ pháp (từ gốc, từ loại) hay nhãn ngữ nghĩa cho các đối tượng và rút trich thông tin từ nội dung tài liệu để phục vụ cho một lớp các ứng dụng khác nhau như : lập chỉ mục, tìm kiếm, phân lớp... Các ứng dụng này thao tác trên một tài liệu hay một tập các tài liệu, được gọi là kho tài liệu (corpus) và có thể sử dụng một số tài nguyên ngôn ngữ học như các các danh sách cho trước (Gazetteers), danh mục từ (lexicons), hay các ontologies. Nếu các ứng dụng này được phát triển một cách rời rạc, thao tác trên những kho tài liệu với định dạng khác nhau thì sẽ dẫn đến một hệ quả là không thể tích hợp trao đổi kết quả với nhau, mà đây là yêu cầu không thể thiếu được trong xử lý tài liệu : kết quả của một ứng dụng này có thể là đầu vào cho một ứng dụng khác để hình thành một ứng dụng hoàn chỉnh. Ví dụ : chúng ta cần có một ứng dụng rút trích các thực thể được định danh (bài toán NER : Named Entity Recognition), chúng ta sẽ phải thực hiện việc : xác định ranh giới từ (Word Segmentation), gán nhãn từ loại cho từ (POS Tagging), rút trích cụm từ (chunking). Nếu các bài toán (con) này được cài đặt theo cách khác nhau, thao tác trên những định dạng tài liệu khác nhau thì rất khó để có thể kết nối chúng lại với nhau. Chính vì lý do đó nếu chúng ta nhìn bài toán xử lý tài liệu ở mức độ tổng quát hơn, xác định rõ các đối tượng dữ liệu cũng như xử lý tham gia vào bài toán này từ đó đưa ra một khung phần mềm (Software Framework/Software Architecture) thống nhất để tích hợp chúng lại với nhau trong một thể hoàn chỉnh thì sẽ dễ dàng cho việc phát triển, tích hợp cũng như tiến hóa của cả hệ thống xử lý tài liệu. Trong bài báo này chúng tôi cố gắng trình bày lại một cách tổng quát các đối tượng của bài toán xử lý tài liệu, nghiên cứu một khung phần mềm cho xử lý tài liệu đã được phát triển và sử dụng hơn 10 năm nay trên thế giới từ đó đề xuất một khung phần mềm cho xử lý tài liệu

tiếng Việt phù hợp với yêu cầu đặt ra cho phần xử lý tài liệu của đề tài KC01 mã số KC.01.01.04/06-10 mà chúng tôi đang thực hiện. 2. Các đối tượng (tài nguyên) trong bài toán xử lý tài liệu Theo quan điểm của nhóm phát triển GATE [1], mà chúng tôi nhận thấy khá hợp lý, các đối tượng liên quan đến xử lý tài liệu được chia thành 3 loại như sau : các đối tượng dữ liệu, các đối tượng xử lý và các đối tượng thể hiện. - Các đối tượng dữ liệu : là các tài liệu cần xử lý, chúng có thể chỉ là một tài liệu đơn lẻ hay là một tập tài liệu, chúng có thể có các loại định dạng khác nhau. Các tài nguyên ngôn ngữ như : các danh sách (Gazetteers), các bộ từ vựng (lexicons). hay các tài nguyên có cấu trúc phức tạp như các ontologies - Các đối tượng xử lý : là các đơn thể chương trình cài đặt của các thuật toán trong xử lý tài liệu như : xác định ranh giới từ (Word Segmentation), gán nhãn từ loại(pos Tagger), xác định cụm từ (Chunker), bộ phân tích (Parser)... - Các đối tượng thể hiện: là các giao diện (Interface) để thể hiện các tương tác, các kết quả của việc thực hiện một đối tượng xử lý nào đó trên một đối tượng dữ liệu nào đó. Ví dụ: giao diện thể hiện bài toán phân đoạn từ gồm việc tương tác để xác định các tham số, thể hiện kết quả... Các ứng dụng (application) sẽ là tổ hợp của 3 đối tượng này với nhau theo nghĩa : các đối tượng xử lý nào sẽ thao tác trên các đối tượng dữ liệu theo một cấu trúc điều khiển xác định trước và tương tác hay thể hiện thông qua đối tượng thể hiện Sau đây chúng ta sẽ đi chi tiết vào thuộc tính của từng loại đối tượng nêu trên 2.1 Đối tượng dữ liệu Như đã trình bày ở trên, các đối tượng dữ liệu có thể là kho tài liệu (corpus) hay các tài nguyên ngôn ngữ như : danh sách (Gazeteers), bộ từ vựng (lexicons) hay một cấu trúc phức tạp như ontology. Mỗi đối tượng dữ liệu có thể bao gồm tối thiểu các thuộc tính như sau : - Tên : Tên của đối tượng - Vị trí lưu trữ trên đĩa : đường dẫn vật lý đến tập tin hay thư mục - Định dạng : text, doc, pdf, xml... - Tính chất : xử lý tạm thời trong bộ nhớ hay xử lý và lưu trữ thường trực trên thiết bị lưu trữ - Loại : kho nhữ liệu, danh mục từ, ontologies - Bộ nhãn (Annotation Set) : Các thành phần trong đối tượng dữ liệu như từ (word), cụm từ (chunk), đoạn (paragraph), câu (sentence) sẽ được gán nhãn theo một bộ nhãn

nào đó. Mỗi nhãn (Annotation) trong bộ nhãn sẽ có các đặc tính (feature) và mỗi đặc tính sẽ có một giá trị tương ứng. Ví dụ : giả sử chúng ta xét nhãn từ, thì nhãn này có thể có các đặc tính như : vị trí (tương đối trong tài liệu mà từ xuất hiện), từ gốc, bản thân từ, từ loại của từ 2.2 Đối tượng xử lý Mỗi đối tượng xử lý là một đơn thể chương trình cài đặt thuật toán nào đó theo một tiêu chí chung để có thể dễ dàng gắn thêm (plugin) vào hệ thống. Thường chúng có các tính chất như: - Các thông số môi trường - Các tham biến của chương trình - Các thông số chương trình thực thi (tên chương trình, đường dẫn ) Các đối tượng xử lý sẽ thao tác trên đối tượng dữ liệu, cụ thể là với các nhãn của một bộ nhãn nào đó và các đặc tính của nhãn đó. Vi dụ với vài toán xác định ranh giới từ thì chỉ là việc gán nhãn từ cho từng từ trong câu, gán giá trị cho đặc tính vị trí cuản nhãn từ của từng từ. Sau đó bài toán gán nhãn từ loại chính và gán thêm giá trị cho đặc tính từ loại của các từ đã được xác định ranh giới ở bước trước 2.3 Đối tượng thể hiện Là các giao diện cài đặt sẳn phù hợp cho từng bài toán cụ thể, các giao diện này thao tác với các bộ nhãn (Annotation Set), với các nhãn và các đặc tính của nhãn để thể hiện các kết quả trên một giao diện thân thiện với người dung. Hay nói cách khác chúng phân tích tài liệu đã được gán nhãn để thể hiện lên giao diện. Tóm lại, có thể nhìn một các tổng quát như sau : Các đối tượng kho tài liệu sẽ bao gồm một hay nhiều tài liệu, mỗi tài liệu sẽ có một nội dung và nội dung đó sẽ được phân tích và gán nhãn (annotate) theo một hay nhiều bộ nhãn (annotation set) khác nhau. Mỗi nhãn (annotation) trong một bộ nhãn sẽ gồm các đặc trưng(feature), mỗi đặc trưng sẽ được gán một giá trị (value). Các đối tượng xữ lý thao tác trên các bộ nhãn (Annotation Set) của các thành phần trong đối tượng dữ liệu để gán các giá trị cho các đặc trưng của các nhãn trong bộ nhãn đó. Do đó có thể tổng quát hóa các bài toán xử lý tài liệu là các bài toán gán nhãn (Annotate) trên các thành phần trong đối tượng dữ liệu. Các đối tượng thể hiện dựa vào các dữ liệu đã được gán nhãn để thể hiện lên giao diện thân thiện với người dùng.

Ngay khi đã có được một góc nhìn mang tính tổng quát như trên thì việc thiết kế một khung phần mềm để tích hợp các đối tượng này lại với nhau thì chúng ta cũng cần phải xem xét đến các thành phần như : - Các bộ phân tích loại tài liệu khác nhau để có thể làm việc với nhiều loại tài liệu khác nhau - Quản lý lưu trữ các tài liệu trong bộ nhớ và trên đía trong quá trình thao tác - Quản lý các bộ nhãn, nhãn và các đặc trưng của nhãn - Quản lý việc tích họp các đối tượng xử lý - Quản lý thể hiện Tât cả các công việc trên đòi hỏi đầu tư công sức và kinh phí khá lớn nếu chúng ta xuất phát từ con số không. Do đó chúng ta không nên xuất phát từ số không mà nên tận dụng các khung phần mềm có sẳn, đây cũng chính là đề nghị của chúng tôi. Trong phần sau chúng tôi sẽ trình bày chi tiết hơn về một khung phần mềm mã nguồn mở GATE của đại học Sheffield, Anh Quốc mà chúng tôi hy vọng có thể tận dụng để đề xuất cho hệ thống xử lý tài liệu tiếng Việt của đề tài chúng tôi. 3. Kiến trúc tổng quát cho công nghệ ngôn ngữ GATE (General Architecture for Text Enginering) 3.1 Giới thiệu về GATE GATE là một kiến trúc phần mềm tổng quát cho công nghệ tài liệu do nhóm của giáo sư Cunninggham tại đại học Sheffield Anh quốc phát triển từ năm 1997 [1]. GATE dựa trên quan điểm về các đối tượng liên quan đến xử lý tài liệu như đã nêu trong phần trên. GATE cung cấp một khung cơ bản và đầy đủ các công cụ như : quản lý các đối tượng dữ liệu (trong GATE được gọi là Language Resources), các đối tượng xử lý (trong GATE được gọi là các Process Resources) và các đối tượng thể hiện (Visual Resources). GATE cho pháp làm việc với các loại tài liệu khác nhau như : text, pdf, xml Các đối tượng xử lý được thiết kế và các đặc dưới dạng các công cụ gắn vào (plugin) cho phép dễ phát triển thêm và tích hợp vào các công cụ cho sẳn. GATE cũng cho phép kết nối với các công cụ khác như : máy học (machine learning), truy tìm thông tin (information retrieval) GATE cũng cung cấp một giao diện đồ họa (GUI) cho phép người dung tương tác với hệ thống. Các thư viện của GATE cung cấp một khả năng lập trình API khá linh hoạt cho việc phát triển các tài nguyên xử lý cũng như các ứng dụng. GATE được phát triển bắng ngôn ngữ lập trình Java. 3.2 Kiến trúc chung của GATE Kiến trúc chung của GATE có thể được mô tả bằng sơ đồ sau

GATE gồm các lớp (Layer) như sau : Hình 1. Kiến trúc tổng quát của GATE 1. Lớp quản lý các loại tài liệu (Document Format Layer) 2. Lớp quản lý lưu trữ (DataStore Layer) 3. Lớp quản lý kho tài liệu (Corpus Layer): Kho tài liệu được qaurn lý ở nhiều mức khác nhau : a. Kho tài liệu - tài liệu : một kho tài liệu bao gồm một hay nhiều tài liệu b. Nội dung tài liệu - bộ nhãn: nội dung của một tài liệu liên kết với một hay nhiều bộ nhãn c. Nhãn - các đặc trưng của nhãn : một nhãn có một hay nhiều đặc trưng. Đặc trưng giá trị : một đặc trưng sẽ được gán một giá trị cụ thể nào đó 4. Lớp quản lý các đối tượng dữ liệu đặc biệt (Language Resources Layer) như : a. Ontology b. Ontology được tổ chức theo Protégé c. WordNet d. Các danh sách (Gazetteers) 5. Lớp các đối tượng xử lý căn bản như (Processing Resource Layer) : a. Gán nhãn từ loại (POS)

b. Nhận dạng thực thể được định danh (NE) 6. Lớp giao diện (IDE GUI Layer) : giao diện cho phép người dung thao tác trực tiếp 7. Lớp ứng dụng (Application Layer) : là các ứng dụng mà nhóm phát triển đã xây dựng gồm úng dụng (ANNIE và OBIE) Trên kiến trúc chung của GATE như trên, nhóm làm xử lý tài liệu tiếng Việt hoàn toàn có thể phát triển các đói tượng xử lý cho tiếng Việt như : Xác định ranh giói từ, gán nhãn từ loại, xác định cụm tuwd, bộ phân tích cú pháp cho tiếng Việt để gắn thêm vào lớp các đối tượng xử lý căn bản của GATE. Tiếp theo hoàn toàn có thể xây dựng các ứng dụng cho tìm kiếm, phân loại tài liệu theo kiểu các ứng dụng ANNIE va OBIE của GATE [2]. Dĩ nhiên GATE cũng còn các hạn chế của nó như về giao diện thể hiện chưa ổn định, các định dạng kết xuất có thể còn khá phức tạp (do phải phục vụ cho nhiều mục tiêu khác nhau), quản lý lưu trữ có thể chưa tốt.. 3.3 Một ví dụ minh họa Trong ví dụ minh họa này chúng tôi sử dụng GATE để tiến hành các công việc sau: xác định ranh giới câu, xác định ranh giới từ, xác định từ gốc (stemming) và gán nhãn từ loại cho từ trên một kho tài liệu chỉ gồm một văn bản thông qua tương tác với giao diện đồ họa của GATE. Cửa sổ bên trái của GATE là phần chứa các tài nguyên và ứng dụng của GATE, cửa sổ ở giữa là nội dung văn bản đã được phân tích và gán nhãn và cửa sổ bên phải và các bộ nhãn. 1. Trong cửa sổ bên trái, chúng ta có thể thấy 4 mục : a. Language Resources : kho tài liệu chúng ta cần phân tích, trong ví dụ này là một corpus có tên tét chỉ gồm một tài liệu có tên GATE document. b. Processing Resources : là các công cụ (chương trình) chúng ta cần nạp vào bộ nhớ để thực thi, trong thí dụ này gồm bốn chương trình i. Phân đoạn câu (ANNIE Sentence Splitter) ii. Phân đoạn từ (ANNIE English Tokenisez) iii. Xác định gốc từ (Stemmer) : đây là một công cụ gắn vào do một nhóm khác phát triển (Snowball) theo dạng plugin và gắn vào dễ dàng với khung của GATE iv. Gán nhãn từ loại (ANNIE POS Tagger) c. Application : cho phép chúng ta xây dựng một ứng dụng kiêu ống dẫn (PipeLine) từ các công cụ đã load vào bộ nhớ. Nói cách khác xác định một cấu trúc điều khiển việc thực hiện các công cụ trên để đạt được kết quả mong muốn 2. Trong cửa sổ bên trái là các bộ nhãn (Annotation Set) sử dụng trong ứng dụng này 3. Ở cửa sổ giữa là kết quả của tài liệu sau khi phân tích và đã chọn một nhãn (annotation) là token cho từ congestive để thấy các đặc trưng và giá trị tương ứng đã được gán cho chúng (trong cửa sổ nhỏ màu xanh nước biển).

a. Vị trí của từ đă được xác đinh (thông qua vệt sáng tô từ đó highlighted) b. Từ loại (categogy) là : JJ tính từ c. Loại từ (kind) là từ (word) (chứ không phải số (number),,,) d. Lối viết (Orthograph) là chữ in thường (lowercase) e. Từ gốc (stem) là congest f. Chuổi khí tự của từ (string) là congestive Hình 2. Giao diện đồ họa của GATE Đây là một ví dụ minh họa qua giao diện đồ họa để dễ trình bày, tất cả các công việc này đều có thể lập trình thành một chương trình rất dễ dàng dựa vào các thư viện của GATE.

4. Một đề nghị cho hệ phần mềm xử lý tài liệu tiếng Việt Chúng ta không nên bắt đầu từ con số không để có được một khung phần mềm cho xử lý tài liệu tiếng Việt tương tự như GATE. Quan điểm của chúng tôi là thừa kế tất cả những gì có thể thừa kế được từ GATE hoặc một khung phần mềm tổng quát nào đó tương tự để phát triển hệ thống phần mềm xử lý tiếng Việt. Làm như vậy chúng ta sẽ đở tốn công sức cho việc tạo khung quản lý chung như các lớp quản lý dạng tài liệu, quản lý lưu trữ, quản lý các thành phần khá phức tạp của kho ngữ liệu, nội dung tài liệu, các bộ nhãn và các đặc trưng của nhãn. Cụ thể, theo quan điểm của chúng tôi, chúng ta có thể thừa kế các lớp từ 1 4 của GATE, phát triển các tài nguyên xử lý cho tiếng Việt dưới dạng các plugin vào GATE để bổ sung vào lớp thứ 5 của GATE. Chúng ta có thể tận dụng hoặc viết mới lớp thứ 6 để có một giao diện tiếng Việt hợp lý và phát triển các ứng dụng ở lớp thứ 7 như: phân loại văn bản tiếng Việt, tìm kiếm thong tin trên văn bản tiếng Việt... Để làm được điều đó, chúng ta có thể tiến hành các bước như sau: 1. Nghiên cứu và nắm bắt chi tiết kỹ thuật của GATE 2. Phát triển các công cụ theo dạng plugin thêm vào GATE như : a. Công cụ phân đoạn từ b. Công cụ gán nhãn từ loại c. Công cụ trích cụm từ d. Công cụ phân tích câu 3. Phát triển một giao diện riêng cho hệ thống xử lý văn barnt iếng Việt 4. Thay đổi hay viết mới các thành phần mà GATE chưa đáp ứng nhu cầu của chúng ta như các dạng kết xuất, các giao tiếp với các ứng dụng khác. Dĩ nhiên chúng ta có thể không hoàn toàn sử dụng GATE như một hộp đen, mà chúng ta phải hiểu rõ GATE để khai thác, thừa kế các điểm mạnh và khắc phục các điểm yếu hoặc chưa phù hợp với mong muốn của chúng ta. 5. Kết luận Qua phần trình bày trên chúng tôi mong muốn trình bày một cách nhìn tổng thể, thống nhất về các đối tượng của bài toán xử lý tài liệu, nêu lên sự cần thiết nên có một khung phần mềm tổng quát cho bài toán đó. Chúng tôi cũng trình bày một khung phần mềm xử lý tài liệu được nhiều nhóm nghiên cứu trên thế giới sử dụng như một minh họa, từ đó đề xuất một giải pháp tận dụng các hệ phần mềm khung này cho việc phát triển một hệ phần mềm xử lý văn bản tiếng Việt, với mong muốn chúng ta có một chuẩn và một công cụ chung cho việc xử lý văn bản tiếng Việt và chuẩn đó cũng phù hợp với cái mà cộng đồng nghiên cứu thế giới đang thực hiện.

Tài liệu tham khảo [1] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan. GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications. Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL'02). Philadelphia, July 2002. [2] Y. Li, K. Bontcheva, and H. Cunningham. SVM Based Learning System For Information Extraction. J. Winkler, M. Niranjan and N. Lawerence (Eds.): Deterministic and Statistical Methods in Machine Learning, LNAI 3635, Springer Verlag, pp. 319-339. 2005