GIỚI THIỆU, HƯỚNG DẪN CÀI ĐẶT VÀ SỬ DỤNG PLUGIN TIÊN LƯỢNG GENE GÂY BỆNH TÍCH HỢP VÀO PHẦN MỀM CYTOSCAPE 1. Giới thiệu Cytoscape: là một nền tảng phần mềm mã nguồn mở. Cytoscape được thiết kế cho nghiên cứu sinh học để giúp phân tích mạng tương tác phức tạp một cách trực quan. Ngoài các tính năng có sẵn thì cytoscape còn cho phép cộng đồng sử dụng có thể viết các module ứng dụng (gọi là plugin) có thể cài đặt tích hợp với cytoscape, và sử dụng thư viện lõi của cytoscape để thực hiện các bài toán của riêng của các nhà nghiên cứu sinh học. Các plugin sau đó được tập hợp lại thành một kho các plugin. Phần mềm tiên lượng gen gây bệnh được xây dựng là một module phân tích dữ liệu sinh học dựa trên bài toán TIÊN LƯỢNG GEN GÂY BỆNH, và mô phỏng mạng tương tác phức tạp này một cách trực quan. Chương trình này được tích hợp vào phần mềm CytoScape. Phần mềm được viết bằng ngôn ngữ Java, sử dụng công cụ NetBeans IDE 8.0. Đồng thời, để phần mềm trực quan hơn, chúng tôi có sử dụng các thư viện trên nền của phần mềm CytoScape 2.5, 2.6, 2.8. 2. Hướng dẫn cài đặt sử dụng phần mềm 2.1 Hướng dẫn cài đặt phần mềm: Để cài đặt và sử dụng được phần mềm, bạn cần cài đặt môi trường Java và cài đặt CytoScape 2.8.3 (phần mềm cũng tương thích với bản Cytoscape 2.8.2). Bạn có thể download jdk tại: http://www.oracle.com/technetwork/java/javase/downloads/index.html Bạn có thể download CytoScape tại: http://www.cytoscape.org/ * Tiến hành cài đặt: Bước 1: Mở Cytoscape. Bước 2: Chọn Plugins -> Install plugin from File 1
Hình 1: Cài đặt plugin tiên lượng gen gây bệnh Hình 2: Chọn tới file GenPri.jar 2
Hình 3: Thông tin về plugin tiên lượng gen gây bệnh sau khi cài đặt thành công phần mềm lên hệ thống Cytoscape 2.2 Hướng dẫn sử dụng: Phần mềm chúng tôi xây dựng gồm 5 chức năng chính: - Nhập dữ liệu sinh học. - Thực thi thuật toán tiên lượng gen gây bệnh. - Hiển thị và kết xuất kết quả tính toán của thuật toán. - Mô phỏng mạng tương tác các gen từ thông tin đầu vào. - Tìm kiếm và xem thông tin về các gene. a) Nhập dữ liệu sinh học Chọn tab ImportData như trong hình 3
Hình 4: Chức năng nhập dữ liệu sinh học Cần nhập đầy đủ thông tin dữ liệu cho chương trình gồm: danh sách Candidate Genes, PPI Network, MiRNA Target Genes, Disease Genes, và các Normal Genes. Đây là các dữ liệu phục vụ cho bài toán tiên lượng gene gây bệnh. Với mỗi loại dữ liệu cần chọn tab tương ứng với dữ liệu đó Các bạn có thể xem toàn bộ thông tin về các gen bằng cách click vào ID của gen đó, dữ liệu sẽ được liên kết tới trang http://www.genecards.org/ tại đây sẽ cung cấp đầy đủ thông tin chi tiết về gene bạn quan tâm. 4
b) Thực thi thuật toán: Hình 5: Thuật toán 1 Thuật toán 1, sẽ cho ra được kết quả là các vector dưới định dạng arff, kết quả này sẽ được sử dụng phục vụ cho việc tính toán trên phần mềm weka và một số phần mềm xử lí file arff. 5
Hình 6.1 : Bổ sung thêm dữ liệu Wij cho thuật toán thứ 2 Thuật toán 2, chính là thuật toán Random Walk with Restart để tiên lương gen gây bệnh. Trong hình 6.2 là kết quả tính toán ứng với các tham số được sử dụng để kiểm tra. Và đưa ra Top 10 kết quả cao nhất. Hình 6.2: Thuật toán 2(Random Walk with Restart) Trình tự thực hiện đối đối với thuật toán 2 1. Nhập vào ma trận Wij. 2. Khởi tạo vector Go. 6
3. Thiết lập tham số r. 4. Thiết lập tham số alpha. 5. Thiết lập số lượng gene trong danh sách xếp hạng có khả năng gây bệnh cao nhất. 6. Ấn Make Gr để bắt đầu thực thi thuật toán, sau khi tính toán hoàn thành sẽ có thông báo hiển thị, thời gian tính toán phụ thuộc vào lượng dữ liệu mà bạn nhập vào. 7. Ấn View để hiển thị kết quả tính (như hình 6.2) 8. Nếu muốn xem thông tin về 1 Gen nào đó thì nhập ID của Gene và chọn More detail, thông tin đầy đủ về gene bạn quan tâm sẽ được hiển thị. 9. Để lưu lại kết quả này bạn chọn Save. c) Hiển thị kết quả Đối với thuật toán RWR, trong phần hiển thị kết quả này, ta có thể xem danh sách các gen cùng với xác suất tính được sau quá trình thực thi thuật toán. 7
Hình 7: Kết quả thuật toán RWR Ngoài ra, ta còn có thể trích xuất dữ liệu ra định dạng arff như trong thuật toán 1, để làm dữ liệu tính toán cho một số phần mềm phân tích dữ liệu khác ví dụ như phần mềm weka. 8
d) Vẽ mạng tương tác gen Đây là chức năng mở rộng chúng tôi xây dựng. Chức năng này có được nhờ sự hỗ trợ tích cực của thư viện CytoScape. Từ các dữ liệu PPI Network, MiRNA Target Genes, Disease Genes,... đưa vào ban đầu, chương trình sẽ dựng lại mạng tương tác giữa các gen với nhau, và cho ta một cái nhìn trực quan về mối quan hệ giữa các gene này. Hình 8.1: Chức năng mô phỏng mạng tương tác gen Sau khi dữ liệu được nhập đầy đủ, ta có thể tiến hành dựng mạng các gene theo trình tự sau: Hình 8.2: Tùy chọn hiển thị mạng các gen 9
Vào Plugins, sẽ có 2 tùy chọn: Visuazilation of Interaction Network (mạng tương tác) và Visuazilation of Interaction Network (mạng phân loại) Hình 9.1: Mạng tương tác gen và mạng tương tác gen đã phân loại e) Tìm kiếm thông tin về gene : Hình 9.2 : Mạng tương tác gen đã phân loại Để có thể xem thông tin về gene ta làm như sau : 10
Hình 10.1 : Khung hiển thị kết quả thuật toán RWR Từ khung hiển thị kết quả của thuật toán RWR nhập Id của gene mà bạn quan tâm sau đó click vào More detail như hình 10.1. Cách thứ 2 để có thể xem được thông tin về gene là bạn chỉ cần click vào Id của 1 gene bất kì trong danh sách Candidate Genes, PPI Network, MiRNA Target Genes, Disease Genes, và các Normal Genes sau khi đã nhập dữ liệu như hình 10.2 ở dưới. 11
Hình 10.2: Khung hiển thị dữ liệu PPI Network sau khi được nhập vào. Với 2 cách thực hiện này bạn sẽ có được thông tin đầy đủ về gene như sau: 12
Trong hình minh họa là một số thông tin bạn có thể xem được, ngoài ra còn rất nhiều thông tin giá trị khác mà bạn có thể xem được khi sử dụng plugin đã được thiết kế. Toàn bộ dữ liệu này có nguồn từ Genecards một ngân hàng thông tin về gene phong phú và có độ tin cậy rất cao ( trang chủ của tổ chức http://www.genecards.org ). 13
14