Random Feature Expansions for Deep Gaussian Processes

Tài liệu tương tự
PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG VỚI THUẬT TOÁN HBU 1. GIỚI THIỆU NGUYỄN THỊ LAN ANH Khoa Tin học, Trường Đại học Sư phạm, Đại học Huế Tóm tắt: Dữ liệu m

i LỜI CAM ĐOAN Tôi xin cam đoan tất cả các nội dung của luận văn này hoàn toàn được hình thành và phát triển từ quan điểm của chính cá nhân tôi, dưới

Boston-new

1 Überschrift 1

Microsoft PowerPoint - L2-Gioi_thieu_WEKA.ppt [Compatibility Mode]

Moho Depth Variation in Northern Vietnam from Teleseismic Receiver Functions

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI ĐOÀN XUÂN DŨNG TÓM TẮT VĂN BẢN SỬ DỤNG CÁC KỸ THUẬT TRONG DEEP LEARNING Ngành: Công Nghệ Thông Tin Ch

Specification Eng-Viet-C10K.doc

Microsoft PowerPoint - Chapter 3_Frontier function

PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC

Manicurist SPF-ICOC-VIET

EAMCET MATHEMATICS DOWNLOAD

说明书 86x191mm

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THỊ THU HẰNG MỘT SỐ MÔ HÌNH XÁC SUẤT TRONG

Chương trình Giảng dạy Kinh tế Fulbright Năm học Các Phương Pháp Định Lượng Lời giải đề nghị bài tập 9 Chương Trình Giảng Dạy Kinh tế Fulbri

Chương 2 Biến ngẫu nhiên và phân phối xác suất

Slide 1

9-KiemThu

Blood pool and Hemangioma - Khoang chứa máu và U máu gan Hoàng Văn Trung Normally when we look at lesions filling with contrast, the density of these

FAQs Những câu hỏi thường gặp 1. What is the Spend Based Rewards program for Visa Vietnam? The Spend Based Rewards program for Visa Vietnam is a servi

T Ạ P CHÍ KHOA HỌC TRƯỜNG ĐẠI HỌC TRÀ VINH, SỐ 31, THÁNG 9 NĂM 2018 NG H I Ê N CỨU C Á C NHÂN TỐ ẢNH HƯỞNG ĐẾN ĐỘNG CƠ HỌC T Ậ P CỦA SINH VIÊN KHOA KỸ

Microsoft Word - bia.doc

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Nguyễn Văn Tảo Ngày sinh: 05/1

Trại hè Toán Mô hình PiMA Projects in Mathematics in Applications ĐÁNH GIÁ THIẾT BỊ Y SINH Mentor Vũ Đức Tài Đại học Khoa học Tự nhiên Hà Nội Phạm Ngu

Microsoft Word - 03-GD-HO THI THU HO(18-24)

_Aquarator

Translation and Cross-Cultural Adaptation of the Vietnamese Version of the Hip Dysfunction and Osteoarthritis Outcome Score (HOOS) Adams CL 1, Leung A

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUÂN ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG LUẬN V

Computer Architecture

Phân tích Thiết kế Hướng đối tượng - OOAD

29T ECON.pmd

Microsoft PowerPoint - Bai giang WEEK2-3


10 Kinh tế - Xã hội VẬN DỤNG MA TRẬN SPACE VA QSPM ĐỂ XÂY DỰNG VA LỰA CHO N CHIÊ N LƯỢC KINH DOANH: TRƯƠ NG HỢP CHIÊ N LƯỢC KINH DOANH CU A CÔNG TY CỔ

CHƯƠNG 1

CÔNG TY TNHH THƯƠNG MẠI VÀ DỊCH VỤ NGUYỄN ĐỨC 126 Lê Thanh Nghị - Quận Hai Bà Trưng - Hà Nội Điện Thoai : Fax : Website : www.

CHƯƠNG 1 : MỞ ĐẦU

Microsoft PowerPoint - BÀi t�p chương 2,3,4.pptx

Chöông 1 (tt.)

NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHỤC HỒI LỖI TRONG Tóm tắt CÁC HỆ THỐNG TÍNH TOÁN ĐỒ THỊ PHÂN TÁN ThS. Nguyễn Thanh Thụy Học viện Ngân hàng 1 ThS.Trần Thị

VIỆN KHOA HỌC

Numerat619.pmd

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ NGHIÊN CỨU THIẾT KẾ LÕI IP MẠNG NƠ-RON NHÂN TẠO CH

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀM LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGUYỄN BÁ HƯNG VAI TRÒ CỦA TRÌNH TỰ AMINO ACID KỴ NƯ

Năm PHÂN TÍCH DANH MỤC TÍN DỤNG: XÁC SUẤT KHÔNG TRẢ ĐƢỢC NỢ - PROBABILITY OF DEFAULT (PD) NGUYỄN Anh Đức Người hướng dẫn: Tiến sỹ ĐÀO Thị Th

Microsoft Word - 7_ Ly_8tr _ _.doc

CHÀO MỪNG NGÀY NHÀ GIÁO VIỆT NAM 20/11/2012 E b 1 4 ik ik y y x ( x x y ( ) 0 ) 0 ik 2 ( z d ) x, y, z G by e e e d K x dk 2 y ~ (2.7.a) Từ đó, có thể

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(33).2009 HIỆU QUẢ KINH TẾ-KỸ THUẬT KHI SỬ DỤNG KHÁNG BÙ NGANG CÓ ĐIỀU KHIỂN TRÊN ĐƯỜNG DÂY TRUYỀ

Microsoft Word - Kiem dinh chat luong phan mem

Khoa hoïc Xaõ hoäi vaø Nhaân vaên 37 PHÂN TÍCH CÁC NHÂN TỐ ẢNH HƯỞNG ĐẾN KHẢ NĂNG TIẾP CẬN VỐN TÍN DỤNG CỦA CÁC DOANH NGHIỆP VỪA VÀ NHỎ TRÊN ĐỊA BÀN T

Cấu trúc và khối lượng kiến thức được xây dựng theo quyết định số 01/QĐ-ĐHQG-ĐH&SĐH ngày 05/01/2009 của Giám đốc ĐHQG-HCM

THIẾT KẾ AB/BA TRONG KIỂM ĐỊNH THUỐC(2)

Microsoft Word - HDSD_NVR_304&3016.docx

Mạng nơ ron Kohonen và ứng dụng phân loại sản phẩm

Microsoft Word - EFT_lesson 2.doc

Hệ điều hành Bài tập tuần 6 1 Quản lý bộ nhớ Bài tập 1 : Xem thông tin bộ nhớ 1. Sử dụng top, ps đọc thông tin về kích thước vùng nhớ của 1 tiến trình

Microsoft Word - Huong dan su dung Mailchimp.docx

Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] CHƯƠNG 1: TỔNG QUAN VỀ KINH TẾ LƯỢNG 1.1. Lịch sử hình thành của kinh tế lượng Hiện nay, hầu hết các nhà

Các biến và các kiểu dữ liệu trong JavaScript Các biến và các kiểu dữ liệu trong JavaScript Bởi: Hà Nội Aptech Các biến (Variables) Biến là một tham c

Những cơ sở của ngôn ngữ C# Những cơ sở của ngôn ngữ C# Bởi: phamvanviet truonglapvy Trong chương này sẽ trình bày về hệ thống kiểu trong C#; phân biệ

29T-STAT.pmd

(Microsoft Word - 8. Nguy?n Th? Phuong Hoa T\320_chu?n.doc)

SECOND PRICE COMMON VALUE AUCTIONS AND BAYESIAN INFERENCE IN EBAY AUCTIONS Bertil Wegmann Licentiate Dissertation Department of Statistics Stockholm U

Microsoft Word - dinh_dang_smartart_trong_powerpoint_2010.docx

Microsoft Word - Morat 53_checked.doc

Tựa

ĐẶT VẤN ĐỀ

uid32355

TrÝch yÕu luËn ¸n

Bài 4: Mô phỏng Monte Carlo cho các hệ khí lỏng Under construction.

copy Vietnamese by Khoa Dang Nguyen

Tạp chí Khoa học công nghệ và Thực phẩm số 11 (2017) NGHIÊN CỨU ỨNG DỤNG MÃ NGUỒN MỞ JOOMLA XÂY DỰNG WEBSITE HỖ TRỢ DẠY HỌC VẬT LÝ ĐẠI CƢƠNG Ngu

Mẫu báo cáo đồ án tốt nghiệp

MD Paper-Based Test ELA Vietnamese Script for Administrating PARCC TAM

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Vũ Vinh Quang Ngày sinh: 26/09

Microsoft Word HC chuyen hoa_dot quy

Microsoft Word - 18-TNN-34HUYNH VUONG THU MINH( )

VẤN ĐỀ GÁN NHÃN TỪ LOẠI CHO VĂN BẢN TIẾNG VIỆT

MAS001 SCHOOL OF MATHEMATICS AND STATISTICS Foundation Year Mathematics I Autumn Semester hour 30 minutes ØØ ÑÔØ ÐÐ ÕÙ Ø ÓÒ º Ì ÐÐÓ Ø ÓÒ Ó Ñ

Bản ghi:

) = ) θ ) )... ) θ ))) ) ) ) ) ) ) ) ) )

, θ) = ) ), θ ) ) ) ), θ )... ), θ )) )... )

Φ =Φ Ω )=N, )

σ Φ = [ Ω), Ω)] ) Ω θ = N, Λ ) σ Λ =,..., )

σ Φ =, Ω) ) Ω θ = N, Λ )

σ Φ = [ Ω), Ω)] Ω θ ) = N, Λ ) σ Λ =,..., ) σ Φ =, Ω) Ω θ ) = N, Λ )

Φ ) ) Φ ) ) Ω ) ) Ω ) ) θ ) θ )

Ψ = Ω ),...,Ω ), ),..., )) [ θ)] E Ψ) [ Ψ)]) [Ψ) Ψ θ)] Ψ) Ψ, θ)

, Ψ, θ) =, Ψ, θ) E Ψ) [, Ψ, θ)]) E Ψ) [, Ψ, θ)]) I E Ψ) ) [, Ψ, θ)] [, Ψ, θ)] = Ψ Ψ)

Ψ) = Ω ) ) ) ) Ω ) ) = N ) µ ), σ ) ) ) ) = N ), ) ) )

Ψ) = Ω ) ) ) ) Ω ) ) = N ) µ ), σ ) ) ) ) = N ), ) ) ) ) ) = ) ) ϵ ) + ) ϵ ) N, )

Ω RMSE MNLL 0.4 0.6 0.2 0.4 1 1.5 2 2.5 3 3.5 log 10 RFs) 0.2 1 1.5 2 2.5 3 3.5 log 10 RFs) prior-fixed var-fixed var-resampled

................. dgp-rbf dgp-arc dgp-ep dnn var-gp

................... dgp-rbf dgp-arc dgp-ep dnn var-gp

Dataset Accuracy RBF ARC MNLL RBF ARC MNIST8M 99.14% 99.04% 0.0454 0.0465 AIRLINE 78.55% 72.76% 0.4583 0.5335

.......... 2 layers 10 layers 20 layers 30 layers SV-DKL

.......... 2 layers 10 layers 20 layers 30 layers SV-DKL

Deep probabilistic models; Composition of functions: fx) = h Nh 1) θ Nh 1))... h 0) θ 0))) x); Fig. 1: Illustration of how stochastic processes may be composed. Inference requires calculating the marginal likelihood: py X, θ) = Extremely challenging! p Y F Nh), θ Nh)) p... p F 1) X, θ 0)) df Nh)...dF 1) ; GPs are single layered Neural Nets with an infinite number of hidden units; Taking a weight-space view of a GP: F =ΦW ; The priors over the weights are: p W i) =N 0,I) ; The RBF kernel: [ krbfx, x )=exp 1 ] 2 x x ) x x ) = X Ω Φ W Fig. 2: Single layered GP. pω)exp ιx x ) ω ) dω can be approximated using trigonometric functions: σ Φrbf = 2 [cos F Ω), sin F Ω)] with p Ω j θ) =N 0, Λ 1), NRF Meanwhile, the first order Arc-Cosine kernel: karcx, x )= 1 π x x Jα) =2 max0, ω x) max0, ω x )N ω 0,I) dω x x can be approximated using Rectified Linear Units ReLU): 2σ Φarc = 2 max 0,FΩ) with p Ω j θ) =N 0, Λ 1). NRF ) F where DGPs with RFs become DNNs with low-rank weight matrices! X Φ 0) 1) 2) F Φ1) F Y 0) 0) 1) Ω W Ω1) W θ 0) Define Ψ =Ω 0),...,W 0),...); Lower bound on Marginal Likelihood: θ1) Fig. 3: Diagram of the proposed DGP with random features. log [py θ)] E qψ) log [p Y Ψ)]) DKL [qψ) p Ψ θ)], where qψ) approximates pψ Y, θ); Factorized approximate posterior: with q ) = N ) q and ) q ijl q ), ) = N Assuming factorized likelihood, we can use mini-batch stochastic gradient optimization: n E qψ)log[pyk Ψ)]) DKL[qΨ) pψ θ)]; m k Im The expectation can be estimated using Monte Carlo: with Ψr qψ); NMC log[pyk Ψr)], NMC r=1 Computational cost dominated by low-rank matrix multiplication - no inverses required; Various optimization strategies for Ω available. 0.4 0.2 RMSE 1 1.5 2 2.5 3 3.5 log10rfs) 0.6 0.4 0.2 MNLL 1 1.5 2 2.5 3 3.5 log10rfs) prior-fixed var-fixed var-resampled Fig. 4: Performance of different strategies for dealing with Ω as a function of the number of random features.these can be fixed PRIOR-FIXED), or treated variationally with fixed randomness VAR-FIXED and resampled at each iteration VAR-RESAMPLED). ) ; Competing methods: DGP with RBF Kernel DGP-RBF); DGP with first order Arc-Cosine Kernel DGP-ARC); DGP with Expectation Propagation DGP-EP); Sparse GP with Variational Inference VAR-GP). 0.1 0.05 0.4 0.2 0.5 0.4 0.3 Regression Power plant Dataset n = 9568, d=4) 0.2 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 0.5 Spam Dataset n = 4061, d=57) 1 1.5 2 2.5 3 3.5 1 0 log10sec) 1 1.5 2 2.5 3 3.5 log10sec) log10sec) 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 log10sec) 0.2 0.1 0.4 0.2 0.8 0.7 1.2 1.1 Classification EEG Dataset n = 14979, d=14) 0 2 2.5 3 3.5 log10sec) 2 2.5 3 3.5 log10sec) 1 Protein Dataset n = 45730, d=9) 2 2.5 3 3.5 log10sec) 2 2.5 3 3.5 log10sec) 0.2 0.15 0.1 0.05 MNIST Dataset n = 60000, d=784) 0 3 3.5 4 4.5 log10sec) 0 3 3.5 4 4.5 DGP-RBF DGP-ARC DGP-EP VAR-GP 3 2 1 log10sec) Fig. 5: Progression of RMSE and MNLL on test data over time for competing DGP models. Easily extendable architecture with option to feed-forward inputs. 0.5 0.4 0.3 Error rate 0.2 2 3 4 5 log10sec) 0.6 0.55 0.5 MNLL 0.45 2 3 4 5 log10sec) 2.7 2.6 10 6 NELBO 2 10 20 30 Layers 2 layers 10 layers 20 layers 30 layers SV-DKL Fig. 6: Left and center - Performance of our model on the AIRLINE dataset as function of time for different depths. Right - The box plot of the negative lower bound confirms this is a suitable objective for model selection. Our contributions: Complete specification and evaluation of DGPs based on random features; Scalable and practical DGP inference - no inverses; Synchronous/asynchronous distributed implementation available; Ongoing work: Fastfood and other kernels; Convolutional DGPs for image processing. [1] A. Damianou and N. Lawrence. Deep Gaussian Processes, AISTATS 2013. [2] Y. Gal and Z. Gharamani. Dropout as a Bayesian Approximation, ICML 2016. Random Feature Expansions for Deep Gaussian Processes Kurt Cutajar 1, Edwin V. Bonilla 2, Pietro Michiardi 1, Maurizio Filippone 1 1 - EURECOM, Sophia Antipolis, France 2 - University of New South Wales, Australia Deep Gaussian Processes Model Architecture Experimental Setup and Results h 0) x) h 1) x) h 0) h 1) x) ) DGPs with Random Features F Nh) F Nh 1), θ Nh 1)) allowing for scaling factors σ 2 and Λ = diagl 2 1,...,l 2 d ) for the kernel and the features; Jα) =sinα +π α) cos α and α = cos 1 x x.. Stochastic Variational Inference W l) ij qψ) = ijl µ l) ij, σ2 ) l) ij Ω l) ij E qψ) log [pyk Ψ)]) 1 W l) ij Ω l) ij m l) ij, s2 ) l) ij Accuracy MNLL Conclusions References RMSE MNLL Accuracy MNLL RMSE MNLL Accuracy MNLL