CHƯƠNG VI PHÂN TÍCH HỒI QUI LOGISTIC (LOGISTIC REGRESSION) Môn học: PPTN Bộ Môn: Giống Động Vật GV: Cao Phước Uyên Trân
Title and Content Layout with List
6.1-MỘT SỐ KHÁI NIỆM LIÊN QUAN ĐẾN PHÂN TÍCH HỒI QUI LOGISTIC Thí dụ 6.1 : Một điều tra về hội chứng hô hấp sinh sản của heo nái (PRRS) liên quan đến việc tiêm ngừa vaccin phòng bệnh này cho 2000 heo nái được chọn ngẫu nhiên tại một trang trại chăn nuôi của thành phố H với kết qủa qua bảng sau: Làm sao chúng ta biết có mối liên quan giữa việc có chích ngừa và bệnh PRRS?
6.1-MỘT SỐ KHÁI NIỆM LIÊN QUAN ĐẾN PHÂN TÍCH HỒI QUI LOGISTIC (1) Chỉ số nguy cơ tương đối (Relative risk RR) Gọi P 1 = k1/n1 = 75/500 = 0,15 Là tỉ lệ heo nái bị PRRS mặc dù có chích ngừa (0,15 hay 15%). P 2 = k2/n2 = 1200/1500 = 0,80 Là tỉ lệ heo nái bị PRRS do không có chích ngừa (0,8 hay 80%). Chỉ số nguy cơ tương đối được : RR = P 1 /P 2 = 0,15/0,80 =0,1875 = 18,75%
6.1-MỘT SỐ KHÁI NIỆM LIÊN QUAN ĐẾN PHÂN TÍCH HỒI QUI LOGISTIC (1) Chỉ số nguy cơ tương đối (Relative risk RR) Qua đó, ta thấy: - Nếu RR > 1: có chích ngừa sẽ làm tăng khả năng bị PRRS - Nếu RR < 1: có chích ngừa sẽ làm giảm khả năng bị PRRS - Nếu RR = 1: có chích ngừa hay không chích ngừa khả năng bị PRRS là như nhau (không có mối liên hệ giữa chích ngừa và khả năng bị PRRS)
6.1-MỘT SỐ KHÁI NIỆM LIÊN QUAN ĐẾN PHÂN TÍCH HỒI QUI LOGISTIC (2) Chỉ số chênh (ODD) - Chỉ số chênh là tỉ số của 2 xác suất. - Nếu P là xác suất bị bệnh thì 1- P là xác suất không bị bệnh. Chỉ số chênh được tính như sau: ODD = P/(1-P) - Nếu ODD > 1: khả năng bị bệnh cao hơn khả năng không bị bệnh - Nếu ODD < 1: khả năng bị bệnh thấp khả năng không bị bệnh - Nếu ODD = 1: khả năng bị bệnh bằng khả năng không bị bệnh
6.1-MỘT SỐ KHÁI NIỆM LIÊN QUAN ĐẾN PHÂN TÍCH HỒI QUI LOGISTIC (2) Chỉ số chênh (ODD) Trở lại với thí dụ trên, ta có: Chỉ số chênh trong nhóm có chích ngừa là: ODD 1 = P 1 /(1-P 1 ) = 0,15/(1-0,15) = 0,15/0,85 =0,1767 = 17,64% Nghĩa là heo nái có chích ngừa vẫn có nguy cơ bị PRRS với khoảng 0,1764 lần (17,64%) so với heo nái có chích ngừa mà không bị PRRS.
6.1-MỘT SỐ KHÁI NIỆM LIÊN QUAN ĐẾN PHÂN TÍCH HỒI QUI LOGISTIC (2) Chỉ số chênh (ODD) Chỉ số chênh trong nhóm không có chích ngừa là: ODD 2 = P 2 /(1-P 2 ) = 0,80/(1-0,80) = 0,80/0,20 = 4 = 400% Nghĩa là heo nái không chích ngừa sẽ có nguy cơ bị PRRS gấp 4 lần (400%) so với heo nái không chích ngừa mà không bị PRRS.
6.1-MỘT SỐ KHÁI NIỆM LIÊN QUAN ĐẾN PHÂN TÍCH HỒI QUI LOGISTIC (3) Tỉ số chênh (Odds Ratio OR) - Tỉ số chênh (OR) là tỉ số của 2 ODD OR ODD ODD 2 P1/(1 P2/(1 P1) P1(1 P2) P2) (1 P1)P2 0,15(0,20) (0,85)0,80 0,0441 1 4,41% Nghĩa là khả năng bị PRRS/không bị PRRS ở nhóm có chích ngừa thấp hơn 0,0441 (4,41%) so với khả năng bị PRRS/không bị PRRS ở nhóm không có chích ngừa. Hay ngắn gọn hơn là khả năng bị PRRS so với không bị PRRS của nhóm có chích ngừa thấp hơn so với nhóm không chích ngừa.
Xét 2 biến X và Y: X: biến độc lập có dạng định tính nhị phân như sống hoặc chết, bệnh hoặc không, sạch hoặc dơ, tốt hoặc xấu hay dạng định lượng như các chỉ tiêu về sinh lý sinh hóa máu, sinh trưởng, sản xuất của thú Y: biến phụ thuộc chỉ có duy nhất dạng nhị phân phương trình hồi qui giữa Y và một hay nhiều biến X được gọi là phương trình hồi qui logistic nhị phân
Nếu X là biến độc lập, Y là biến phụ thuộc Y và P là xác suất xãy ra sự kiện của biến Y (ví dụ chết) và 1-P là xác xuất để sự kiện đó không xãy ra (ví dụ sống), thì phương trình hồi qui logistic nhị phân có dạng như sau: log e P ( 1P ) b 0 + b 1 X 1 + b 2 X 2 + + b n X n... = k (1) P loge( ) log e ( ODD) 1P b 0 + b 1 X 1 + b 2 X 2 + + b n X n... = k (3) logit( P) b 0 + b 1 X 1 + b 2 X 2 + + b n X n... = k
Ta có: P 1 P = (1-P) ODD qua một vài bước biến đổi chúng ta có: Gọi A = e k mà ODD= A P ODD log e (ODD) k P ODD 1 ODD P A 1 A ODD 1 ODD Muốn biết xác suất P của biến Y: cần có các kết quả của biến Y và các X 1, X 2,.. X n xác định và thiết lập được phương trình Logit (P) tìm được các hệ số b 0, b 1, b 2 b n của phương trình, từ đó tính ra được A và thế vào pt trên sẽ tính được xác suất P
Để xác định và thiết lập được phương trình Logit (P), người ta phải dùng phương pháp tương đồng tối đa (The maximum likelihook) là một thuật toán rất phức tạp khi tính toán thủ công nên cần sự hổ trợ giải quyết bằng các phần mềm thống kê chuyên dụng như Minitab 16.2, PSSR, SAS 9.1, R...
* Thí dụ 6.2 :Một điều tra về bệnh Viêm phổi địa phương (biến phụ thuộc Y) trên heo liên quan đến một số yếu tố như chích ngừa, tự sản xuất giống và điều kiện vệ sinh chuồng trại (theo thứ tự biến độc lập X1, X2 và X3). Tìm phương trình hồi qui logistic giữa các biến này và xác suất dự đoán với kết qủa ghi nhận ở bảng sau?
Sử dụng phần mềm Minitab 16.2 để tính toán cho ta kết qủa các hệ số b 0, b 1, b 2 Xác suất p của hệ số hồi qui biến chích ngừa là 0,807 Phương > 0,05trình nênhồi biếnqui chích logistic ngừa giữa không các biến có ảnh : hưởng gì đến bệnh Viêm phổi địa phương cần loại bỏ ra khỏi mô hình Log e (ODD) = -0,8104 0,0678X 1 + 0,6954X 2 + 0,8719X 3
Sử dụng phần mềm Minitab 16.2 để tính toán cho ta kết qủa các hệ số b 0, b 1, b 2 Phương trình hồi qui logistic giữa các biến còn lại : Log e (ODD) = -0,8311 + 0,6954X 2 + 0,8654X 3.
Phương trình hồi qui logistic giữa các biến còn lại : Log e (ODD) = -0,8311 + 0,6954X 2 + 0,8654X 3. 1/ Những heo được tự sản xuất giống (X 2 = 1) và điều kiện vệ sinh nuôi tốt (X 3 = 1) thì xác suất bị bệnh Viêm phổi địa phương là bao nhiêu?
Phương trình hồi qui logistic giữa các biến còn lại : Log e (ODD) = -0,8311 + 0,6954X 2 + 0,8654X 3. 2/ Những heo được tự sản xuất giống (X 2 = 1) và điều kiện vệ sinh nuôi xấu (X 3 = 0) thì xác suất bị bệnh Viêm phổi địa phương là bao nhiêu?
Phương trình hồi qui logistic giữa các biến còn lại : Log e (ODD) = -0,8311 + 0,6954X 2 + 0,8654X 3. 3/ Những heo không được tự sản xuất giống (X 2 = 0) và điều kiện vệ sinh nuôi tốt (X 3 = 1) thì xác suất bị bệnh Viêm phổi địa phương là bao nhiêu?
Phương trình hồi qui logistic giữa các biến còn lại : Log e (ODD) = -0,8311 + 0,6954X 2 + 0,8654X 3. 4/ Những heo không được tự sản xuất giống (X 2 = 0) và điều kiện vệ sinh nuôi xấu (X 3 = 0) thì xác suất bị bệnh Viêm phổi địa phương là bao nhiêu?
Phương trình hồi qui logistic giữa các biến còn lại : Log e (ODD) = -0,8311 + 0,6954X 2 + 0,8654X 3. 5/ Những heo ở điều kiện vệ sinh nuôi xấu (X 3 = 0) có xác suất bị bệnh Viêm phổi địa phương cao hơn những heo ở điều kiện vệ sinh nuôi tốt (X 3 = 1) là bao nhiêu?