Khoảng cách Jensen-Shannon

Trong lý thuyết xác suấtthống kê, khoảng cách Jensen-Shannon là một phương pháp phổ biến để đo sự tương đồng giữa hai phân bố xác suất. Nó dựa trên khoảng cách Kullback-Leibler với một điểm khác biệt quan trọng là nó luôn có giá trị hữu hạn. Căn bậc hai của khoảng cách Jensen-Shannon là một metric.[1][2]

Định nghĩa

sửa

Đặt   là tập hợp các phân bố xác suất trong đó A là một tập hợp cùng với một σ-đại số gồm các tập con đo được. Cụ thể hơn, ta chỉ xem xét Atập hợp hữu hạn hoặc đếm được với mọi tập con đều đo được. Khoảng cách Jensen-Shannon (JSD)   là phiên bản đối xứng và trơn của khoảng cách Kullback-Leibler  . Nó được định nghĩa như sau

 

trong đó   Nếu A là đếm được thì có định nghĩa tổng quát hơn cho phép so sánh nhiều hơn hai phân bố, như sau:

 

trong đó   là trọng số của các phân bố   entropy Shannon của phân bố  . Trong trường hợp chỉ có hai phân bố mô tả ở trên,

 

Giới hạn

sửa

Theo Lin (1991), khoảng cách Jensen-Shannon bị giới hạn bởi 1 khi lôgarit được tính theo cơ số 2.

 

Liên hệ với thông tin tương hỗ

sửa

Khoảng cách Jensen-Shannon đúng bằng thông tin tương hỗ giữa biến ngẫu nhiên   phân phối theo một phân phối hỗn hợp   và biến ngẫu nhiên   trong đó   nếu   được lấy từ    nếu   được lấy từ  .

 

Từ kết quả trên có thể suy ngay ra khoảng cách Jensen-Shannon nằm trong khoảng từ 0 đến 1 vì thông tin tương hỗ là không âm và bị chặn bởi  .

Các liên hệ khác

sửa

Khoảng cách Jensen-Shannon luôn lớn hơn hoặc bằng bình phương của khoảng cách Hellinger (Lin 1991).

 

Ghi chú

sửa
  1. ^ D. M. Endres & J. E. Schindelin (2003). “A new metric for probability distributions”. IEEE Trans. Inf. Theory. 49 (7): 1858–1860. doi:10.1109/TIT.2003.813506.Quản lý CS1: sử dụng tham số tác giả (liên kết)
  2. ^ F. Ôsterreicher & I. Vajda (2003). “A new class of metric divergences on probability spaces and its statistical applications”. Ann. Inst. Statist. Math. 55 (3): 639–653. doi:10.1007/BF02517812.Quản lý CS1: sử dụng tham số tác giả (liên kết)

Tham khảo

sửa