Khoảng cách Jensen-Shannon
Trong lý thuyết xác suất và thống kê, khoảng cách Jensen-Shannon là một phương pháp phổ biến để đo sự tương đồng giữa hai phân bố xác suất. Nó dựa trên khoảng cách Kullback-Leibler với một điểm khác biệt quan trọng là nó luôn có giá trị hữu hạn. Căn bậc hai của khoảng cách Jensen-Shannon là một metric.[1][2]
Định nghĩa
sửaĐặt là tập hợp các phân bố xác suất trong đó A là một tập hợp cùng với một σ-đại số gồm các tập con đo được. Cụ thể hơn, ta chỉ xem xét A là tập hợp hữu hạn hoặc đếm được với mọi tập con đều đo được. Khoảng cách Jensen-Shannon (JSD) là phiên bản đối xứng và trơn của khoảng cách Kullback-Leibler . Nó được định nghĩa như sau
trong đó Nếu A là đếm được thì có định nghĩa tổng quát hơn cho phép so sánh nhiều hơn hai phân bố, như sau:
trong đó là trọng số của các phân bố và là entropy Shannon của phân bố . Trong trường hợp chỉ có hai phân bố mô tả ở trên,
Giới hạn
sửaTheo Lin (1991), khoảng cách Jensen-Shannon bị giới hạn bởi 1 khi lôgarit được tính theo cơ số 2.
Liên hệ với thông tin tương hỗ
sửaKhoảng cách Jensen-Shannon đúng bằng thông tin tương hỗ giữa biến ngẫu nhiên phân phối theo một phân phối hỗn hợp và biến ngẫu nhiên trong đó nếu được lấy từ và nếu được lấy từ .
Từ kết quả trên có thể suy ngay ra khoảng cách Jensen-Shannon nằm trong khoảng từ 0 đến 1 vì thông tin tương hỗ là không âm và bị chặn bởi .
Các liên hệ khác
sửaKhoảng cách Jensen-Shannon luôn lớn hơn hoặc bằng bình phương của khoảng cách Hellinger (Lin 1991).
Ghi chú
sửa- ^ D. M. Endres & J. E. Schindelin (2003). “A new metric for probability distributions”. IEEE Trans. Inf. Theory. 49 (7): 1858–1860. doi:10.1109/TIT.2003.813506.Quản lý CS1: sử dụng tham số tác giả (liên kết)
- ^ F. Ôsterreicher & I. Vajda (2003). “A new class of metric divergences on probability spaces and its statistical applications”. Ann. Inst. Statist. Math. 55 (3): 639–653. doi:10.1007/BF02517812.Quản lý CS1: sử dụng tham số tác giả (liên kết)
Tham khảo
sửa- Jensen-Shannon Divergence and Hilbert space embedding, Bent Fuglede and Flemming Topsøe University of Copenhagen, Department of Mathematics [1]
- Lin, J. (1991). “Divergence measures based on the shannon entropy” (PDF). IEEE Transactions on Information Theory. 37 (1): 145–151. doi:10.1109/18.61115.
- A family of statistical symmetric divergences based on Jensen's inequality, F. Nielsen [2]
- Y. Ofran & B. Rost. Analysing Six Types of Protein-Protein Interfaces. J. Mol. Biol., 325: 377—387, 2003.
- G.E. Sims, S.R. Jun, G. Wu. & S.H. Kim Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc. Natl. Acad. Sci. USA. 106(8):2677-82
- S. Itzkovitz, E. Hodis, E. Segal, "Overlapping codes within protein-coding sequences," Genome Res., November 2010, 20:1582-1589