Seskupování

Biclustering , block clustering , [1] co - clustering , také dvoumodální clustering [2] [3] je technika dolování dat , která umožňuje současné shlukování řádků a sloupců matice . Tento termín byl poprvé navržen Mirkinem, [4] i když samotná metoda byla vytvořena mnohem dříve [4] (JA Hartigan [5] ).

Vezmeme-li jako vstup sadu řádků ve sloupcích (matici velikosti ), generuje algoritmus biclustering biclustery, podmnožinu řádků, které vykazují podobné chování prostřednictvím podmnožiny sloupců. $m$ $n$ $m\krát n$

Historie vývoje

Biclustering poprvé představil JA Hartigan v roce 1972 [6] . Termín biclustering později zavedl Mirkin. Tento algoritmus nebyl zobecněn až do roku 2000, kdy Y. Cheng a GM Church navrhli algoritmus biklastrování založený na rozptylu a aplikovali jej na data biologické exprese genů [7] . Jejich článek je stále jednou z nejdůležitějších literatur v oblasti biklastrování genové exprese.

V letech 2001 a 2003 navrhl IS Dhillon dva algoritmy, které aplikují biclustering na soubory a slova. Jedna z verzí byla založena na rozdělení bipartitních spektrálních grafů [8] . Druhý byl založen na teorii informace. Dhillon předpokládal, že vzájemná ztráta informace během biclusteringu je KL ( Kulback-Leibler distance ) mezi P a Q. P znamená distribuci souborů a charakteristických slov před biklusterováním. Q je zase distribuce po shlukování. KL-vzdálenost je potřebná jako míra rozdílu mezi dvěma náhodnými distribucemi. KL = 0, když jsou obě rozdělení stejná, a zvyšuje se, když se rozdíl zvětšuje [9] . Cílem algoritmu tedy bylo minimalizovat KL vzdálenost mezi P a Q. V roce 2004 použil A. Banerjee váženou Bregmanovu vzdálenost místo KL vzdálenosti k vývoji biklastrovacího algoritmu vhodného pro jakýkoli typ matice, na rozdíl od Algoritmus KL [10] .

Za účelem shlukování více než dvou typů objektů rozšířil Bekkerman v roce 2005 vzájemnou informaci v Dhillonově teorému z jednoho páru na mnoho párů.

Obtížnost úkolu

Složitost problému biklastrování závisí na konkrétní formulaci, zejména na funkci použité k hodnocení kvality výsledného biclusteru. Nejzajímavější varianty těchto problémů jsou NP-úplné a vyžadují velký výpočetní výkon nebo použití heuristických přístupů [11] [12] .

Typy klastrů

Různé algoritmy biklusteru mají různé definice biklusteru [12]

Hlavní typy:

Bicluster s konstantními hodnotami (a),
Bicluster s konstantními hodnotami v řádcích (b) nebo sloupcích (c),
Sdružení s propojenými hodnotami (d, e).

Viz také

Poznámky

↑ G. Govaert, M. Nadif. Blokové shlukování s modely bernoulliho směsi: Porovnání různých přístupů, (anglicky) // Computational Statistical and Data Analysis : deník. - Elsevier, 2008. - Sv. 52 . - str. 3233-3245 .
↑ G. Govaert, M. Nadif. Co-clustering: modely, algoritmy a aplikace (anglicky) . - ISTE, Wiley, 2013. - ISBN 978-1-84821-473-6 .
↑ Van Mechelen I., Bock HH, De Boeck P. Dvourežimové metody shlukování: strukturovaný přehled (nedefinováno) // Statistické metody v lékařském výzkumu . - 2004. - T. 13 , č. 5 . - S. 363-394 . - doi : 10.1191/0962280204sm373ra . — PMID 15516031 .
↑ 1 2 Mirkin, Boris. Matematická klasifikace a shlukování . - Kluwer Academic Publishers , 1996. - ISBN 0-7923-4159-7 .
↑ Hartigan JA Přímé shlukování datové matice // Journal of the American Statistical Association : journal. - Americká statistická asociace, 1972. - Sv. 67 , č. 337 . - str. 123-129 . - doi : 10.2307/2284710 . — .
↑ Hartigan J A. Přímé shlukování datové matice[J]. Journal of the American Statistical Association, 1972, 67(337): 123-129. . Získáno 30. dubna 2016. Archivováno z originálu 15. března 2022. (neurčitý)
↑ https://www.cs.princeton.edu/courses/archive/fall03/cs597F/Articles/biclustering_of_expression_data.pdf Archivováno 4. března 2016 ve Wayback Machine Cheng Y, Church G M. Biclustering of expression data[C] / /Ismb. 2000, 8:93-103.
↑ Dhillon I S. Společné shlukování dokumentů a slov pomocí bipartitního dělení spektrálních grafů[C]//Sborník ze sedmé mezinárodní konference ACM SIGKDD o objevování znalostí a dolování dat. ACM, 2001: 269-274.
↑ Dhillon IS, Mallela S, Modha D S. Informační-teoretický co-clustering[C]//Sborník z 9. mezinárodní konference ACM SIGKDD o KKluwer Academic Publishersnowledge discovery and data mining. ACM, 2003: 89-98.
↑ Banerjee A, Dhillon I, Ghosh J, et al. Zobecněný přístup maximální entropie ke společnému shlukování Bregman a aproximaci matic[C]//Sborník z desáté mezinárodní konference ACM SIGKDD o objevování znalostí a dolování dat. ACM, 2004: 509-514.
↑ Peeters R. Problém s maximální hranou biclique je NP-úplný[J]. Discrete Applied Mathematics, 2003, 131 (3): 651-654. . Získáno 30. dubna 2016. Archivováno z originálu 24. září 2015. (neurčitý)
↑ 1 2 . Madeira SC, Oliveira AL Biclustering Algorithms for Biological Data Analysis: A Survey // IEEE Transactions on Computational Biology and Bioinformatics: journal. - 2004. - Sv. 1 , ne. 1 . - str. 24-45 . - doi : 10.1109/TCBB.2004.2 . — PMID 17048406 .

Literatura

Abdullah, Ahsan; Hussain, Amír. Nová technika biclustering založená na minimalizaci křížení // Neurocomputing, sv. 69 číslo 16-18 : časopis. - 2006. - Sv. 69 , č. 16-18 . - S. 1882-1896 . - doi : 10.1016/j.neucom.2006.02.018 .
A. Tanay. R. Sharan a R. Shamir, "Biclustering Algorithms: A Survey", In Handbook of Computational Molecular Biology , Edited by Srinivas Aluru, Chapman (2004)
Kluger Y., Basri R., Chang JT, Gerstein MB Spektrální shlukování dat z mikročipů: shlukování genů a podmínek // Výzkum genomu : deník. - 2003. - Sv. 13 , č. 4 . - str. 703-716 . - doi : 10.1101/gr.648603 . — PMID 12671006 .

Odkazy

FABIA: Faktorová analýza pro Bicluster Acquisition, balíček R — software