Apache Nutch | |
---|---|
Typ | Java [d] knihovna ,knihovna funkcíaprolézací modul |
Vývojář | Apache Software Foundation |
Zapsáno v | Jáva |
Operační systém | Multiplatformní software |
Hardwarová platforma | Java virtuální stroj |
Nejnovější verze | |
Čitelné formáty souborů | Soubor webového archivu |
Vygenerované formáty souborů | Soubor webového archivu |
Stát | Aktivní |
Licence | Licence Apache 2 |
webová stránka | nutch.apache.org |
Mediální soubory na Wikimedia Commons |
Apache Nutch je modulární framework pro vytváření vyhledávačů napsaný v Javě a založený na technologiích Lucene , Solr , Tika , Hadoop a Gora přizpůsobený pro specifika internetového vyhledávání (podporovány jsou například crawler , link base, HTML parsing a další formáty) . Architektura Nutch umožňuje vývojářům vytvářet pluginy pro zpracování nového mediálního obsahu, přijímání dat prostřednictvím nestandardních kanálů pro vytváření standardních dotazů nebo organizování vyhledávacího clusteru.
Systém poskytuje nástroje pro vytváření rozsáhlých indexovacích systémů abstrahovaných od typu úložiště, což umožňuje použití takových úložišť pro velké množství dat, jako jsou Apache Accumulo , Apache Avro , Apache Cassandra , Apache HBase a HDFS , stejně jako SQL databáze a umístění . NoSQL databází v paměti .
Na základě Nutch 2.0, běžícího na 34uzlovém clusteru Hadoop, byla vytvořena vyhledávací služba Kalooga , jejíž index obsahuje více než miliardu stránek [2] .
Vyhledávače založené na Nutch:
Apache Software Foundation | |||||||
---|---|---|---|---|---|---|---|
Projekty nejvyšší úrovně |
| ||||||
Podprojekty |
| ||||||
Webové |
| ||||||
Jiné projekty | |||||||
Rozvojové projekty ( Inkubátor ) |
| ||||||
Vyřazené projekty ( podkroví ) | |||||||
|