Nutch

Apache Nutch
Typ Java [d] knihovna ,knihovna funkcíaprolézací modul
Vývojář Apache Software Foundation
Zapsáno v Jáva
Operační systém Multiplatformní software
Hardwarová platforma Java virtuální stroj
Nejnovější verze
Čitelné formáty souborů Soubor webového archivu
Vygenerované formáty souborů Soubor webového archivu
Stát Aktivní
Licence Licence Apache 2
webová stránka nutch.apache.org
 Mediální soubory na Wikimedia Commons

Apache Nutch je modulární framework pro vytváření vyhledávačů napsaný v Javě a založený na technologiích Lucene , Solr , Tika , Hadoop a Gora přizpůsobený pro specifika internetového vyhledávání (podporovány jsou například crawler , link base, HTML parsing a další formáty) . Architektura Nutch umožňuje vývojářům vytvářet pluginy pro zpracování nového mediálního obsahu, přijímání dat prostřednictvím nestandardních kanálů pro vytváření standardních dotazů nebo organizování vyhledávacího clusteru.

Systém poskytuje nástroje pro vytváření rozsáhlých indexovacích systémů abstrahovaných od typu úložiště, což umožňuje použití takových úložišť pro velké množství dat, jako jsou Apache Accumulo , Apache Avro , Apache Cassandra , Apache HBase a HDFS , stejně jako SQL databáze a umístění . NoSQL databází v paměti .

Použití

Na základě Nutch 2.0, běžícího na 34uzlovém clusteru Hadoop, byla vytvořena vyhledávací služba Kalooga , jejíž index obsahuje více než miliardu stránek [2] .

Vyhledávače založené na Nutch:

Poznámky

  1. https://nutch.apache.org/index.html#11-october-2019-nutch-24-release
  2. Vydán vyhledávač Apache Nutch 2.0 . Získáno 9. ledna 2017. Archivováno z originálu 14. července 2012.
  3. Naše aktualizované vyhledávání . Creative Commons (3. září 2004). Získáno 9. ledna 2017. Archivováno z originálu 7. září 2011.
  4. Unikátní vyhledávací nástroj Creative Commons je nyní integrován do Firefoxu 1.0 (odkaz dolů) . Creative Commons (22. listopadu 2004). Archivováno z originálu 22. července 2013. 
  5. Nové uživatelské rozhraní pro vyhledávání CC . Creative Commons (2. srpna 2006). Získáno 9. ledna 2017. Archivováno z originálu 7. listopadu 2011.
  6. Kde mohu získat zdrojový kód pro vyhledávání na Wikia? (nedostupný odkaz) . Získáno 9. ledna 2017. Archivováno z originálu dne 4. listopadu 2011. 
  7. Aktualizace na Wikia – dělejte více z toho, co funguje . Získáno 9. ledna 2017. Archivováno z originálu 3. května 2009.

Odkazy