Rodina proteinů je skupina evolučně příbuzných proteinů , které sdílejí homologní aminokyselinovou sekvenci. Tento termín je téměř synonymem termínu „genová rodina“, protože pokud mají proteiny homologní aminokyselinové sekvence, pak geny , které je kódují, musí také vykazovat významný stupeň homologie v nukleotidových sekvencích DNA . Tento termín by neměl být zaměňován s termínem " rodina " v taxonomii druhů živých organismů .
Stejně jako u mnoha jiných biologických termínů je použití rodiny proteinů vysoce závislé na kontextu: může se týkat velké skupiny proteinů s jemnou primární sekvenční homologií nebo velmi úzké skupiny proteinů s téměř stejnou primární strukturou, funkcí a trojrozměrná organizace nebo jakýkoli jiný mezipřípad. Pro rozlišení těchto dvou extrémních situací zavedl Dyhoff koncept proteinové nadrodiny [1] [2] [3] . Postupem času byly vytvořeny pojmy jako třída , skupina , klan a podrodina , ale všechny utrpěly stejný nejednoznačný osud. V běžném používání se nadrodinou (strukturální homologie) rozumí, že obsahuje rodiny (homologie primární sekvence), které obsahují podrodiny. Proto má nadrodina, jako je klan PA proteázy, nižší úroveň konzervovaných sekvencí než jedna z jejích členských rodin, jako je rodina C04. Zdá se nepravděpodobné, že by se v blízké budoucnosti objevila přesná definice s jasnými kritérii, a proto se čtenář bude muset sám rozhodnout, jak přesně tyto pojmy v každém konkrétním kontextu chápat.
.
Koncept rodiny proteinů vznikl v době, kdy ještě existovalo velmi málo proteinů se známou primární a terciární strukturou; byly zkoumány hlavně malé proteiny s jednou doménou, jako je myoglobin , hemoglobin a cytochrom c . Od té doby bylo zjištěno, že mnoho proteinů obsahuje mnoho strukturně a funkčně nezávislých jednotek nebo domén . Díky rekombinaci genů, ke které došlo během evoluce, se různé domény vyvinuly nezávisle. Z tohoto důvodu se v posledních letech stále více pozornosti věnuje rodinám proteinových domén. Definování a katalogizaci takových domén je věnována řada online zdrojů (viz seznam na konci článku).
Části každého proteinu mají různá strukturální omezení (tj. strukturální rysy nezbytné k udržení struktury a funkce proteinu). Například pro fungování aktivního místa enzymu je nutné, aby určité aminokyselinové zbytky byly vzájemně velmi přesně umístěny v trojrozměrném prostoru. Na druhé straně k interakci protein-protein může docházet na velkém povrchu a může být omezena hydrofobicitou nebo hydrofilitou aminokyselin. Funkčně důležité části proteinů se vyvíjejí pomaleji než nekonzervované oblasti, jako jsou povrchové smyčky, a dávají vzniknout blokům konzervovaných sekvencí. Takové bloky se obvykle nazývají motivy . Stejně jako v předchozím případě je jejich definici a katalogizaci věnována řada online zdrojů.
Podle současných představ lze rodiny proteinů tvořit dvěma způsoby. V prvním případě je rodičovský druh rozdělen do dvou geneticky izolovaných potomků, což umožňuje genu/proteinu nezávisle akumulovat variace ( mutace ) v těchto dvou liniích. V důsledku toho se vytvoří rodina ortologních proteinů, které mají obvykle společný konzervovaný motiv. Druhým způsobem je genová duplikace a vzhled paralogu . Protože první kopie genu je stále schopna plnit svou funkci, duplikát se může volně měnit a získávat nové funkce (prostřednictvím náhodných mutací). Některé rodiny genů/proteinů, zejména u eukaryot , procházejí během evoluce významným kopírováním nebo redukcí, někdy spolu se zdvojnásobením celého genomu.
Se zvyšujícím se celkovým počtem proteinů se známou strukturou a se zvyšujícím se zájmem o proteomickou analýzu se objevují pokusy uspořádat proteiny do rodin a popsat jejich domény a motivy. Spolehlivá identifikace proteinových rodin je zásadní pro fylogenetickou analýzu, stanovení funkce proteinu a studium mnohosti proteinových funkcí v dané fylogenetické skupině. Enzyme Function Initiative (EFI) využívá proteinové rodiny a superrodiny jako základ pro vytvoření strategie pro rozsáhlou taxonomickou distribuci enzymů neznámé funkce [4] .
Algoritmické prostředky pro stanovení rodiny proteinů jsou založeny na konceptu podobnosti. Většinu času je jedinou podobností, ke které máme přístup, homologie primární struktury.
Existuje mnoho biologických databází věnovaných rodinám proteinů, které umožňují rychle určit, zda nově objevený a identifikovaný protein patří do již známé rodiny proteinů. Zejména:
Existují také specializované vyhledávače: