SMILES ( Simplified Molecular Input Line Entry System , z angličtiny - “systém zjednodušené reprezentace molekul ve vstupním řádku”) je systém pravidel (specifikace) pro jednoznačný popis složení a struktury chemické molekuly pomocí ASCII . znakový řetězec . Název v angličtině je homonymem pro slovo úsměvy ( smiles ), ale píše se pouze velkými písmeny. V ruštině nemá jednoznačnou analogii, doporučuje se ji používat v původním jazyce. Vyslovuje se jako "smajlík".
Řetězec znaků, sestavený podle pravidel SMILES, může být převeden mnoha molekulárními editory na dvourozměrný nebo trojrozměrný strukturní vzorec molekuly .
Původní specifikace SMILES byla vyvinuta Arthurem Weiningerem a Davidem Weiningerem na konci 80. let [1] . Norma byla od té doby upravena a rozšířena; Na této práci se nejaktivněji podílela společnost Daylight Chemical Information Systems, Inc. .
Mezi další řádkové notace patří Wiswesser (WLN), SMARTS , ROSDAL a Sybyl Line Notation ( Tripos Inc. ). Nedávno IUPAC navrhl InChI jako standard pro lineární reprezentaci vzorců. SMILES má oproti InChI výhody, zejména lepší vnímání vzorců člověkem a také jednodušší softwarovou podporu díky přítomnosti rozsáhlého teoretického základu - teorie grafů .
Původní SMILES specifikace postrádala pravidla ohledně toho, jak byl zápis konstruován a jak byly rozlišeny prostorové izomery molekul. K vyřešení těchto problémů byla vyvinuta rozšíření standardu:
Z hlediska teorie grafů je SMILES řetězec získaný tiskem symbolů vrcholů molekulárního grafu v pořadí odpovídajícím jejich průchodu do hloubky . Počáteční zpracování grafu zahrnuje odstranění atomů vodíku a jednoduchých vazeb a rozdělení cyklů tak, že výsledný graf tvoří les . Místům, kde je graf rozdělen, jsou přiřazena čísla označující přítomnost vazby v původní molekule. Závorky se používají k označení bodů větvení molekuly .
Atomy jsou označeny symboly chemických prvků v hranatých závorkách , například zlato je označeno jako [Au]. U organogenních prvků ( B , C , N , O , P , S , F , Cl , Br , I ) mohou být závorky vynechány. V tomto případě mohou být atomy vodíku explicitně vynechány, pokud jejich počet odpovídá nejmenší normální valenci podle explicitně specifikovaných vazeb. Atomy v aromatických kruzích jsou obvykle psány malými písmeny místo velkých písmen, ačkoli některé dialekty SMILES používají explicitní střídání dvojných a jednoduchých vazeb (jako v Kekuleově strukturním vzorci pro benzen ). Pokud je nutné uvést formální náboj částice, zapíší se atomy vodíku a symbol náboje výslovně [3] . Izotopy se píší v hranatých závorkách s atomovou hmotností před symbolem atomu, například izotop 13C by se psal jako . [13C]
Například položka SMILES pro vodu by byla O, pro etanol by to bylo CCO. Hydroxylový anion je psán a železnatý[OH-] ion jako . [Fe+2]
Jednoduchá chemická vazba může být zapsána pomocí symbolu -mezi vázanými atomy, ale v praxi se to nepoužívá, symbol pomlčky je vynechán. Obvykle se také vynechává označení aromatické vazby ( : ). Dvojná vazba je označena rovnítkem , například oxid uhličitý se zapisuje jako O=C=O. Trojná vazba se označuje oktotorpem , například kyselina kyanovodíková se zapisuje jako C#N.
Postranní řetězce molekuly jsou uzavřeny v závorkách . Například kyselina propionová se zapisuje jako CCC(=O)O. Kanonická forma trifluormethanu vypadá jako C(F)(F)F, ale takový zápis je nepohodlný číst kvůli přetížení závorek, takže stejnou molekulu lze zapsat v nekanonické formě jako FC(F)F.
Stejným číslem jsou označeny atomy nacházející se na koncích vazby přerušené během výstavby překlenujícího lesa. Například cyklohexan se zapisuje jako C1CCCCC1a benzen se zapisuje jako c1ccccc1.
Konfigurace dvojité vazby se zapisuje pomocí / a \ . Například F/C=C/Fodpovídá trans - difluorethylenu a F/C=C\Fnebo F\C=C/Fodpovídá cis -difluorethylenu (viz obr.).
SMARTS je modifikace SMILES, která umožňuje použití neuspořádané struktury atomů a vazeb. Široce používán ve vyhledávačích v databázích látek. Praxe aplikace způsobila všeobecně rozšířenou mylnou představu, že při počítačovém vyhledávání struktur se porovnávají řetězové záznamy, zatímco mnohem produktivnější je porovnávání grafů sestavených na základě vzorců SMILES.
Vzorec SMILES lze převést na dvourozměrný strukturní vzorec pomocí algoritmů generování strukturních diagramů vyvinutých Helsonem [4] . Transformace ne vždy dává jednoznačný výsledek. Přeměna na trojrozměrný strukturní vzorec se provádí na principu minimální energie tvorby látky.
Molekulární vizualizace | |||||
---|---|---|---|---|---|
Chemické vzorce |
| ||||
Molekulární modely |
| ||||
jiný |
Strukturní chemie | |
---|---|
chemická vazba | |
Zobrazení struktury | |
Elektronické vlastnosti | |
Stereochemie |