Системи за извличане на информация
СИСТЕМИ ЗА ТЪРСЕНЕ НА ИНФОРМАЦИЯ (ISS) в областта на химията, автоматизирани системи за търсене, внедрени на електронни компютри и предназначени да събират, търсят, обработват, съхраняват и издават химическа информация на потребителите съгласно определени критерии. Разнообразието от обекти на химията и сложността на нейния език доведоха до разпределението на ISS в химията като независим клас информационни системи. ISS е набор от език за извличане на информация (езици), софтуер и правила за превод на текстове на този език (индексиране), осигуряващ критерии за търсене и съвпадение. Материализираният изглед на МКС включва информационни масиви, техните носители (магнитни, оптични и др.), Софтуер и хардуер. Основните информационни масиви на МКС са бази данни (DB) и банки с данни (BND), както и информационни масиви на специализирани интернет системи. В зависимост от естеството на информацията, включена в базата данни, се прави разлика между документален или документален IRS (DIPS; съдържа библиографски описания, ключови думи, резюмета на статии от списания и колекции, монографии, патенти, стандарти, доклади от изследвания и др. ...); фактически ISS (FIPS; съдържат унифицирани фактически данни за обекти от предметната област, свойства на материали и вещества, структурни формули на съединения, уравнения на химични реакции, данни от физични и химични изследвания, информация за области на приложение, цена и др.); документален фактически (интегриран) IPS. Повечето от IRS в химията се представят в Интернет или се разпространяват на твърди магнитни носители (CD-ROM, DVD и др.).
Ключовият информационен компонент в ICS за химията е обект - химично вещество. Информацията за химичните вещества може да бъде представена под формата на прости текстови характеристики (име, синоними, молекулна формула и др.), Цифрови стойности на специфични свойства, резюмета и статии с пълен текст, графични и/или таблични, оптични, UV -, IR-, EPR-, NMR и други спектри или зависимости, равнинни и триизмерни изображения и др. Основната и специфична е информация за структурата на молекулите на химичните съединения. Основният начин да се представи структурата на молекула на химично съединение е структурната формула. Структурната формула е основният източник на информация за структурата на молекулата на определено химично съединение и неговия уникален идентификатор. Форматите на данните служат като начин за представяне на химическа информация в паметта на компютъра и извън нея. Следните чуждестранни информационни центрове се считат за най-големите разработчици на формати за данни в химията: Chemical Abstracts Service (CAS), Molecular Design Limited (MDL), Daylight, TRIPOS. Основните формати на данни са линейни кодове (SLN/SMILES, SYBYL, Viswesser и др.), ASCII текстови файлове (MOL, SDF, RDF и др.), XML файлове (CML).