Біоінформатика стосовно молекулярної генетики. Просто про складне: що потрібно знати про біоінформатику. Основні напрямки біоінформатики

[Відео][Слайди]

Революція в ядерній фізиці призвела багато років тому до накопичення величезної кількості даних, які треба було зберігати та обробляти. Це виявилося під силу тільки комп'ютерам, а за ними і суперкомп'ютерам.

Бум геноміки останніх 10-15 років продовжив цю традицію і примножив її: медико-біологічні дослідження стосуються кожного з нас, а отже, і даних проводитиметься все більше і більше особливо у світлі ідеї персоналізованої медицини та вимог великої форми. Тут уже без комп'ютерних знань і програмних продуктів і робити нічого. Але крім того, треба добре знати, що вивчати, як, як аналізувати дані і наскільки їм можна вірити. Як зберігати та обробляти. Де застосовувати та де використовувати.

У лекції висвітлено більшість цих «як». Алла ставить за мету розповісти про значущість і широту додатків біоінформатики.

2. Мутаційний процес та методи його вивчення (Олексій Кондрашов, МДУ)

[Відео][Слайди]

Мутаційний процес - перший із двох необхідних факторів дарвінівської еволюції. У лекції розглянуто причини та механізми виникнення мутацій, методи вимірювання параметрів мутаційного процесу на малих, середніх та великих часах, дані про швидкості мутування та найпростіші моделі впливу мутування на генетичну структуру популяції.

3. Природний відбір та методи його вивчення (Олексій Кондрашов, МДУ)

[Відео][Слайди]

Природний відбір – другий із двох необхідних факторів дарвінівської еволюції. У лекції розглянуто причини та механізми виникнення відбору, методи та параметри, що застосовуються для його опису та вивчення, дані про відбір у природі та найпростіші моделі впливу відбору на популяцію.

4. Дитячий розвиток та біоінформатика: завдання та рішення (Олена Григоренко, Yale University)

[Відео][Слайди]

У лекції розказано про кілька «стиків» наук про розвиток та біоінформатику.
Обговорюються проблеми пренатальної діагностики та пренатального секвенування, а також екзомного секвенування новонароджених.

Розповідається про вивчення впливу раннього середовища розвитку на стан метилома, та про геномну етіологію дитячих розладів розвитку. На закінчення розглянуто етичні питання, пов'язані з використанням геномної інформації у прийнятті діагностичних та індивідуалізованих рішень щодо розвитку дитини.

5. Секвенування нового покоління: принципи, можливості та перспективи (Марія Логачова, МДУ)

[Відео][Слайди]

Секвенування нового покоління (NGS) перетворило багато сфер біологічних і біомедичних досліджень. Воно дозволяє відносно швидко і недорого отримувати послідовності генів і геномів раніше не вивчених видів, а також - на матеріалі великої кількості індивідуумів одного виду - виявляти внутрішньовидову мінливість, проводити пошук генів, асоційованих з ознаками, що цікавлять. Крім власне визначення послідовностей геномів NGS дозволяє проводити детальний аналіз експресії генів у різних тканинах організму або за різних умов, що широко використовується в епігенетичних дослідженнях.

У лекції дано огляд основних методів секвенування, їх фізико-хімічні принципи, особливості пробопідготовки, характеристика даних, їх вартість і типові помилки. Особливу увагу приділено застосування різних методів для вирішення біологічних завдань, і надано рекомендації щодо планування експериментів, пов'язаних з NGS.

6. Структурна біологія білка: огляд проблем та підходів (Павло Яковлєв, BIOCAD)

[Відео][Слайди]

Використання тільки первинних послідовностей дозволяє вирішити більшість питань, пов'язаних із нуклеїновими кислотами (ДНК та РНК). При вивченні функцій білків знання лише первинної послідовності не дозволяє вирішити більшість завдань. Які білки взаємодіятимуть між собою і як сильно? Чи спричинить заміна амінокислоти зміну функції білка? Як усунути побічні ефекти від лікарського білка або збільшити його ефективність? На ці питання покликана відповісти область біоінформатики, яка займається розробкою алгоритмів для моделювання просторової форми білків та їх взаємодій.

7. De novo складання транскриптомів (Артем Касьянов, МФТІ)

[Відео][Слайди]

У зв'язку зі значним здешевленням та підвищенням продуктивності технологій кількість проектів, присвячених de novo секвенування геномів німодельних організмів, значно зросла. У ряді випадків de novo секвенування та складання геному утруднена - наприклад, у разі його значних розмірів. У разі вдаються до вивчення транскриптома. Також de novo аналіз транскриптома може знадобитися у разі вивчення видів з великою кількістю альтернативних генів, що сплайсуються, оскільки навіть за наявності геному досить складно визначити повний перелік ізоформ.

Лекція присвячена питанням складання транскриптомних даних без геному. Розглянуто такі теми, як сплайс-графи, програми trinity та newbler, порівняння та аналіз збірок, складання транскриптомів поліплоїдних організмів.

8. Еволюція алгоритмів складання геному (Антон Банкевич, СПбАУ РАН)

[Відео][Слайди]

На даний момент існує кілька поколінь методів секвенування ДНК. Проте нові технології безглузді без алгоритмів, здатних опрацювати їх результати. Постійно які виникають нові методи секвенування ставлять нові алгоритмічні завдання. Однією з найважливіших таких завдань є збирання геному. У лекції розказано про еволюцію методів секвенування та алгоритмічні підходи до складання геному, що виникали і продовжують виникати з кожним кроком цієї еволюції.

9. Введення в молекулярну біологію та генетику (Павло Добринін, СПбДУ)

[Відео][Слайди]

Лекція присвячена структурі та організації ДНК у прокаріотів та еукаріотів, молекулярних механізмів, що відповідають за збереження та відтворення генетичного матеріалу. Розібрано основні механізми, що стоять за генетичною мінливістю, та варіанти реалізації генетичного матеріалу.

10. Завдання множинного локального вирівнювання та побудови синтенних блоків (Ілля Мінкін, Pennsylvania State University)

[Відео][Слайди]

У лекції розглядається дві схожі алгоритмічні завдання у порівняльній геноміці: множинне локальне вирівнювання та побудова синтенних блоків. Ці алгоритми відіграють дуже важливу роль у порівнянні повних послідовностей геномів. Розказано про постановку завдань та про базові ідеї, на яких побудовано деякі сучасні алгоритми.

11. Навіщо та як робити презентації (Андрій Афанасьєв, iBinom)

[Відео][Слайди]

У лекції обговорюються типи презентацій, навіщо вони насправді потрібні, і розповідається, як виступити так, щоб слухачі все зрозуміли та не заснули, а також яких помилок треба уникати та з кого брати приклад під час підготовки свого виступу.

12. Бізнес у біоінформатиці (Андрій Афанасьєв, iBinom)

[Відео][Слайди]

У лекції розказано, які біоінформатичні компанії існують у Росії та у світі, хто їх створив і на чому саме вони заробляють гроші.
Обговорено плани великих гравців та тренди в індустрії.

У завершальній частині лекції Андрій дає їжу для роздумів про організацію власного стартапу чи вибір нового місця роботи.

13. Перспективи та проблеми системної біології (Ілля Серебрійський, Fox Chase Cancer Center)

[Відео][Слайди]

Лекція покликана дати уявлення про системні властивості біологічних об'єктів. Ілля Серебрійський розповідає про основні складові системної біології, про інтерактоміку та побудову моделей, про основні проблеми у системній біології та спроби їх вирішення. Обговорюються деякі досягнення системної біології (головним чином області онкології). Також розглядаються загальнодоступні ресурси системної біології (TCGA/cBioPortal, CCLE).

14. Лабораторна з системної біології (Ілля Серебрійський, Fox Chase Cancer Center)

[Відео][Слайди]

Заняття присвячене побудові мереж взаємодії з урахуванням загальнодоступних баз даних. Використані такі бази даних та веб-сервіси, як Entrez, GeneMANIA, BioGRID та інші. Розглянуто різні методи візуалізації мереж взаємодії, зокрема, за допомогою програми Cytoscape.

15. Метагеноміка (Алла Лапідус, СПбАУ РАН)

[Відео][Слайди]

Мікроби скрізь, мікроби правлять світом, але не з усіма ми можемо познайомитися в лабораторних умовах. Переважна більшість з них ми не знаємо як виростити, а значить, їх треба якось вилучати з їхнього природного довкілля - землі, води, з-під коріння дерев і т.д., де вони живуть великими групами.

Метагеноміка і допомагає у цих дуже заплутаних дослідженнях. А ще вона допомагає годувати, зігрівати, лікувати людей та ловити злочинців. Усьому цьому та біоінформатиці у метагеноміці і була присвячена ця лекція.

16. Проблема перевірки множини статистичних гіпотез (Антон Коробейников, СПбГУ, СПбАУ РАН)

[Відео][Слайди]

У лекції розглянуто класичну проблему перевірки безлічі гіпотез одночасно. Подібного роду завдання постають часто-густо, наприклад, при повногеномному пошуку асоціацій або аналізі даних мікрочіпів. Розглянуто можливі варіанти вирішення цієї проблеми, починаючи від класичного підходу Бонферроні до методів, що дозволяють контролювати FDR (false discovery rate).

17. Як правильно та неправильно використовувати статистику (Микита Алексєєв, СПбДУ, George Washington University)

[Відео][Слайди]

Лекція присвячена помилкам у застосуванні статистики та способам їх запобігання. Зокрема, дана відповідь на запитання: у яких ситуаціях можна використовувати стандартні критерії для порівняння типових представників вибірки і що робити, якщо стандартні критерії не підходять?

18. Математичні моделі регуляції експресії гена (Марія Самсонова, СПбГПУ)

[Відео][Слайди]

Розуміння тонких механізмів регулювання активності генів – необхідна умова для розшифрування механізмів виникнення хвороб у людини. На жаль, на сьогоднішній день таке розуміння відсутнє: ми не можемо задовільно пояснити, ні яким чином групи транскрипційних факторів взаємодіють один з одним, з білками хроматину, іншими адапторними білками та комплексом РНК-полімерази, ні як і чому та чи інша ділянка послідовності ДНК може контролювати складну, обмежену у просторі та детерміновану у часі картину експресії гена.

Математичне моделювання допомагає зрозуміти механізми генної регуляції шляхом механістичного та кількісного опису цього процесу. У лекції розглянуто два найбільш поширені підходи до моделювання експресії генів – засновані на нелінійних рівняннях реакції – дифузії та термодинамічній рівновазі. Послідовно розглянуто етапи побудови таких моделей та наведено приклади їх використання для генерації нових знань.

19. Напівлокальне та локальне вирівнювання послідовностей (Олександр Тискін, University of Warwick)

[Відео][Слайди]

Обчислення найбільшої загальної підпослідовності (longest common subsequence, LCS) двох рядків - одне з класичних алгоритмічних завдань, що має широке застосування як в інформатиці, так і обчислювальної біології, де вона відома як «глобальне вирівнювання послідовностей». У багатьох додатках необхідне узагальнення цього завдання, яке ми називаємо обчисленням напівлокальної LCS (semi-local LCS), або напівлокальним вирівнюванням. У цьому випадку потрібно обчислити LCS між рядком та всіма підрядками іншого рядка, та/або між усіма префіксами одного рядка та всіма суфіксами іншого. Крім важливої ролі цієї узагальненої завдання у рядкових алгоритмах, у неї виявляються несподівані зв'язки з алгеброю напівгруп та обчислювальною геометрією, з мережами порівнянь (comparison networks), а також практичні додатки у обчислювальній біології. Крім того, завдання обчислення напівлокальної LCS може використовуватися як гнучкий та ефективний підхід до (повністю) локального вирівнювання біологічних послідовностей.

У лекції представлено ефективне рішення задачі обчислення напівлокальної LCS і наведено огляд основних супутніх результатів та додатків. У тому числі динамічна підтримка LCS; швидке обчислення клік у деяких спеціальних графах; швидке порівняння стислих рядків; паралельні обчислення на рядках.

20. Аналіз сімейств молекулярних послідовностей (Сергій Нурк, СПбАУ РАН)

[Відео][Слайди]

При вирішенні різних завдань, від пошуку регуляторних мотивів до передбачення функцій білків, біоінформатикам доводиться працювати з цілими «родинами» еволюційно пов'язаних нуклеотидних або амінокислотних послідовностей. У лекції розглянуті різні способи представлення таких сімейств, які застосовуються у популярних біоінформатичних інструментах та базах даних. Розказано, як розшифрувати PROSITE pattern та проінтерпретувати sequence logo, у чому відмінність profile HMM від PSSM, а також як уникнути помилок при їх побудові та аналізі результатів.

21. Епігеноміка, РНК і таке інше (Андрій Миронов, ІППІ РАН)

[Відео][Слайди]

У лекції подано огляд поняття епігенетики. Розглянуто рівні структурної організації хроматину, розказано про різні епігеномні модифікації: модифікації гістонів, метилювання CpG-мотивів. Обговорено їхній вплив на експресію генів.
Також розглянуто роль епігеномних модифікацій у сплайсингу, імпринтингу тощо.

Розказано про систему XIST (X-inactivation specific transcript), антисмислові РНК, сплайсинг, РНК-залежне регулювання.
Також розглянуто моделі вивчення епігеномних модифікацій.

22. Контроль якості даних NGS (Костянтин Оконечників, Max Planck Institute for Infection Biology)

[Відео][Слайди]

У лекції описані похибки секвенування, притаманні технологій NGS. Прикладами таких помилок є ПЛР-ампліфікація, сиквенс-специфічні помилки прочитання, нерівномірний розподіл GC-складу та інші. Розібрано різні методи оцінки цих похибок та врахування їх при аналізі. Порушено питання практичних методів вирішення та існуючих програмних інструментів.

23. Контроль якості даних NGS, семінар (Костянтин Оконечників, Max Planck Institute for Infection Biology)

[Відео][Слайди]

У ході семінару учасники навчилися застосовувати навички програмування контролю якості даних NGS. Були розглянуті формати даних BAM/SAM, бібліотеки pysam та pyplot, фундаментальні поняття. Зокрема, розібрано приклади підрахунку GC-складу, оцінки частоти дуплікацій, розподілу довжини вставки, розрахунку покриття у вікнах.

24. Практичне секвенування РНК (Костянтин Оконечників, Max Planck Institute for Infection Biology)

[Відео][Слайди 1] [Слайди 2]

На семінарі розбиралося практичне завдання аналізу даних РНК-секвенування.
У форматі презентації та практики були обговорені та продемонстровані методи: вирівнювання рідів, початкового контролю якості, пайплайни для вивчення експресії генів DESeq та Cufflinks, знаходження ізоформ транскриптів, пошук гібридних генів.

25. Біоінформатичні підходи до вивчення та лікування раку на прикладі раку легенів (Марія Шутова, ІОГен РАН)

[Відео][Слайди]

Рак - одне з найпоширеніших та найнебезпечніших захворювань. Його називають «хворобою геному» за величезний внесок накопичених та нових мутацій у його появу та розвиток. При цьому відомо, що не тільки стан геному, а й транскрипційний і навіть епігенетичний статус первинних ракових клітин, а також складний гомеостаз пухлини, що росте, безпосередньо впливають на її властивості і, головне, сприйнятливість до терапії. Єдину можливість розібратися у цьому клубку взаємозалежних факторів дає біоінформатика. У лекції розібрано основні питання, пов'язані з вивченням пухлиноутворення, та можливі способи відповісти на них з використанням біоінформатичних підходів.

26. Нові оміки в біології людини: метаболоміка та ліпідоміка (Філіп Хайтович, Сколтех)

[Відео][Слайди]

Секвенування людського геному, вивчення людських генетичних варіацій, секвенування метагеному людини, транскриптомний аналіз людських тканин – усі ці біологічні методи у додатку до «big data» дали вченим великий обсяг цінної інформації про те, що відрізняє людину від інших тварин.

Ця лекція присвячена новим «омікам», що дозволяє відповісти на питання про людський організм при вивченні мозку та інших тканин – метаболоміці та ліпідоміці.

27. Геномне складання: погляд у завтрашній день (Андрій Пржибельський, СПбАУ РАН)

[Відео][Слайди]

В останні роки технології секвенування нового покоління зробили помітний крок уперед: з'явилися IonTorrent та Pacific Biosciences, Ilumina створила низку нових протоколів. Але, як виявляється, цього недостатньо для того, щоб вважати проблему складання геномів вирішеною. Для того щоб пройти шлях від отримання ДНК до повністю завершеного геному, як правило, потрібні десятки різних фахівців, сотні тисяч доларів і роки роботи. Тому сьогодні це завдання залишається актуальним як з погляду біотехнологій, так і з погляду біоінформатики. У лекції розглянуто останні прориви в методах збирання геномів, новітні типи даних, які, можливо, дозволять вивести це завдання на новий рівень, та перспективи геноміки у найближчому майбутньому.

Замість ув'язнення

освіта

літня школа

Додати теги

Біоінформатикастала модним словом у сучасному світі науки. Приблизно одне чи два десятиліття тому люди розглядали біологію та інформатику як дві абсолютно різні галузі. Одна вивчала живих істот та функції їхнього організму, тоді як інша займалася комп'ютерами та інформаційними системами. Проте в даний час існує, мабуть, зв'язок між цими двома областями, і ця нова галузь, біоінформатика, постала як комбінація Інформатики та Біології.

Що таке біоінформатика?

біо + інформатика = біоінформатика

Біоінформатика- це міждисциплінарна область, яка розробляє методи та програмні засоби для розуміння біологічних даних. Як міждисциплінарна галузь науки біоінформатика поєднує комп'ютерну науку, статистику, математику та техніку для аналізу та інтерпретації біологічних даних.

Різні біологічні аналізи призводять до експонентного зростання кількості біологічних даних, і їх дуже складно аналізувати вручну. Саме тут приходить на допомогу комп'ютерна наука та інформаційні технології. Різні обчислювальні методи використовуються для більш точного та ефективного аналізу біологічних даних та автоматизують процес їх обробки. Отже, біоінформатика може розглядатися як галузь науки про дані для вирішення проблем у галузі біології та медицини.

Навіщо вивчати та застосовувати біоінформатику?

Біоінформатика стала міждисциплінарною наукою, і якщо ви біолог, то знання в галузі біоінформатики можуть принести вам величезну користь у роботі з вашими експериментами та дослідженнями.

Міжнародний ринок праці зараз заповнений вакансіями для людей з навичками біоінформатики. Великі фармацевтичні, біотехнологічні та софтверні компанії прагнуть найняти професіоналів, які мають досвід у галузі біоінформатики, щоб вони працювали з величезною кількістю біологічної та медичної інформації.

Основне застосування біоінформатика знаходить в області прецизійноїі профілактичної медицини. Основу прецизійної медицини складають медичні методи, адаптовані для окремих пацієнтів, включаючи методи лікування та діагностики. Замість лікування хвороб прецизійна медицина фокусується на розробці заходів щодо профілактики та запобігання захворюванням. Вона зосереджується на таких хворобах, як грип, рак, серцеві захворюванняі діабеті.

Проводяться дослідження з виявлення генетичних зміну пацієнтів, що дозволяє вченим пропонувати найкращі методи лікування та навіть можливі заходи профілактики. Певні типи раку, спричинені такими генетичними змінами, можуть бути ідентифіковані заздалегідь і лікування може розпочатись до погіршення стану.

Як стати фахівцем у біоінформатиці?

Перш ніж заглибитись у предмет, на початковому етапі вам потрібно трохи дізнатися про біології , генетиціі геноміці. Це включає вивчення генів, ДНК, РНК, білкових структур, різних процесів синтезу тощо.

Потім вам потрібно буде вивчити біомолекулярні структури(наприклад, послідовності, виявлені в ДНК, РНКі білках) та методи для виявлення та аналізу різних моделей, а також інформаційних сайтів про них. Ви зіткнетеся з різними алгоритмами, які використовуються різними методами. Крім того, ви отримаєте можливість використовувати різні методи машинного навчання та інтелектуального аналізу даних, такі як приховані марківські моделі, нейронні мережіі кластеризація.

Оскільки ви будете мати справу з великими обсягами даних, важливо мати гарне розуміння про статистиці, як ви повинні аналізувати дані відповідно до конкретних вимог.

Звичайно, вам знадобляться гарні навички програмування. Такі мови програмування, як R, Pythonі Bashє мовами, що найчастіше використовуються в аналізі біологічних даних. Вирішити, з чого почати, залежить від ваших цілей. Ви можете використовувати інші мови, такі як C/C++і Java.

Після базового розуміння фундаментальних концепцій ви можете дослідити інші галузі, такі як структурна біоінформатика,системна біологіяі біологічні мережі.

Людина-дивовижне створення, а його геном ще більш захоплюючий. Весь геном людини, що зберігається в молекулі ДНК, це чудово! Можна кодувати величезну кількість даних за одну хвилину, і розшифровувати їх щоб зрозуміти, які зміни в експресії генів можуть призвести до фатальних генетичних захворювань. Системи охорони здоров'я потребують заходів щодо виявлення таких захворювань, а також лікувально-профілактичних заходів, що сприяють порятунку людських життів.

Біоінформатика довела, що має великий потенціал для виявлення хвороб на ранній стадії, визначення методів їх лікування та покращення життя людей. Натхненні знаннями в галузі комп'ютерних наук такі галузі, як генна техніка, медицина і охорона здоров'я, можуть розвиватися від лікування індивідуальних пацієнтів до лікування всіх груп населення.

Біологія неодноразово переживала нове народження: бувши спочатку «польової» наукою, що вивчала тварин і рослини, у XX столітті вона значно перемістилася в лабораторії, концентруючись на молекулярних основах життя та спадковості. У XXI столітті історія рушила далі: багато експериментів тепер проводяться на комп'ютері, а матеріалом для вивчення є послідовності білків та ДНК, а також інформація про будову біологічних молекул. У цій статті ми дамо кілька порад тим, хто вирішив пов'язати свою кар'єру з комп'ютерною біологією, ставши тим самим біоінформатиком.

Зверніть увагу!

Спонсор публікації цієї статті – Лев Макаров.

У наш час у світі нікого не здивуєш уже назвою професії «комп'ютерний біолог» або «біоінформатик», хоча ще кілька десятків років тому ці сфери діяльності – біологія та комп'ютери – здавалися зовсім непересічними, а ще за кілька десятків років до того жодних комп'ютерів не було зовсім. Причому зараз цей термін включає вже досить багато окремих занять, що вимагають різної підготовки та різного погляду на науку та її місце в житті: біоінформатик, спеціаліст з обробки інформації, розробник баз даних, програміст, куратор онтологій, спеціаліст з молекулярного моделювання - всі вони займаються різними речами, хоч із боку їх відрізнити буде непросто. Все це без натяків говорить нам, що комп'ютери міцно увійшли в будні біологів, причому це не тільки е-мейл і фейсбучок, а й маса спеціальніших навичок, без яких досліднику зараз і в майбутньому вже не обійтися (див. врізання). Студент ви чи професор, - ніколи не пізно почати вдосконалювати свої навички біоінформатика!

Для ясності біоінформатиками будемо називати всіх біологів, у роботі яких комп'ютери відіграють більшу роль, ніж просто друкарська машинка, хоча в російській традиції власне під біоінформатикамимають на увазі тих, хто займається вивченням закономірностей біологічних текстів - послідовностей білків і ДНК, - а моделювання динаміки та властивостей біомолекул, наприклад, частіше називають молекулярним моделюванням.

«Суха» біологія

«Біомолекула» досить багато уваги приділяє комп'ютерній, або, як її ще називають, «сухій» біології – сучасній галузі біологічної науки, у якій головним інструментом дослідника є звичайний комп'ютер. (Щоправда, часто доводиться вдаватися до допомоги і не зовсім нормальних - суперкомп'ютерів.) На нашому сайті є спеціальна рубрика, присвячена цій науці, - "Суха біологія", - ознайомитися з якою ми і пропонуємо зацікавленому читачеві. Зокрема, там йдеться про концепцію кількісної біології, про способи обчислення просторової структури та динаміки біологічних молекул (з особливим акцентом на біомембранах та мембранних білках та рецепторах), а також про становлення молекулярної графіки. У недавніх статтях було розказано про методи вивчення еволюції за молекулярними даними, а також про нову концепцію «сухої» біології, яка передбачає майбутнє біології як науки.

У цій статті, яка базується на перекладі недавнього есе в журналі Nature Biotechnology, ми наводимо деякі поради для біоінформатиків-початківців - дослідників, які планують займатися вивченням життя без відриву від клавіатури.

Словник комп'ютерних термінів

Командна стоку спосіб взаємодії з комп'ютером без мишки та кнопочок, а лише набираючи у вікні терміналу спеціальні команди та оперуючи інформацією, що зберігається у текстових файлах. Найчастіше командний рядок асоціюється з комп'ютерами під керуванням UNIX/Linux, хоча й у Windows TM і Mac OS TM вони теж є. Кластер об'єднані в єдину високошвидкісну мережу і комп'ютери, які працюють разом, які можна використовувати для вирішення ресурсомістких завдань. Зазвичай оснащені системою планування завдань та диспетчеризації ресурсів. Конвеєр спосіб вирішення конкретних завдань з обробки даних, об'єднуючи програми більш загального призначення в ланцюжок так, щоб інформація, що видається однією програмою, потрапляла на наступний вхід. Вихідний код (вихідник) текст програми однією мовою програмування. В разі інтерпретованих мовтекст є програмою сам по собі, а ось програму, написану на компілюваною мовою, спочатку треба перевести в бінарний файл (скомпілювати). Програмне забезпечення (ПО) ну і так зрозуміло - додамо лише, що це набір інструкцій для комп'ютера, що дозволяє користувачеві (або програмісту) вирішувати потрібні йому завдання - від набору текстів у ворді до аналізу генетичної послідовності чи розрахунку молекулярної динаміки. Скрипт - різновид програми, написаний мовою, що інтерпретується (а значить, не вимагає спеціальної компіляції) і використовувана біоінформатиками для автоматизації своїх завдань, для реалізації парадигми конвеєра. Система контролю версій Комп'ютерна система управління розробкою складних програм, що включають десятки або сотні файлів з вихідними кодами, тисячі або навіть мільйони рядків коду, і розроблюються кількома або багатьма програмістами. Дозволяє програмі з часом не «розповзатися», а програмістам – легко перемикатися між різними версіями та «гілками» розробки. UNIX/Linux сімейство вихідно розрахованих на багато користувачів і багатозадачних операційних систем (ОС). Найчастіше використовується на серверах та обчислювальних кластерах, однак може встановлюватися і на персональні комп'ютери як альтернативу комерційним ОС (таким як Windows). Особливістю цих операційних систем є модель розробки - оскільки ОС мають відкритий вихідний код, у створенні беруть участь програмісти-добровольці з усього світу. Втім, кількість версій така велика, що є і пропрієтарні («закриті») гілки - як, наприклад, Mac OS, яка з деякого часу раптово стала «нащадком» UNIX-систем.

Вибір зброї за вами

Зараз створено таку кількість різноманітних біоінформатичних програм, що зробити оригінальне комп'ютерне дослідження можна і не програмуючи самостійно; треба тільки вибрати відповідне ПЗ. Однак не варто надто розслаблятися: щоб вийшло щось хороше, треба спочатку як слід зрозуміти, що ж ці програми роблять, і яка математична теорія лежить у їх основі. Ви ж не підете в лабораторію ставити полімеразну ланцюгову реакцію, попередньо не дізнавшись, що це таке і для чого потрібно? Ну так от і з комп'ютерами те саме. Біоінформатичні програми, по суті, є аналогами обладнання та методик у «мокрій» молекулярно-біологічній лабораторії. (До речі, на контрасті зі словом "мокрий" біоінформатичні лабораторії все частіше зараз називають "сухими".) Тому, хоча від вас і не потрібно вчитуватися в кожен рядок вихідного коду, уявляти собі загальні принципи роботи програм абсолютно необхідно.

Ну, ми сподіваємось, що не підете. – Ред.

Різні програми часто втілюють той самий теоретичний підхід, але адаптовані для вирішення різних практичних завдань. Наприклад, при «складання» геному з окремих послідовностей ДНК, одержуваних у результаті роботи автоматичних секвенаторів, у разі «довгих» (сотні залишків нуклеотидів) прочитань використовується алгоритм, заснований на перекриванні (Overlap-Layout-Consensus), у той час як для роботи із наборами «коротких» (десятки залишків нуклеотидів) фрагментів краще підходять графи де Брейна. І вибір правильної програми не тільки заощадить вам багато часу, а й взагалі принципово забезпечить (або не забезпечить) здійсненність поставленого завдання.

Хоча іноді на моніторі біоінформатика і з'являються цікаві картинки (в даному випадку - глікопротеїн лихоманки Денге), найчастіше там можна побачити текстове віконце з незрозумілими колонками цифр або рядками букв.

Тримайте все під контролем

Одна з головних небезпек, що комп'ютер може видати неправильний результат, спеціально не просигналізувавши про це. Відсутність повідомлення про помилку ще не говорить про те, що отриманий результат є правильним. Подавши програмі дикі дані на вхід або просто використавши неправильні налаштування, неминуче отримаєш дику відповідь, і надзвичайно важливо постійно пам'ятати про таку можливість та вміти перевіряти, що отримане має хоч якесь відношення до дійсності. Найпростіше переконатися, що все працює добре, запустивши програму для даних, відповідь для яких вже відома, і переконатися, що саме вона і виходить. Часто для маленьких наборів даних обчислення можна провести буквально вручну, і тоді звірити відповідь з одержуваним на комп'ютері особливо цікаво: якщо він відрізняється, то або не права машина, або ви. Але позитивного результату в цьому випадку вже не отримати це точно.

Біохімічні експерименти ніколи не проводять без негативних та/або позитивних «контролів», тож звикайте і на комп'ютері робити те ж саме. Контролем в біоінформатиці послідовностей служить, зазвичай, перевірка моделі деяких випадкових даних. З вибором моделі генерації випадкових даних треба бути дуже акуратним. Двічі перевіряйте, що все було без помилок, і, головне, що отримані результати мають якийсь сенс, - інакше вас неминуче підстерігають «відкриття» на рівному місці.

Ви вчений, а не програміст

Як відомо, найкраще – ворог хорошого. Пам'ятайте, що у вашій роботі важливі свіжі думки та новизна результатів, а не краса вихідних програм. Чудово оформлений та документований код, який не дає правильної відповіді, безсумнівно, нікуди не годиться порівняно з примітивним скриптом, що його дає. Іншими словами, красу в програму слід привносити тільки після того, як ви неодноразово вже переконалися, що вона справді робить те, для чого призначена. І – найголовніше – використовуйте свої біологічні знання по максимуму, тому що тільки це і робить вас комп'ютерним. біологом. З іншого боку, корисно писати коментарі прямо під час написання програми: «ця функція/структура потрібна для...», інакше вже за тиждень ви витратите багато часу, щоб зрозуміти, що тут відбувається. Повторний запуск програми - це чудовий привід для приведення коду в людський вигляд; ви просто робитимете це походу «згадування» вчорашньої послідовності дій.

Використовуйте систему контролю версій

Використання контролю версій дозволить гнучкіше керувати розвитком коду, дозволить легко повертатися до попередніх редакцій програми або перемикатися між різними гілками розробки, а також відкриє можливість спільної розробки програми. Поширені системи – такі як Git або Subversion – дадуть можливість легкої публікації проекту у мережі. Ви зробите найкраще для себе, якщо не полінуєтеся написати кілька виразних README-файлів і покладете їх у потрібні місця проекту; це надзвичайно вам допоможе, якщо через місяці або навіть роки вам доведеться повернутися до старої програми. Документуйте програми та скрипти, щоб було зрозуміло, що вони роблять. Коли ви публікуєте наукову статтю, гарним тоном буде опублікувати також оригінальні програми, які використовувалися для обчислення даних: це дозволить іншим використовувати той самий метод і відтворити ваші результати. Непогано б також вести електронний щоденник, у якому було б записано весь хід роботи. Онлайн-репозиторії, такі як Github, дозволяють робити це, а також дозволять вам зберігати робочі версії програми, що стане додатковим рівнем бекапу ваших напрацювань (див. таблицю 1).

Таблиця 1. Найважливіші інструменти комп'ютерного біолога.

Завдання	Інструменти
Спільна розробка програм	Зробіть ваш код (і, можливо, дані) доступними в мережі з такими онлайн-сховищами як Github або Bitbucket . В інтернеті багато посібників щодо використання цих систем. Існують також системи управління науковими проектами, про які розказано в окремому врізанні.
Для складних завдань пишіть скрипти та конвеєри	Для цього можна використовувати як сучасні розробки, на кшталт Ruffus, так і перевірені часом класичні UNIX-утиліти типу Make. Вибір конкретного інструментарію залежить від особистих уподобань та улюбленої мови програмування
Зробіть ваші «конвеєри» доступними	Не виключено, що в командному рядку ви почуваєтеся, як риба у воді, але більшість ваших колег, напевно, немає. Створені вами конвеєри можна оснащувати графічними інтерфейсами за допомогою систем Galaxy або Taverna.
Інструменти розробника (IDE)	Звичайно, програми можна писати в будь-якому текстовому редакторі, починаючи з , але краще, якщо ви освоїте більш просунуті інструменти - такі як текстовий редактор Emacs або повнофункціональне середовище розробки типу Eclipse . І, знову ж таки, конкретний вибір буде заснований на ваших уподобаннях та улюбленій мові програмування.

Системи управління проектами

Ще одним корисним інструментом, окрім систем контролю версій, який можна запозичити із програмістської практики, є системи управління проектами. Найпростіше сприймати їх як сучасний електронний журнал, який надає вам такі додаткові можливості:

Створення та призначення завдань.Наприклад, «порахувати те». Всередині завдання можна вести обговорення, які будуть зручно структуровані і не перетворять вашу пошту на склад жахливого листування на кшталт «Re: Project X (100)» При цьому, однак, можна налаштувати поштові повідомлення, тому ніхто не пропустить важливий коментар.
Прикладати та організовувати файли з детальними описами та підтримкою версійа-ля Dropbox. Вам доводилося довго шукати в кількох гілках листування за проектом якісь файли з малозрозумілими назвами, на зразок «report_ACC_clean.xxx»?
У вбудовану Wiki можна заносити опис процедур запуску програм, методики експериментів, вбудовувати відеозаписи та навіть рендерувати LaTeX формули.
Текстовий пошук по всьому вмісту, у тому числі за доданими файлами.
Інтеграція із системами контролю версійдля розробки ПЗ дозволяє зручно співвідносити завдання зі змінами в репозиторіях.
Є навіть такі екзотичні можливості, як організація свого аналога Google Docsдля одночасного редагування тексту. Не всю інформацію можна довірити стороннім ресурсам.

У нашій лабораторії ми використовуємо Redmine – це чудова СПО-система управління проектами, під яку є безліч плагінів. Її можна розгорнути як самостійно, так і взяти в оренду віртуальну машину з уже встановленою системою. Найбільш відомим пропрієтарним аналогом є Basecamp.

Залівський Артур, факультет біоінженерії та біоінформатики МДУ
(група обчислювальної структурної біології).

Заразна хвороба конвеєрит

Конвеєр (pipeline) - програмний ланцюжок з кількох чи багатьох інструкцій, що дозволяє проводити точно самі операції на новому наборі даних. Конвеєри та скрипти незамінні в роботі комп'ютерного біолога, але вони також можуть загнати вашу свідомість у прокрустовому ложі скрипту і докорінно перервати політ фантазії.

Політ фантазії

Ну, звичайно ж, ви можете. Що захочете – те й можете. У тому сенсі, що креатив і смілива фантазія в роботі комп'ютерного біолога абсолютно потрібні, тому що інакше зробити нічого цікавого не вийде. Адаптуйте існуючі методи, створюйте нові, передбачайте успіх і не бійтеся невдачі. У цій галузі дуже багато можна досягти, просто лазячи по інтернету і спілкуючись із колегами в лабораторії або в мережі. Самоосвіта не лише навчить вас вирішувати конкретні проблеми – вона навчить вас постійно вчитися.

Запишіться на онлайн-курси (див. табл. 2), але це буде лише початок, а не кінець навчання. Лише смерть обриває навчання по-справжньому творчої людини.

Таблиця 2. Корисні ресурси для (само)освіти.

Корисна навичка	Ресурси
Онлайн-курси (Massive open online courses)	Зараз такі курси переживають вибух популярності, і вже пропонують дуже широкий спектр тематик для вивчення прямо через інтернет. На сайтах Coursera, Udacity, edX та Kahn Academy є маса корисного з галузі біоінформатики, геноміки, комп'ютерної біології, статистики та різноманітного моделювання.
Навчання програмування	Codeacademy та Code School не є чимось заточеним під біологію, але добре підходять для початку програмування. Потім можна продовжити з курсом "Python для біологів". Безліч хороших прикладів доступна на сайті http://software-carpentry.org.
Вирішення біоінформатичних завдань	Практичне вивчення біоінформатики шляхом вивчення програмування та змагання з іншими учасниками проекту доступне на російському сервісі Rosalind.
Міжнародні організації	GOBLET – міжнародна організація з біоінформатичної освіти, а ELIXIR – європейське об'єднання, що забезпечує різноманітну інформаційну підтримку та інфраструктуру для досліджень у галузі наук про життя.
Блоги та листи підписки	У мережі є безліч блогів та списків розсилки для комп'ютерних біологів, наприклад http://stephenturner.us/p/edu та http://ged.msu.edu/angus/bioinformatics-courses.html . Для обчислювальних хіміків є ще CCL.net.
«Локальні» російські ресурси
Навчання основ біоінформатики (курси та вільне відвідування)	Московська школа біоінформатики дасть основні навички у цій сфері, а курс роботи з даними високопродуктивного секвенування розповість, як отримують повні послідовності геномів. у Санкт-Петербурзі знайомить студентів із основами біоінформатики на прикладі реальних наукових досліджень (також проходить Літня школа).
ВНЗ, в яких викладають біоінформатику	МДУ ім. М.В. Ломоносова, Факультет біоінженерії та біоінформатики (спеціаліст) Академічний університет РАН (магістратура) Московський Фізико-Технічний Інститут, Факультет біологічної та медичної фізики (кафедра біоінформатики) Санкт-Петербузький Державний Політехнічний Інститут, Фізико-механічний факультет (кафедра прикладної математики; магістратура)
Досвід роботи з Linux/Unix	Допомога в установці та налаштуванні одного з дистрибутивів Linux вам можуть допомогти у спільнотах Russian Fedora або Ubuntu. Також ви можете звернутися з питаннями на http://linux.org.ru; більше, цьому ресурсі можна отримати відповіді деякі наукові питання.

Нікого не слухай

При відпрацюванні статистичних методик часто роблять такий експеримент: генерують великі масиви випадкових даних, які випадково позначають як «робочу вибірку» або «контроль». А потім до цих даних застосовують статистичний критерій, який повинен виявити різницю між даними, які не різняться, і... Для багатьох «вибірок» p-значення часто вказує на статистично значущу відмінність. Біологічні набори даних, наприклад, отримані з геномного аналізу або скринінгових тестів, також сповнені випадкового «шуму» і часто величезні за розмірами. Будьте готові до того, що при аналізі подібних даних вам доведеться зіткнутися з хибнопозитивними та хибнонегативними результатами, а також у вихідні дані може вкрастися систематична помилка, що виникла через особливості експерименту або експериментатора.

Навіть у біологів, досвідчених у статистиці, часто виникає спокуса наплювати на обережність і заглибитися в експерименти з програмою або скриптом, які дали цікавий результат. Однак тут завжди потрібна обережність, яка підказує, що необхідно розглядати будь-який результат як потенційно помилковий і провести додаткові перевірки щодо цього. Якщо той самий результат вдається отримати з допомогою різних підходів, тоді впевненість у правильності кожного їх зросте. І, тим не менш, більшість таких «відкриттів» вимагають експериментального підтвердження, щоб відкинути сумніви.

Найважливіше - що для інтерпретації отриманих на комп'ютері результатів потрібна хороша біологічна освіта та чуття. І навіть те, що програма чи скрипт працюють правильно, ще не гарантує, що отриманий результат не є артефактом чи просто невірним трактуванням якихось інших явищ.

Вірний інструментарій

Обов'язково освойте командний рядок UNIX/Linux. Більшість біоінформатичних програм має інтерфейс командного рядка. Насправді вона надзвичайно потужна, дозволяє в тонкощах контролювати робочі завдання, запускати програми на паралельне виконання, і, що важливо, контролювати роботу утиліт і перезапускати їх прямо через текстовий термінал, хоч з мобільного телефону. Це одна з переваг роботи біоінформатиків - працювати можна будь-де, був би під рукою комп'ютер або планшет, а також вихід в інтернет. Освойте паралельні обчислення, тому що вони дозволяють запускати сотні завдань одночасно та багаторазово підвищувати продуктивність роботи. Обов'язково потрібно вміти хоч трохи програмувати, хоча вибір конкретної мови програмування не відіграє великої ролі: у всіх у них є свої переваги та недоліки, і іноді потрібно комбінувати кілька різних мов, щоб зробити роботу швидше.

Пам'ятайте, що вибір популярної мови дозволить вам користуватися більшим набором існуючих бібліотек та підпрограм, які дозволять не винаходити велосипед, а зосередитися на своїй роботі. Прикладом такого «складу» напрацювань є Open Bioinformatics foundation. Намагайтеся не використовувати Microsoft Excel (тільки для виведення таблиць, які читатимуть некомп'ютерні біологи, які тільки з ним і вміють працювати). Це хороша програма, але для обробки великої кількості даних вона таки підходить погано. Найкраще зберігати експериментальні дані в структурованих текстових файлах (хороший варіант для таблиць - csv) або SQL-базі - це дозволить отримувати доступом до інформації безпосередньо з вашої програми.

І, так, робіть бекапи!

Елементарно, Ватсон!

Якщо ви станете комп'ютерним біологом, вам весь час доведеться поратися з даними. Вони зберігають безліч історій, і виловити ці історії звідти – ваш професійний обов'язок. Однак швидше за все зробити це буде не так просто. Потрібно постійно пам'ятати сенс проведеного експерименту і схему аналізу даних, і навіть вдень і вночі обмірковувати, який же біологічний сенс у отриманих результатах. І чи є гіпотетичний помічений вами сенс тривіальним наслідком помилок аналізу чи артефактів у даних.

Щоб усе це мало сенс, потрібно спілкуватися з іншими фахівцями, які отримували ці експериментальні дані, і намагатися зібрати картину шматочками. Пропонуйте додаткові експерименти, які можуть підтвердити або спростувати висунуту вами гіпотезу. Стати детективом, докопайтеся до відповіді.

Хтось це вже зробив. Так знайдіть їх та спитайте!

Яка б хитра не була проблема і як би не був новим методом, завжди є ймовірність, що люди вже займалися тим, з чим довелося зіткнутися вам. Є два сайти, на яких обговорюють проблеми, що виникли в дослідженнях - BioStars і SeqAnswers (а суто програмістські питання - Stack Overflow). Іноді можна отримати слушну пораду навіть у твіттері. Пошукайте в інтернеті, хто в цій країні та світі займається схожими питаннями і зв'яжіться з ними (див. таблицю 3).

Таблиця 3. Російські "сухі" лабораторії.

Лабораторія	Місто	Чим займаються
Група молекулярного моделювання на біологічному факультеті МДУ	Москва	Молекулярна динаміка білків та пептидів
Група обчислювальної структурної біології, біоінформатична група та лабораторія еволюційної геноміки на факультеті біоінженерії та біоінформатики МДУ	Москва	Молекулярне моделювання нуклеїнових кислот та нуклеопротеїдів та біомембран. Дизайн ферментів. Системна біологія, біостатистика, вивчення вторинної структури РНК. Вивчення природного відбору геномному рівні, робота з даними секвенування нового покоління (NGS).
Лабораторія хімічної кібернетики та група комп'ютерного молекулярного дизайну на хімічному факультеті МДУ	Москва	Квантова та фотохімія Молекулярне моделювання оболонок вірусів та їх інгібіторів, а також мембранних рецепторів
	Комп'ютерне моделювання комплексів білків з білками та ліками, драг-дизайн, фармакологія, вивчення зв'язків «структура-активність»
Навчально-науковий центр «Біоінформатика » та ще кілька біоінформаційних груп в Інституті Проблем Передачі Інформації РАН	Москва	Системна біологія, аналіз просторових структур біомолекул, порівняльна геноміка. Організують Московський біоінформатичний семінар, Московську школу біоінформатики та конференцію «Moscow Conference for Molecular Computational Biology».
Лабораторія системної біології та обчислювальної генетики та група біоінформатики в Інституті загальної генетики РАН	Москва	Пошук функціональних мотивів (сайтів зв'язування транскрипційних факторів тощо) у послідовностях ДНК
Лабораторія біоінформатики та системної біології в Інституті молекулярної біології РАН	Москва	Методи біоінформатики та пошуку функціональних мотивів, передбачення схильності до захворювань
Лабораторія біоінформатики у НДІ Фізико-хімічної медицини	Москва	Проблеми метагеноміки та протеоміки
Лабораторія алгоритмічної біології Академічного університету РАН	Санкт-Петербург
Лабораторія «Алгоритми збирання геномних послідовностей» національного дослідницького університету інформаційних технологій, механіки та оптики	Санкт-Петербург	Проблеми «складання» та аналізу геномів
Група біоінформатики та функціональної геноміки Інституту Цитології РАН	Санкт-Петербург	Вивчення функціонального значення загальної структури геному
Лабораторії функціональної геноміки та клітинного стресу та механізмів функціонування клітинного геному Інституту біофізики клітини РАН	Пущино	Моделювання структурної організації та пошук промоторів у ДНК бактерій Аналіз розподілу фізичних властивостей уздовж послідовності ДНК, нелінійна динаміка ДНК
Лабораторія прикладної математики в Інституті математичних проблем біології РАН	Пущино	Вторинна структура РНК, альтернативний сплайсинг
Лабораторія фізики білка Інституту білка РАН	Пущино	Теоретичне та експериментальне вивчення процесів згортання білкових молекул
Відділ системної біології Інституту цитології та генетики СО РАН	Новосибірськ	Постгеномна біоінформатика. Комп'ютерний аналіз та моделювання молекулярно-генетичних систем. Генні мережі. Моделі розвитку мікроорганізмів.
Група лабораторії екологічної біохімії Інституту біології КарНЦ РАН	Петрозаводськ	Молекулярне моделювання біомембран
Ми усвідомлюємо, що в одній таблиці не можна перерахувати всі ці наукові групи. Якщо ми забули когось, то із задоволенням додамо. Таблиця підготовлена Оленою Чукліною(Московський фізико-технічний інститут / Навчально-науковий центр «Біоінформатика» Інституту проблем передачі РАН).

На додачу можна сказати, що в інтернеті є маса форумів і юзергруп, де можна поставити питання, що цікавлять. Встановіть собі лінукс і почніть вивчати в онлайні щось біоінформатичне. При належній завзятості ви здивуєтеся, як багато можна досягти, маючи просто комп'ютер і вихід в інтернет!

Статтю написано за мотивами есе в журналі Nature Biotechnology за участю Артура Залевського та Олени Чукліної.

Література

Код життя: прочитати не означає зрозуміти;
Nick Loman, Mick Watson. (2013). Se you want to be a computational biologist? . Nat Biotechnol. 31 , 996-998.

Вступна лекція з біоінформатики

План уроку:

Що таке біоформатика?

Цілі та завдання біоінформатики.

Об'єкти дослідження.

Етапи розвитку біоінформатики.

Типи баз даних.

Розділи біоінформатики.

Список літератури.

1. Що таке біоінформатика?

Біоінформатика (bioinformatics) - галузь інформатики (теорії інформації), що швидко розвивається, займається теоретичними питаннями зберігання та передачі інформації в біологічних системах.

Ця наука виникла у 1976-1978 роках, остаточно оформилася у 1980 році зі спеціальним випуском журналу Nucleic Acid Research (NAR).

2. Цілі та завдання біоінформатики

Метою біоінформатики є як накопичення біологічних знань у формі, що забезпечує їх найбільш ефективне використання, так і побудова та аналіз математичних моделей біологічних систем та їх елементів.

Розробка алгоритмів для аналізу біологічних даних великого обсягу:

Алгоритм пошуку генів у геномі;

Аналіз та інтерпретація різних типів біологічних даних таких, як нуклеотидні та амінокислотні послідовності, домени білків, структура білків тощо:

Вивчення структури активного білкового центру;

Розробка програмного забезпечення для управління та швидкого доступу до біологічних даних:

Створення банку даних амінокислотних послідовностей.

Таким чином, основними завданнями біоінформатики є: розпізнавання білок-кодуючих ділянок у первинній структурі біополімерів, порівняльний аналіз первинних структур біополімерів, розшифрування просторової структури біополімерів та їх комплексів, просторове згортання білків, моделювання структури та динаміки біомокромолекул, а також .

3. Основні напрямки біоінформатики

залежно від досліджуваних об'єктів

1) Біоінформатика послідовностей;

2) Структурна біоінформатика;

3) Комп'ютерна геноміка.

З іншого боку, біоінформатику можна умовно розділити на кілька напрямків залежно від типу розв'язуваних завдань:

застосування відомих методів аналізу для отримання нових біологічних знань;

Розробка нових методів аналізу біологічних даних;

Розробка нових баз даних.

Найбільш відомою та найбільш ефективною сферою застосування біоінформатики в даний час є аналіз геномів, тісно пов'язаний з аналізом послідовностей.

4. Етапи розвитку біоінформатики

У 1962 році була придумана концепція "молекулярного годинника", в 1965 була секвенована т-РНК, визначена її вторинна структура, в цей же час були створені бази даних PIR для зберігання інформації про амінокислотні послідовності. 1972 року було придумано клонування.

Мал. 1. Клонування тварин.

У 1978 році було розроблено методи секвенування, було створено базу даних просторових структур білків. У 1980 році був випущений спецвипуск журналу NAR, присвячений біоінформатиці, потім були придумані деякі алгоритми вирівнювання послідовностей, про які йтиметься далі. Далі було придумано метод ПЛР (полімеразна ланцюгова реакція), а біоінформатиці - алгоритми пошуку схожих фрагментів послідовностей у базах даних. В 1987 оформився GeneBank (колекція нуклеотидних послідовностей) і т.д.

5. Типи бази даних

Біолог у біоінформатиці зазвичай має справу з базами даних та інструментами їх аналізу. Тепер розберемося, які бази даних бувають в залежності від того, що в них розміщують.

Перший тип- архівні бази даних, це велике звалище, куди будь-хто може помістити все, що захоче. До таких баз належать:

GeneBank & EMBL – тут зберігаються первинні послідовності;

PDB – просторові структури білків,

і багато іншого.

Як курйоз можу навести приклад: в архівній базі даних зазначено, що в геномі археї (архебактерії) є ген, що кодує білок головного комплексу гістосумісності, що є повною нісенітницею.

Другий тип– куровані бази даних, за достовірність яких відповідає господарі бази даних. Туди інформацію ніхто не надсилає, її з архівних баз даних відбирають експерти, перевіряючи достовірність інформації – що записано у цих послідовностях, які є екпериментальні підстави для того, щоб вважати, що ці послідовності виконують ту чи іншу функцію. До баз даних такого типу відносяться:

Swiss-Prot - найбільш якісна база даних, що містить амінокислотні послідовності білків;

KEGG – інформація про метаболізм (така, яка представлена на карті метаболічних шляхів, яку ті, хто ходить на лекції, бачили на лекції №2);

FlyBase – інформація про Drosophila;

COG – інформація про ортологічні гени.

Підтримка бази вимагає роботи кураторів чи анотаторів.

Третій тип- Похідні бази даних. Такі бази виходять в результаті обробки даних з архівних та курованих баз даних. Сюди входить:

SCOP - База даних структурної класифікації білків (описується структура білків);

PFAM – База даних із сімействам білків;

GO (Gene Ontology) - Класифікація генів (спроба створення набору термінів, упорядкування термінології, щоб один ген не називався по-різному, і щоб різним генам не давали однакові назви);

ProDom – білкові домени;

AsMamDB – альтернативний сплайсинг у ссавців.

Таким чином, існує три типи бази даних: архівні бази даних, куровані та похідні бази даних.

Вступ

Біоінформатика стала важливою частиною багатьох сфер біології. В експериментальній молекулярній біології методи біоінформатики, такі як створення зображень та обробка сигналів, дозволяють отримувати корисні результати з великої кількості вихідних даних. В галузі генетики та геноміки, біоінформатика допомагає впорядковувати та анотувати геноми та спостерігаються мутації. Вона грає роль аналізі даних з біологічної літератури та розвитку біологічних і генетичних онтологій з організації та запиту біологічних даних. Вона грає роль аналізі гена, експресії білка і регуляції. Інструменти біоінформатики допомагають у порівнянні генетичних та геномних даних та, загалом, у розумінні еволюційних аспектів молекулярної біології. Загалом, вона допомагає аналізувати та каталогізувати біологічні шляхи та мережі, які є важливою частиною системної біології. У структурній біології вона допомагає в симуляції та моделюванні ДНК, РНК та білкових структур, а також молекулярних взаємодій.

Історія

Спираючись на визнання важливої ролі передачі, зберігання та обробки інформації в біологічних системах, 1970 року Поліна Хогевег запровадила термін «біоінформатика», визначивши його як вивчення інформаційних процесів у біотичних системах. Це визначення проводить паралель біоінформатики з біофізикою (вчення про фізичні процеси в біологічних системах) або з біохімією (вчення про хімічні процеси в біологічних системах).

На початку «геномної революції» термін «біоінформатика» було перевідкрито та означало створення та технічне обслуговування бази даних для зберігання біологічної інформації

Послідовності. Комп'ютери стали необхідними в молекулярній біології, коли білкові послідовності стали доступними після того, як Фредерік Сенгер визначив послідовність інсуліну на початку 1950-х. Порівняння кількох послідовностей вручну виявилося непрактичним. Піонером у цій галузі була Маргарет Оклі Дейхоф (Margaret Oakley Dayhoff). Девід Ліпман (директор Національного центру біотехнологічної інформації) назвав її «матір'ю та батьком біоінформатики». Дейхоф склала одну з перших баз послідовностей білків, спочатку опублікувавши у вигляді книг і стала першовідкривачем методів вирівнювання послідовностей та молекулярної еволюції.

Геноми. Оскільки повні послідовності геному стали доступними, знову з новаторською роботою Фредеріка Сенгера термін «біоінформатика» був перевідкритий і позначав створення та технічне обслуговування баз даних для зберігання біологічної інформації, такої як послідовності нуклеотидів (база даних GenBank 1982). Створення таких баз даних включало не лише питання оформлення, а й створення комплексного інтерфейсу, що дозволяє дослідникам запитувати наявні дані і додавати нові. З публічною доступністю даних інструменти для їх обробки були швидко розроблені та описані в таких журналах, як «Дослідження Нуклеїнових Кислот», який опублікував спеціалізовані питання з інструментів біоінформатики вже в 1982 році.

Цілі

Головна мета біоінформатики – сприяти розумінню біологічних процесів. Відмінність біоінформатики від інших підходів полягає в тому, що вона фокусується на створенні та застосуванні інтенсивних обчислювальних методів для досягнення цієї мети. Приклади подібних методів: розпізнавання образів, data mining, алгоритми машинного навчання та візуалізація біологічних даних. Основні зусилля дослідників спрямовані на вирішення завдань вирівнювання послідовностей, знаходження генів (пошук регіону ДНК, що кодує гени), розшифрування геному, конструювання ліків, розробки ліків, вирівнювання структури білка, передбачення структури білка, передбачення експресії генів та взаємодій «білок-білок» пошуку асоціацій та моделювання еволюції.

Біоінформатика сьогодні передбачає створення та вдосконалення баз даних, алгоритмів, обчислювальних та статистичних методів та теорії для вирішення практичних та теоретичних проблем, що виникають при управлінні та аналізі біологічних даних.

Основні галузі досліджень

Аналіз генетичних послідовностей

Оцінка біологічної різноманітності

Основні біоінформаційні програми

ACT (Artemis Comparison Tool) – геномний аналіз
Arlequin – аналіз популяційно-генетичних даних
Bioconductor – масштабний FLOSS-проект, що надає безліч окремих пакетів для біоінформатичних досліджень. Написаний на .
BioEdit
BioNumerics – комерційний універсальний пакет програм
BLAST - пошук споріднених послідовностей у базі даних нуклеотидних та амінокислотних послідовностей
Clustal - множинне вирівнювання нуклеотидних та амінокислотних послідовностей
DnaSP – аналіз поліморфізму послідовностей ДНК
FigTree – редактор філогенетичних дерев
Genepop
Genetix - популяційно-генетичний аналіз (програма доступна лише французькою мовою)
JalView - редактор множинного вирівнювання нуклеотидних та амінокислотних послідовностей
MacClade – комерційна програма для інтерактивного еволюційного аналізу даних
MEGA – молекулярно-еволюційний генетичний аналіз
Mesquite - програма для порівняльної біології мовою Java
Muscle – множинне порівняння нуклеотидних та амінокислотних послідовностей. Швидша і точніша порівняно з ClustalW
PAUP - філогенетичний аналіз з використанням методу парсимонії (та інших методів)
PHYLIP – пакет філогенетичних програм
Phylo_win – філогенетичний аналіз. Програма має графічний інтерфейс.
PopGene - аналіз генетичної різноманітності популяцій
Populations – популяційно-генетичний аналіз
PSI Protein Classifier – узагальнення результатів, отриманих за допомогою програми PSI-BLAST
Seaview – філогенетичний аналіз (з графічним інтерфейсом)
Sequin - депонування послідовностей GenBank , EMBL , DDBJ
SPAdes - збирач бактеріальних геномів
SplitsTree – програма для побудови філогенетичних дерев
T-Coffee - множинне прогресивне вирівнювання нуклеотидних та амінокислотних послідовностей. Більш чутливе, ніж у ClustalW/ClustalX.
UGENE - вільний російськомовний інструмент, множинне вирівнювання нуклеотидних та амінокислотних послідовностей, філогенетичний аналіз, анотування, робота з базами даних.
Velvet - збирач геномів
ZENBU – узагальнення результатів

Біоінформатика та обчислювальна біологія

Під біоінформатикою розуміють використання комп'ютерів для обробки біологічної інформації. На практиці, іноді це визначення більш вузьке, під ним розуміють використання комп'ютерів для обробки експериментальних даних структурою біологічних макромолекул (