زیستداده ورزی یا بیوانفورماتیک دانش استفاده از علوم کامپیوتر و آمار و احتمالات در شاخه زیستشناسی مولکولی است. در چند دههٔ اخیر، پیشرفت در زیستشناسی مولکولی و تجهیزات مورد نیاز تحقیق در این زمینه
باعث افزایش سریع تعیین توالی ژنوم بسیاری از گونههای موجودات شد، تا جایی که پروژههای تعیین توالی ژنومها از پروژههای بسیار رایج به حسب میآیند.امروزه توالی ژنوم بسیاری از موجودات ساده مانند باکتریها تا موجودات بسیار پیشرفته چون یوکاریوتهای پیچیده شناسایی شدهاست. پروژهٔ شناسایی ژنوم انسان در سال ۱۹۹۰ آغاز شد و در سال ۲۰۰۳ پایان یافت و اکنون اطلاعات کامل مربوط به توالی هر ۲۴ کروموزوم انسان موجود است.
بیوانفورماتیک یا زیستشناسی محاسباتی، استفاده از تکنیکهایی مانند ریاضی کاربردی، انفورماتیک، آمار، علوم کامپیوتر، هوشمصنوعی، شیمی و بیوشیمی را دربردارند تا مسایل زیستشناختی را که معمولاً در سطح مولکولی هستند حل کنند. تحقیق در زیستشناسی محاسباتی، با زیستشناسی سیستمها همپوشانیهایی دارد. تلاشهای پژوهشی اصلی در این رشته عبارتند از: تنظیم توالی، کشف ژن، گردآوری ژنوم، تنظیم ساختار پروتئینی، پیشگویی ساختار پروتئینی، پیشبینی عبارت ژن و تعاملات پروتئین- پروتئین و مدلسازی تکامل.
واژههای بیوانفورماتیک و زیستشناسی محاسباتی اغلب بهجای یکدیگر بهکار میروند. بههرحال بیوانفورماتیک، بهگونه مناسبتری به ایجاد و توسعه الگوریتمها، تکنیکهای محاسباتی و آماری و تئوری اشاره میکند که برای حل مسایلی رسمی و عملی بهکار میروند که توسط مدیریت و تحلیل دادههای زیستشناختی مطرحشده یا از آن الهام میگیرند. از طرف دیگر زیستشناسی محاسباتی به تحقیق مبتنی بر فرضیه در مورد یک مسأله خاص زیستشناسی با استفاده از رایانه میپردازد که با دادههای عملی و شبیهسازی شده انجام میشود و با هدف اصلی کشف و توسعه دانش زیستشناختی همراه است. تمایز مشابهی توسط موسسه ملی سلامت آمریکا در کار بر روی تعریف بیوانفورماتیک و زیستشناسی محاسباتی انجام شدهاست که در آن تأکید بیشتر بر این است که پیوند محکمی از پیشرفتها و دانش میان تحقیقات بیشتر مبتنی بر فرضیه زیستشناسی محاسباتی و پژوهش مبتنی بر تکنیک بیوانفورماتیک وجود دارد. همچنین زیستشناسی محاسباتی شامل دو زیرشاخه کمتر شناخته شده ولی به یک اندازه مهم است: بیوشیمی محاسباتی و بیوفیزیک محاسباتی.
یک خط مشترک در بیوانفورماتیک و زیستشناسی محاسباتی، استفاده از ابزارهای ریاضی برای استخراج اطلاعات مفید از دادههای تولیدشده توسط تکنیکهای زیستشناختی با برون ده بالا نظیر توالی ژنوم است. یک مسأله نمونه در بیوانفورماتیک، گردآوری توالی ژنوم با کیفیت بالا از یک توالی DNA تکهتکه شده تفنگ ساچمهای است. دیگر مسایل معمول عبارتند از مطالعه قواعد ژن با استفاده از دادههایی از ریزآرایهها یا طیفسنجی جرمی.
آشنایی
بانکهای اطلاعاتیِ توالی چون بانکِ ژن و EMBL به طور نمایی رشد کردهاند. این سیل اطلاعات، ذخیره سازی، سامان دادن و فهرست دار کردن دقیق اطلاعات را ضروری کردهاست. با پیشرفت چشم گیر فناوری اطلاعات و کاربردهای آن، ادغام دو علم زیستشناسی و فناوری اطلاعات راه گشای این امر شد. به این ترتیب اوایل سال ۱۹۷۵ رشتهٔ بیوانفورماتیک با هدف استفاده از رایانهها، نرمافزارها و بانکهای اطلاعاتی جهت ذخیره سازی و بازیابی اطلاعات در مطالعات بیولوژیکی شکل گرفت. با پیشرفت بیوانفورماتیک حضور سایر رشتهها نیز ضروری شد. برای تحلیل دادهها و نتیجه گیری از آنها حضور علم آمار لازم شد. حجم بالای اطلاعات و پردازش آنها نیز وجود رایانههای پیشرفته تری را میطلبید. بنابراین، بیوانفورماتیک یک تخصص میان رشتهای است که با ادغام زیستشناسی، ریاضیات به ویژه آمار، علوم کامپیوتر و فناوری اطلاعات به وجود آمدهاست. از مهمترین کارها در بیوانفورماتیک تجزیه و تحلیل اطلاعات توالی است. زیستشناسی محاسباتی نامی است که به این فرآیند داده شدهاست و شامل موارد زیر است:
1) پیدا کردن ژنها در توالیهای دی ان ای
2) توسعهٔ روشهای پیش بینی ساختار و یا وظایف پروتئینهای تازه کشف شده و توالیهای ساختاری RNA
3) صف بندی پروتئینهای مشابه و ایجاد درختهای نژادشناسی برای بررسی روابط تکاملی.
دو فعالیت برجسته در بیوانفورماتیک، پروتئومیک و ژنومیک هستند. از شاخههای دیگر علوم زیستی همچون متابولیک و ترانسکریپتومیک نیز استفاده میشود. لازم به ذکر است سه بانک DDBJ در ژاپن و EBI در اروپا و NCBI در آمریکا روزانه تمام اطلاعات ژنتیکی که به هر کدام از این سه بانک ارسال میشود را در بین هم به اشتراک میگذراند . این سه بانک به علت ارائه ابزارهای جانبی میتوانند کاربردهای متفاوتی داشته باشند.سایت پیش تاز در بین این سه سایت در ارائه نرم افزارها و بانکهای کاربردی NCBI میباشد.
زمینههای مهم بیوانفورماتیک
۱) تحلیل توالیهای ژنوم
در این زمینه بررسی میشود که آیا یک توالی به دست آمده برای یک DNA در برگیرندهٔ یک ژن هست یا خیر. اگر وجود دارد در کجای زنجیرهٔ DNA قرار دارد و آنزیمی که کد میکند چه نقشی در سلول یا فرآیندهای حیاتی ایفا میکند.
۲) پیش بینی ساختار سه بعدی پروتئین
کاربرد مولکولهای بزرگ پروتئین بستگی زیادی به شکل فضایی و ساختار سه بعدی آنها دارد. ژنها با عملکرد پروتئینهایی که میسازند نقش خود را اعمال میکنند. بنابراین لازمهٔ شناخت کامل ژنها، شناخت کامل پروتئینها است.
پیشرفت پروژههای پروتیوم به دلایل زیر کند است:
1) هزینهٔ زیاد
2) کندی روند تعیین توالی پروتئینها
3) مشکل بودن تعیین ساختار سه بعدی پروتئینها در آزمایشگاه
دو اصل مهم برای تعیین ساختار سه بعدی پروتئین از روی توالی آن وجود دارد که هر کدام روش جداگانهای ارائه میدهند:
1) پروتئینها با توالی نسبتاً مشابه، شکل فضایی شبیه به هم پیدا میکنند.(جست و جو برای یافتن توالیهای مشابه)
2) شکل فضایی مولکول به گونهای است که به حداقل سطح انرژی برسد (استفاده از قوانین شیمی، فیزیک و ترمودینامیک)
۳) تحلیل کارکردی در سطح ژنوم
با به کارگیری روشهای آماری پیشرفته و کلاستربندی، مسائلی چون بررسی همزمان میزان فعالیت هزاران ژن در سلول، تحلیل نحوه تعامل تعداد زیادی پروتئین و تحلیل خصوصیات هزاران سلول جهش یافته در آن واحد حل شدهاند. دانش مربوط به این بخش ژنومشناسی کارکردی نام دارد و از دستاوردهای مهم در این زمینه میتوان پیش بینی نقش و کارکرد ژنها در سلول بدون نیاز به آنالیز دادههای پروتئینی را نام برد.
۴) ایجاد و مدیریت پایگاههای داده ای
دادههای تولید شده در زیستشناسی مولکولی باید از طریق پایگاه در اختیار پژوهشگران قرار گیرد. نحوهٔ حصول اطمینان از صحت دادهها و چگونگی نمایش مفید دادهها از دغدغههای اداره کنندگان پایگاههای بزرگ بیوانفورماتیکی هستند.
۵) مدل سازی ریاضی و فرآیندهای حیات
یکی از اهداف مهم بیوانفورماتیک درک کامل سازوکار ارگانیسمهای زنده در سطح مولکولی است. برای تحقق این هدف، تلاش میکنند فرآیندهای خاص سلولی را شبیه سازی کرده و با یک پارچه سازی آنها به یک سلول کامل برسند.
موضوعات سیستم نرمافزاری بیوانفورماتیک
1) ماهیت اطلاعات و دادههای زیستی
2) ذخیره سازی اطلاعات، تجزیه و تحلیل و بازیابی
3) محاسبه، مدل سازی و شبیه سازی
4) بیولوژی با معنی اطلاعات و یکپارچگی آنها
5) کندوکاو در دادهها
6) مجسم کردن پردازش و تجسم فکری آن
7)خاتمهٔ این چرخه
باعث افزایش سریع تعیین توالی ژنوم بسیاری از گونههای موجودات شد، تا جایی که پروژههای تعیین توالی ژنومها از پروژههای بسیار رایج به حسب میآیند.امروزه توالی ژنوم بسیاری از موجودات ساده مانند باکتریها تا موجودات بسیار پیشرفته چون یوکاریوتهای پیچیده شناسایی شدهاست. پروژهٔ شناسایی ژنوم انسان در سال ۱۹۹۰ آغاز شد و در سال ۲۰۰۳ پایان یافت و اکنون اطلاعات کامل مربوط به توالی هر ۲۴ کروموزوم انسان موجود است.
بیوانفورماتیک یا زیستشناسی محاسباتی، استفاده از تکنیکهایی مانند ریاضی کاربردی، انفورماتیک، آمار، علوم کامپیوتر، هوشمصنوعی، شیمی و بیوشیمی را دربردارند تا مسایل زیستشناختی را که معمولاً در سطح مولکولی هستند حل کنند. تحقیق در زیستشناسی محاسباتی، با زیستشناسی سیستمها همپوشانیهایی دارد. تلاشهای پژوهشی اصلی در این رشته عبارتند از: تنظیم توالی، کشف ژن، گردآوری ژنوم، تنظیم ساختار پروتئینی، پیشگویی ساختار پروتئینی، پیشبینی عبارت ژن و تعاملات پروتئین- پروتئین و مدلسازی تکامل.
واژههای بیوانفورماتیک و زیستشناسی محاسباتی اغلب بهجای یکدیگر بهکار میروند. بههرحال بیوانفورماتیک، بهگونه مناسبتری به ایجاد و توسعه الگوریتمها، تکنیکهای محاسباتی و آماری و تئوری اشاره میکند که برای حل مسایلی رسمی و عملی بهکار میروند که توسط مدیریت و تحلیل دادههای زیستشناختی مطرحشده یا از آن الهام میگیرند. از طرف دیگر زیستشناسی محاسباتی به تحقیق مبتنی بر فرضیه در مورد یک مسأله خاص زیستشناسی با استفاده از رایانه میپردازد که با دادههای عملی و شبیهسازی شده انجام میشود و با هدف اصلی کشف و توسعه دانش زیستشناختی همراه است. تمایز مشابهی توسط موسسه ملی سلامت آمریکا در کار بر روی تعریف بیوانفورماتیک و زیستشناسی محاسباتی انجام شدهاست که در آن تأکید بیشتر بر این است که پیوند محکمی از پیشرفتها و دانش میان تحقیقات بیشتر مبتنی بر فرضیه زیستشناسی محاسباتی و پژوهش مبتنی بر تکنیک بیوانفورماتیک وجود دارد. همچنین زیستشناسی محاسباتی شامل دو زیرشاخه کمتر شناخته شده ولی به یک اندازه مهم است: بیوشیمی محاسباتی و بیوفیزیک محاسباتی.
یک خط مشترک در بیوانفورماتیک و زیستشناسی محاسباتی، استفاده از ابزارهای ریاضی برای استخراج اطلاعات مفید از دادههای تولیدشده توسط تکنیکهای زیستشناختی با برون ده بالا نظیر توالی ژنوم است. یک مسأله نمونه در بیوانفورماتیک، گردآوری توالی ژنوم با کیفیت بالا از یک توالی DNA تکهتکه شده تفنگ ساچمهای است. دیگر مسایل معمول عبارتند از مطالعه قواعد ژن با استفاده از دادههایی از ریزآرایهها یا طیفسنجی جرمی.
آشنایی
بانکهای اطلاعاتیِ توالی چون بانکِ ژن و EMBL به طور نمایی رشد کردهاند. این سیل اطلاعات، ذخیره سازی، سامان دادن و فهرست دار کردن دقیق اطلاعات را ضروری کردهاست. با پیشرفت چشم گیر فناوری اطلاعات و کاربردهای آن، ادغام دو علم زیستشناسی و فناوری اطلاعات راه گشای این امر شد. به این ترتیب اوایل سال ۱۹۷۵ رشتهٔ بیوانفورماتیک با هدف استفاده از رایانهها، نرمافزارها و بانکهای اطلاعاتی جهت ذخیره سازی و بازیابی اطلاعات در مطالعات بیولوژیکی شکل گرفت. با پیشرفت بیوانفورماتیک حضور سایر رشتهها نیز ضروری شد. برای تحلیل دادهها و نتیجه گیری از آنها حضور علم آمار لازم شد. حجم بالای اطلاعات و پردازش آنها نیز وجود رایانههای پیشرفته تری را میطلبید. بنابراین، بیوانفورماتیک یک تخصص میان رشتهای است که با ادغام زیستشناسی، ریاضیات به ویژه آمار، علوم کامپیوتر و فناوری اطلاعات به وجود آمدهاست. از مهمترین کارها در بیوانفورماتیک تجزیه و تحلیل اطلاعات توالی است. زیستشناسی محاسباتی نامی است که به این فرآیند داده شدهاست و شامل موارد زیر است:
1) پیدا کردن ژنها در توالیهای دی ان ای
2) توسعهٔ روشهای پیش بینی ساختار و یا وظایف پروتئینهای تازه کشف شده و توالیهای ساختاری RNA
3) صف بندی پروتئینهای مشابه و ایجاد درختهای نژادشناسی برای بررسی روابط تکاملی.
دو فعالیت برجسته در بیوانفورماتیک، پروتئومیک و ژنومیک هستند. از شاخههای دیگر علوم زیستی همچون متابولیک و ترانسکریپتومیک نیز استفاده میشود. لازم به ذکر است سه بانک DDBJ در ژاپن و EBI در اروپا و NCBI در آمریکا روزانه تمام اطلاعات ژنتیکی که به هر کدام از این سه بانک ارسال میشود را در بین هم به اشتراک میگذراند . این سه بانک به علت ارائه ابزارهای جانبی میتوانند کاربردهای متفاوتی داشته باشند.سایت پیش تاز در بین این سه سایت در ارائه نرم افزارها و بانکهای کاربردی NCBI میباشد.
زمینههای مهم بیوانفورماتیک
۱) تحلیل توالیهای ژنوم
در این زمینه بررسی میشود که آیا یک توالی به دست آمده برای یک DNA در برگیرندهٔ یک ژن هست یا خیر. اگر وجود دارد در کجای زنجیرهٔ DNA قرار دارد و آنزیمی که کد میکند چه نقشی در سلول یا فرآیندهای حیاتی ایفا میکند.
۲) پیش بینی ساختار سه بعدی پروتئین
کاربرد مولکولهای بزرگ پروتئین بستگی زیادی به شکل فضایی و ساختار سه بعدی آنها دارد. ژنها با عملکرد پروتئینهایی که میسازند نقش خود را اعمال میکنند. بنابراین لازمهٔ شناخت کامل ژنها، شناخت کامل پروتئینها است.
پیشرفت پروژههای پروتیوم به دلایل زیر کند است:
1) هزینهٔ زیاد
2) کندی روند تعیین توالی پروتئینها
3) مشکل بودن تعیین ساختار سه بعدی پروتئینها در آزمایشگاه
دو اصل مهم برای تعیین ساختار سه بعدی پروتئین از روی توالی آن وجود دارد که هر کدام روش جداگانهای ارائه میدهند:
1) پروتئینها با توالی نسبتاً مشابه، شکل فضایی شبیه به هم پیدا میکنند.(جست و جو برای یافتن توالیهای مشابه)
2) شکل فضایی مولکول به گونهای است که به حداقل سطح انرژی برسد (استفاده از قوانین شیمی، فیزیک و ترمودینامیک)
۳) تحلیل کارکردی در سطح ژنوم
با به کارگیری روشهای آماری پیشرفته و کلاستربندی، مسائلی چون بررسی همزمان میزان فعالیت هزاران ژن در سلول، تحلیل نحوه تعامل تعداد زیادی پروتئین و تحلیل خصوصیات هزاران سلول جهش یافته در آن واحد حل شدهاند. دانش مربوط به این بخش ژنومشناسی کارکردی نام دارد و از دستاوردهای مهم در این زمینه میتوان پیش بینی نقش و کارکرد ژنها در سلول بدون نیاز به آنالیز دادههای پروتئینی را نام برد.
۴) ایجاد و مدیریت پایگاههای داده ای
دادههای تولید شده در زیستشناسی مولکولی باید از طریق پایگاه در اختیار پژوهشگران قرار گیرد. نحوهٔ حصول اطمینان از صحت دادهها و چگونگی نمایش مفید دادهها از دغدغههای اداره کنندگان پایگاههای بزرگ بیوانفورماتیکی هستند.
۵) مدل سازی ریاضی و فرآیندهای حیات
یکی از اهداف مهم بیوانفورماتیک درک کامل سازوکار ارگانیسمهای زنده در سطح مولکولی است. برای تحقق این هدف، تلاش میکنند فرآیندهای خاص سلولی را شبیه سازی کرده و با یک پارچه سازی آنها به یک سلول کامل برسند.
موضوعات سیستم نرمافزاری بیوانفورماتیک
1) ماهیت اطلاعات و دادههای زیستی
2) ذخیره سازی اطلاعات، تجزیه و تحلیل و بازیابی
3) محاسبه، مدل سازی و شبیه سازی
4) بیولوژی با معنی اطلاعات و یکپارچگی آنها
5) کندوکاو در دادهها
6) مجسم کردن پردازش و تجسم فکری آن
7)خاتمهٔ این چرخه