این یک پست وبلاگ مهمان از دکتر کلسی فلورک و کرتیس کپساک است. ارائه ویدیویی این پست از Docker's Community All-Hands را میتوانید اینجا پیدا کنید.
Dr. کلسی فلورک، دانشمند ارشد ژنومیک و داده در آزمایشگاه بهداشت ایالت ویسکانسین و یکی از اعضای کمیته راهبری گروه بیوانفورماتیک بهداشت عمومی ایالتی (StaPH-B) است. گروه بیوانفورماتیک بهداشت عمومی دولتی (StaPH-B).
ظهور سریع و گسترش جهانی یک ویروس جدید سندرم حاد تنفسی (SARS) در سال 2019 آزمایشگاههای بهداشت عمومی را وادار کرد تا روشهای جدیدی را برای تلاشهای پایش ژنومی در مقیاسی که قبلاً دیده نشده است، توسعه دهند. علاوه بر این چالش، رویکردهایی که معمولاً در تجزیه و تحلیل دادههای ژنومی مورد استفاده قرار میگیرند، اغلب بر نرمافزارها و کتابخانههای متنباز پیشرفته و اغلب خاص تکیه میکنند که پیچیدگی راهاندازی خطوط لوله تحلیلی یا گردش کار را افزایش میدهند. این به همراه چشم انداز متفاوتی از محیط های محاسباتی از ایستگاه های کاری اولیه گرفته تا ابر عمومی، مانع قابل توجهی برای بسیاری از آزمایشگاه ها ایجاد کرد که تلاش می کردند پایش ژنومی ویروسی را انجام دهند. کنترل کیفیت دقیق و استانداردهای تضمین کیفیت را رعایت کنید. آزمایشهای انجامشده در آزمایشگاههای بهداشت عمومی یا به کلینیکها گزارش میشوند تا برای مراقبت از بیمار مورد استفاده قرار گیرند یا در مجموع برای اطلاعرسانی به مداخلات بهداشت عمومی یا تحقیقات شیوع بیماری استفاده میشوند. گردش کار تحلیلی مطابق با استانداردهای دیگر آزمایشهای توسعهیافته آزمایشگاهی است و برای حمایت از این تلاش، کنسرسیوم بیوانفورماتیک بهداشت عمومی دولتی (StaPH-B) شروع به توسعه یک مخزن از نرمافزار dockerized کرد که معمولاً در تجزیه و تحلیل دادههای ژنومی سلامت عمومی، StaPH- استفاده میشد. B/docker-builds. این مخزن برای رفع نیاز به نرم افزار قابل دسترسی طراحی شده است که هم بسیار قابل اعتماد و هم قابل تکرار باشد. همراه با راهنمای استفاده، این مخزن یک مکان متمرکز از ابزارهای منبع باز نگهداری و آزمایش شده را برای پشتیبانی از آزمایشگاههایی که جریانهای کاری تجزیه و تحلیل را توسعه میدهند، ارائه میکند.
از زمان توسعه اولیه آن در سال 2018، مخزن StaPH-B/docker-builds دارای چندین نسخه است. بیش از 90 ابزار تحلیلی مختلف از 19 مشارکت کننده مختلف، با چندین تصویر خاص COVID-19 که به بیش از 1 میلیون کشش دست یافته است. بین مارس 2021 و ژانویه 2022، زمانی که آزمایشگاههای بیشتری پایش ژنومی را آغاز کردند، شاهد افزایش لگاریتمی در تعداد تصاویر Docker در نرمافزار تجزیه و تحلیل ژنومی اصلی COVID-19 بودیم.


پشتیبانی از تجزیه و تحلیل ژنومی COVID-19 از ابزارهای مختلف و اغلب از شکلی از داده های توالی یابی DNA خام یا اولیه شروع می شود. این ابزارها انواع مختلفی از وظایف تبدیلی یا خلاصه را انجام می دهند و از نظر الزامات محاسباتی و وابستگی متفاوت هستند. فرآیند تعیین توالی ژنوم ویروسی SARS-CoV-2 شامل جداسازی ژنوم ویروس و تعیین توالی بخش های کوچکی از DNA به صورت موازی است. نتیجه یک مجموعه داده شامل صدها هزار تا میلیونها رشته کوتاه است که شامل A، T، C و G در ترکیبهای دنبالهای مختلف است. سپس جریانهای کاری COVID-19 این مجموعه دادهها را میگیرند، ژنوم را بازسازی میکنند و از تکنیکهای مختلفی برای شناسایی ویروس استفاده میکنند.
بسیاری از آزمایشگاهها در سراسر جهان به سمت استفاده از زبان گردش کار اختصاصی مانند WDL یا Nextflow برای گردشهای کاری تحلیلی خود حرکت کردهاند. ترکیب یک زبان گردش کار با نرمافزار dockerized امکان ایجاد و استفاده معمول از گردشهای کاری را میدهد که بسیار قابل حمل هستند و به راحتی با انواع محیطهای محاسباتی سازگار میشوند. این به آزمایشگاهها این امکان را میدهد که مجموعه دادههای کوچکی را روی لپتاپ یا مقیاسی در یک خوشه محاسباتی با کارایی بالا یا محیط ابری برای مجموعههای داده بزرگ اجرا کنند. علاوه بر این، این رویکردهای گردش کار امکان توسعه یک چارچوب تجزیه و تحلیل مدولار را فراهم می کند که امکان تعویض نرم افزار را با انتشار نسخه های جدید یا شناسایی مشکلات فراهم می کند. با تکامل سریع و مداوم ویروسی که باعث COVID-19 میشود، بهروزرسانیهای نرمافزار طبقهبندی نیز اغلب بهروزرسانی میشوند تا توانایی شناسایی دقیق انواع مختلف حفظ شود. کمی کندتر از آنفولانزا تکامل مییابد که به طور متوسط دو جهش در ماه ایجاد میکند و انواع مختلف (آلفا، دلتا، اومیکرون و غیره) با ترکیبهای مختلفی از جهشها متمایز میشوند. طبقه بندی یک ویروس مستلزم ساخت یک درخت فیلوژنتیک است که رابطه ویروس جدید را با سایر ویروس ها مدل می کند. با این حال، ساختن یک درخت برای مقایسه هر ویروس جدید با هر ویروس قبلی، هم از نظر محاسباتی پرهزینه و هم غیرعملی است. برای پرداختن به این موضوع، دو روش متداول استفاده شده از جمله استفاده از مجموعه ای از ویروس های مرجع انتخاب شده برای ساختن درخت (Nextclade) یا یادگیری ماشینی برای طبقه بندی الگوهای جهش (Pangolin) پدید آمده است. هر دوی این رویکردها نیاز به به روز رسانی منظم دارند تا اطمینان حاصل شود که طبقه بندی با جدیدترین اطلاعات به طور دقیق انجام می شود. StaPH-B با استفاده از کانتینرسازی توانسته است تصاویر را با جدیدترین مدل ها حفظ کند که به کاربران امکان می دهد گردش کار را با علم به استفاده از به روزترین، قوی ترین و آزمایش شده ترین ابزارهای طبقه بندی انجام دهند. و ماهیت کارآمد کانتینرسازی نحوه انجام پایش بیماری های بهداشت عمومی را تغییر داده است. پیادهسازی گردشهای کاری کانتینری، آزمایشگاهها را قادر میسازد تا به سرعت گردشهای کاری تحلیلی پیچیده را اتخاذ کنند، که به نوبه خود مقیاس تلاش نظارت بر ویروس را افزایش داده است. مخزن منبع باز نگهداری شده توسط StaPH-B بدون جامعه بیوانفورماتیکان که نوآوری را هدایت می کنند امکان پذیر نخواهد بود. با روی آوردن آزمایشگاههای بیشتر به توالییابی و تجزیه و تحلیل پیچیده، تقاضای فزایندهای برای مردم برای پر کردن شکاف بین زیستشناسی و انفورماتیک وجود دارد. اگر به حرفه ای در بیوانفورماتیک علاقه مند هستید و از داده ها برای حل مشکلات سلامتی استفاده می کنید، حتماً کمک هزینه تحصیلی بیوانفورماتیک APHL-CDC را بررسی کنید! یک رویداد مجازی رایگان و یک روزه که یک تجربه منحصر به فرد برای توسعه دهندگان و تیم های توسعه است که در حال ساختن نسل بعدی برنامه های مدرن هستند. اگر می خواهید در مورد چگونگی رفتن سریع از کد به ابر و نحوه حل چالش های توسعه خود بیاموزید، DockerCon 2022 محتوای زنده جذابی را ارائه می دهد تا به شما در ساخت، اشتراک گذاری و اجرای برنامه های کاربردی خود کمک کند. ثبت نام امروز در https://www.docker.com/dockercon/