این یک پست وبلاگ مهمان از دکتر کلسی فلورک و کرتیس کپساک است. ارائه ویدیویی این پست از Docker's Community All-Hands را می‌توانید اینجا پیدا کنید.

Dr. کلسی فلورک، دانشمند ارشد ژنومیک و داده در آزمایشگاه بهداشت ایالت ویسکانسین و یکی از اعضای کمیته راهبری گروه بیوانفورماتیک بهداشت عمومی ایالتی (StaPH-B) است. گروه بیوانفورماتیک بهداشت عمومی دولتی (StaPH-B).

ظهور سریع و گسترش جهانی یک ویروس جدید سندرم حاد تنفسی (SARS) در سال 2019 آزمایشگاه‌های بهداشت عمومی را وادار کرد تا روش‌های جدیدی را برای تلاش‌های پایش ژنومی در مقیاسی که قبلاً دیده نشده است، توسعه دهند. علاوه بر این چالش، رویکردهایی که معمولاً در تجزیه و تحلیل داده‌های ژنومی مورد استفاده قرار می‌گیرند، اغلب بر نرم‌افزارها و کتابخانه‌های متن‌باز پیشرفته و اغلب خاص تکیه می‌کنند که پیچیدگی راه‌اندازی خطوط لوله تحلیلی یا گردش کار را افزایش می‌دهند. این به همراه چشم انداز متفاوتی از محیط های محاسباتی از ایستگاه های کاری اولیه گرفته تا ابر عمومی، مانع قابل توجهی برای بسیاری از آزمایشگاه ها ایجاد کرد که تلاش می کردند پایش ژنومی ویروسی را انجام دهند. کنترل کیفیت دقیق و استانداردهای تضمین کیفیت را رعایت کنید. آزمایش‌های انجام‌شده در آزمایشگاه‌های بهداشت عمومی یا به کلینیک‌ها گزارش می‌شوند تا برای مراقبت از بیمار مورد استفاده قرار گیرند یا در مجموع برای اطلاع‌رسانی به مداخلات بهداشت عمومی یا تحقیقات شیوع بیماری استفاده می‌شوند. گردش کار تحلیلی مطابق با استانداردهای دیگر آزمایش‌های توسعه‌یافته آزمایشگاهی است و برای حمایت از این تلاش، کنسرسیوم بیوانفورماتیک بهداشت عمومی دولتی (StaPH-B) شروع به توسعه یک مخزن از نرم‌افزار dockerized کرد که معمولاً در تجزیه و تحلیل داده‌های ژنومی سلامت عمومی، StaPH- استفاده می‌شد. B/docker-builds. این مخزن برای رفع نیاز به نرم افزار قابل دسترسی طراحی شده است که هم بسیار قابل اعتماد و هم قابل تکرار باشد. همراه با راهنمای استفاده، این مخزن یک مکان متمرکز از ابزارهای منبع باز نگهداری و آزمایش شده را برای پشتیبانی از آزمایشگاه‌هایی که جریان‌های کاری تجزیه و تحلیل را توسعه می‌دهند، ارائه می‌کند.

از زمان توسعه اولیه آن در سال 2018، مخزن StaPH-B/docker-builds دارای چندین نسخه است. بیش از 90 ابزار تحلیلی مختلف از 19 مشارکت کننده مختلف، با چندین تصویر خاص COVID-19 که به بیش از 1 میلیون کشش دست یافته است. بین مارس 2021 و ژانویه 2022، زمانی که آزمایشگاه‌های بیشتری پایش ژنومی را آغاز کردند، شاهد افزایش لگاریتمی در تعداد تصاویر Docker در نرم‌افزار تجزیه و تحلیل ژنومی اصلی COVID-19 بودیم.

پشتیبانی از تجزیه و تحلیل ژنومی COVID-19 از ابزارهای مختلف و اغلب از شکلی از داده های توالی یابی DNA خام یا اولیه شروع می شود. این ابزارها انواع مختلفی از وظایف تبدیلی یا خلاصه را انجام می دهند و از نظر الزامات محاسباتی و وابستگی متفاوت هستند. فرآیند تعیین توالی ژنوم ویروسی SARS-CoV-2 شامل جداسازی ژنوم ویروس و تعیین توالی بخش های کوچکی از DNA به صورت موازی است. نتیجه یک مجموعه داده شامل صدها هزار تا میلیون‌ها رشته کوتاه است که شامل A، T، C و G در ترکیب‌های دنباله‌ای مختلف است. سپس جریان‌های کاری COVID-19 این مجموعه داده‌ها را می‌گیرند، ژنوم را بازسازی می‌کنند و از تکنیک‌های مختلفی برای شناسایی ویروس استفاده می‌کنند.

بسیاری از آزمایشگاه‌ها در سراسر جهان به سمت استفاده از زبان گردش کار اختصاصی مانند WDL یا Nextflow برای گردش‌های کاری تحلیلی خود حرکت کرده‌اند. ترکیب یک زبان گردش کار با نرم‌افزار dockerized امکان ایجاد و استفاده معمول از گردش‌های کاری را می‌دهد که بسیار قابل حمل هستند و به راحتی با انواع محیط‌های محاسباتی سازگار می‌شوند. این به آزمایشگاه‌ها این امکان را می‌دهد که مجموعه داده‌های کوچکی را روی لپ‌تاپ یا مقیاسی در یک خوشه محاسباتی با کارایی بالا یا محیط ابری برای مجموعه‌های داده بزرگ اجرا کنند. علاوه بر این، این رویکردهای گردش کار امکان توسعه یک چارچوب تجزیه و تحلیل مدولار را فراهم می کند که امکان تعویض نرم افزار را با انتشار نسخه های جدید یا شناسایی مشکلات فراهم می کند. با تکامل سریع و مداوم ویروسی که باعث COVID-19 می‌شود، به‌روزرسانی‌های نرم‌افزار طبقه‌بندی نیز اغلب به‌روزرسانی می‌شوند تا توانایی شناسایی دقیق انواع مختلف حفظ شود. کمی کندتر از آنفولانزا تکامل می‌یابد که به طور متوسط ​​دو جهش در ماه ایجاد می‌کند و انواع مختلف (آلفا، دلتا، اومیکرون و غیره) با ترکیب‌های مختلفی از جهش‌ها متمایز می‌شوند. طبقه بندی یک ویروس مستلزم ساخت یک درخت فیلوژنتیک است که رابطه ویروس جدید را با سایر ویروس ها مدل می کند. با این حال، ساختن یک درخت برای مقایسه هر ویروس جدید با هر ویروس قبلی، هم از نظر محاسباتی پرهزینه و هم غیرعملی است. برای پرداختن به این موضوع، دو روش متداول استفاده شده از جمله استفاده از مجموعه ای از ویروس های مرجع انتخاب شده برای ساختن درخت (Nextclade) یا یادگیری ماشینی برای طبقه بندی الگوهای جهش (Pangolin) پدید آمده است. هر دوی این رویکردها نیاز به به روز رسانی منظم دارند تا اطمینان حاصل شود که طبقه بندی با جدیدترین اطلاعات به طور دقیق انجام می شود. StaPH-B با استفاده از کانتینرسازی توانسته است تصاویر را با جدیدترین مدل ها حفظ کند که به کاربران امکان می دهد گردش کار را با علم به استفاده از به روزترین، قوی ترین و آزمایش شده ترین ابزارهای طبقه بندی انجام دهند. و ماهیت کارآمد کانتینرسازی نحوه انجام پایش بیماری های بهداشت عمومی را تغییر داده است. پیاده‌سازی گردش‌های کاری کانتینری، آزمایشگاه‌ها را قادر می‌سازد تا به سرعت گردش‌های کاری تحلیلی پیچیده را اتخاذ کنند، که به نوبه خود مقیاس تلاش نظارت بر ویروس را افزایش داده است. مخزن منبع باز نگهداری شده توسط StaPH-B بدون جامعه بیوانفورماتیکان که نوآوری را هدایت می کنند امکان پذیر نخواهد بود. با روی آوردن آزمایشگاه‌های بیشتر به توالی‌یابی و تجزیه و تحلیل پیچیده، تقاضای فزاینده‌ای برای مردم برای پر کردن شکاف بین زیست‌شناسی و انفورماتیک وجود دارد. اگر به حرفه ای در بیوانفورماتیک علاقه مند هستید و از داده ها برای حل مشکلات سلامتی استفاده می کنید، حتماً کمک هزینه تحصیلی بیوانفورماتیک APHL-CDC را بررسی کنید! یک رویداد مجازی رایگان و یک روزه که یک تجربه منحصر به فرد برای توسعه دهندگان و تیم های توسعه است که در حال ساختن نسل بعدی برنامه های مدرن هستند. اگر می خواهید در مورد چگونگی رفتن سریع از کد به ابر و نحوه حل چالش های توسعه خود بیاموزید، DockerCon 2022 محتوای زنده جذابی را ارائه می دهد تا به شما در ساخت، اشتراک گذاری و اجرای برنامه های کاربردی خود کمک کند. ثبت نام امروز در https://www.docker.com/dockercon/

<!–

آواتار برای Eva Bojorges

Eva Bojorges