reviews2

Pokud dostanete úkol zprovoznit opublikovanou bioinformatickou pipeline z roku 2023, neradujte se, její kořeny mohou sahat do hluboké historie.

Dostalo se mi cti podílet se na odhalení tajemství mimořádně genomicky záludného lokusu PRSS1-PRSS2. Mutace v něm jsou spojené s pankreatitidou a eventuelně karcinomem pankreatu, ale genomická záludnost spočívá v tom, že se v genomu vyskytuje v podobě “třígenové struktury” s jedním pseudogenem, nebo “pětigenové struktury” s třemi pseudogeny. V případě že vaše sekvenace pacientů nebere toto v potaz, referenční databáze obsahuje třígenovou strukturu a může z ní vypadávat chybný výsledek. To se skutečně děje u jedné ze známých patogenních variant c.47C>T/p.Ala16Val, která v homologické sekvenci pseudogenů přítomných v “pětigenové struktuře” tak nějak sama o sobě je a tím vysírá.

Co mě ale zaujalo, snad ještě víc je, jak složité bylo tuto v jádru celkem jednoduchou sadu skriptů uvést do provozu. Přeci jen, práce, ve které byla publikována, je z roku 2023, což, last time I checked, bylo před pouhými dvěma roky.

Jejda, pohledem do tiráže článku zjistíme, že do review procesu byl přijat zkraje roku 2022, tak jo, bylo to tedy před třema roky.

Moment, ale článek byl napsaný o dost dřív, než byl přijat do review procesu, a jeho fundamentální část, což je v tomto případě sada skriptů, musela být vytvořena značně dlouho před sepsáním. Github repository nám nic neprozradí, protože je stejně staré jako článek, ale předpokládejme, že to někdo začal patlat tak o rok dřív... maximálně o tři. Ok, takže je to z let 2019 až 2021. No, tak to už je 4-6 let.

Při náhledu do requirements vás do očí praští Python 2.7 a Perl 5.22. Typičo! chce se mi zvolat, ale tak jo, od toho máme Docker. Ukázalo se, že abych vybudoval Docker schopný zvládnout všechny závislosti, musí běžet pod trochu starším Ubuntu (18.04). Vyžadování Python 2.7 je zdá se způsobeno dependency chainem, kdy některé z potřebných nástrojů (GATK typicky) byly právě před cca 5 lety na používání Pythonu z doby kamenné závislé.

Na druhou stranu bylo pod Ubuntu 18.04 nemožné použít dostatečně novou verzi R, která by vyplivla moc pěkné schéma výskytu variant, a toto vedlo k drobným karambolům.

V readme je taková letmá zmínka, která vyvolává naději, že brzy vyjde novější verze, jenže readme jaksi od té doby nebylo zeditováno a skutečnost je taková, že na tento cenný nástroj ve skutečnosti už nikdo nesáhne. If it works, don’t fix it! Dokud to už nefunguje. Lidé, kteří to vyvinuli jsou nyní ve své vědecké kariéře dále, a už na to nemají čas.

Co by mě zajímalo je, jak dlouho asi tako dockerizovaná spustitelnost bude fungovat a za jak dlouho bude nutné celou pipeline přeci jen předělat do modernější podoby... no ale tak to se dost možná už nebude týkat mně...