Dátová veda

Dátová veda Študijný program Dátová veda na FMFI UK v Bratislave

22/04/2022
Si vynikajúci študent, chceš študovať Dátovú vedu a zmeškal si termín prihlášok? NEVADÍ! Dodatočné prihlášky na bakalárs...
01/07/2020

Si vynikajúci študent, chceš študovať Dátovú vedu a zmeškal si termín prihlášok? NEVADÍ!

Dodatočné prihlášky na bakalárske štúdium máme otvorené oddnes do 23.8.2020 (v prípade záujmu o internáty do 13.7.2020). V tomto kole sa môžu prihlásiť študenti, ktorí boli úspešní na olympiádach a iných súťažiach ALEBO so známkami do 2 na koncoročných vysvedčeniach z matematiky alebo informatiky ALEBO absolvovali test z matematiky (externá maturita alebo SCIO) s percentilom aspoň 60.

Presnejšie informácie na stránke fakulty: https://fmph.uniba.sk/detail-novinky/back_to_page/fakulta-matematiky-fyziky-a-informatiky-uk/article/dodatocne-prihlasky-na-bakalarske-studium-3/

Keďže ešte stále nie je radno príliš cestovať, pripravili sme pre vás virtuálny deň otvorených dverí.
10/06/2020

Keďže ešte stále nie je radno príliš cestovať, pripravili sme pre vás virtuálny deň otvorených dverí.

Deň otvorených dverí online | Fakulta matematiky, fyziky a informatiky Univerzita Komenského v Bratislave | Matfyz livestream ------------------ https://www....

02/06/2020
(Podľa môjho názoru) skvelá prednáška Martin Niepel pre predmet Lineárna algebra, ktorá hovorí o aktuálnych modeloch šír...
02/04/2020

(Podľa môjho názoru) skvelá prednáška Martin Niepel pre predmet Lineárna algebra, ktorá hovorí o aktuálnych modeloch šírenia epidémie COVID-19. Modely o ktorých rozpráva sú dielom Richard Kollar, Katka Bodova a ich zahraničných kolegov a sú zaujímavé tým, že zahŕňajú zmeny správania spoločnosti, ktoré nazývame "social distancing" (či už tie, ktoré sú riadené štátom, alebo tie, ktoré vznikajú prirodzene, keď sú ľudia vystrašení).

01/04/2020

Pôvodný post od Richarda Kollára veľmi pekne ilustruje jeden zo základných problémov akejkoľve analýzy dát - ich reprezentatívnosť:

Jednou z kľúčových otázok ohľadom dát šírenia COVID-19 je to, do akej miery sú publikované dáta potvrdených prípadov reprezentatívne (ignorujúc úmyselne zlé reportovanie v niektorých krajinách). Facebook je plný tvrdení ľudí, ktorí tvrdia, že im, alebo ľuďom, ktorých poznajú a sú alebo boli chorí, boli testy odopreté, lebo nespĺňali nejakú podmienku, a preto takýchto prípadov musí byť veľa a vírus sa teda šíri oveľa rýchlejšie ako to z reportovaných čísel vyzerá.

Lenže toto je v skutočnosti veľmi komplikovaná otázka. Väčšina ľudí takéto miery vníma pomocou percent, možno aj preto, že sa často stretajú s percentami preferencií politických strán vo verejných prieskumoch. Preto použijem práve takéto prieskumy ako ilustratívny príklad.

V krajine ako Slovensko s cca. 5,5 miliónom obyvateľov má typický prieskum cca. 1000 repondentov, keďže tento počet zaručuje jeho dostatočnú reprezentatívnosť, ak sú respondenti vyberaní náhodne (a vzorka spĺňa pár ďalších reprezentatívnych kritérií).
Na základe výsledku prieskumu sa inferujú preferencie pre jednotlivé politické strany, popularita politikov a pod. Všetci už dobre zo skúsenosti vieme, že tie čísla nie sú perfektné, ale máme istú vieru v spoľahlivosť týchto údajov (v skutočnosti často oveľa väčšiu, ako to odhady chyby vzhľadom na veľkosť vzorky dovoľujú). A teraz si predstavme, že použijeme podobný prieskum na zistenie počtu ľudí nakazených vírusom COVID-19 v populácii. Ak je 4-5% populácie nakazených, prieskum s 1000 repondentami (t.j. test založený na prítomnosti RNA vírusu vo vzorke z odberu) by to mal približne ukázať. Ale čo keď je nakazených len 0,01% populácie (to je viac ako 5000 prípadov na Slovensku)? Aké malé musia byť error bary (odhad chyby)? Koľko ľudí musíme mať v prieskume (t.j. otestovať), aby sme mohli náš nameraný odhad považovať za hodnoverný? Samozrejme, toto je matematická otázka, na ktorú existuje číselná odpoveď, ale intuitívne tušíme, že musíme do vzorky zahrnúť (otestovať) veľmi veľmi veľa ľudí, ale to by teoreticky šlo.

Lenže, sú tu aj ďalšie problémy. Pre jednoduchosť ignorujme to, koľko času by trvalo také veľké množstvo ľudí otestovať a venujme sa ďalšiemu špecifickému aspektu COVID-19. Tento vírus sa šíri fyzickým kontaktom, alebo prenosom na osoby pohybujúce sa v tom istom priestore. Na to, ako si to predstaviť opäť použijeme prieskum politických preferencií. Veľmi malá strana - Slovenská liga získala v posledných parlamentných voľbách vo februári cca. 0,03% hlasov. To je síce trikrát viac ako 0,01%, ale slúži to ako dobrý príklad, keďže skončili poslední. A teraz si predstavme, že chceme preferencie tejto ministrany zistiť prieskumom verejnej mienky. Nájsť ich fanúšikov nie je vôbec jednoduché. Je veľmi pravdepodobné, že tvoria centrá, ako sú rodiny, príbuzní, známi a susedia, t.j. geograficky sa často združuje viacero priaznivcov spolu. Takže musíte mať so svojou náhodnou vzorkou veľké šťastie, aby ste ich vôbec našli. V prípade Slovenskej ligy asi naozaj veľké štastie.

Keď priaznivcov Slovenskej ligy neviete nájsť, rozhodnete sa, že namiesto náhodného samplovania ich začnete priamo vyhľadávať. Budete sa pýtať ľudí, či niekoho takého nepoznajú, alebo nepoznajú niekoho, kto by niekoho takého poznal. Taktiež na základe politického programu, ktorý si dôkladne preštudujete, vyselektujete vekové a geografické skupiny ľudí, ktoré by teoreticky mohli so Slovenskou ligou sympatizovať. A budete samplovať tieto skupiny a prehľadávať možné kontakty. Možno dokonca narazíte na fanúšikov Slovenskej ligy, ktorí sa k tomu nepriznajú, t.j. budú klamať, prípadne sa niektorí z nich pred vami skryjú, keďže vám nedôverujú. No a na konci tohto prieskumu zistíte, že 4% vašej finálnej vzorky sympatizujú so Slovenskou ligou. Čo z toho vyplýva pre skutočné preferencie Slovenskej ligy na Slovensku? No, nič moc. A takto je to s testovaním COVID-19.

Takže, možno veriť zverejneným číslam? Odpoveď je prekvapujúco - áno. Samozrejme, určite nemáme dobrý odhad toho, aké percento populácie je v skutočnosti choré, najmä preto, že testovanie systematicky podreportuje skutočné číslo počtu chorých (t.j. určite nezachytávame všetky aktívne prípady). Ale, ak je naše vyhľadávanie systematické, t.j. testujeme najpravdepodobnejších nakazených, a vzorka je dostatočne veľká, zistený počet prípadov je dobrým odhadom rozsahu epidémie na Slovensku. Dobrým ale nie perfektným.

Ale čo sa stane, keď výrazne zvýšime počet testov, nemalo by sa to odraziť v dátach, sú potom spoľahlivé? Môžeme tvrdiť, že napr. Česká republika robí 10-krát viac testov, t.j. mali by sme naše čísla prenásobiť aspoň desiatimi, aby boli uveriteľné. Toto je však tiež záludné. Väčšina testov sa robí na príjme v nemocniciach, kam prichádzajú ľudia s vážnymi príznakmi choroby (nie nutne COVID-19). To je asi také isté, ako keby sme robili prieskum politických preferencíí na volebnom mítingu strany Slovenská liga. Kým je ich míting malý, stačí nám malý počet respondentov prieskumu, keď však mítingy narastú, potrebujeme našu vzorku nutne zväčšiť. Čo je však z tohto príkladu jasné, aj oveľa väčšia vzorka na mítingoch nám dá len podobne presný odhad preferencií tejto strany, ako malá vzorka z malého mítingu (ak sú to všetky mítingy), jednoducho len potrebujeme urobiť prieskum na všetkých účastníkoch všetkých mítingov. Preto je viac testovania s nárastom počtu chorých nevyhnutnosťou, ale ani viac testov nám nedá nutne oveľa presnejší odhad skutočného počtu nakazených v populácii.

Samozrejme, toto neznamená, že viac testov je zbytočných. Testy sú v skutočnosti úplne kľúčové, nie však nutne na určenie rozšírenia epidémie v populácií, ale oveľa viac na to, aby sa našlo čo najviac nakazených a tí sa dobre izolovali a taktiež sa dobre preskúmala na prítomnosť vírusu sieť ich kontaktov. Preto neočakávajme, že počet potvrdených prípadov bude signifikantne rásť s väčším počtom testov. Ale každý odhalený prípad pomocou testovania pomôže v budúcnosti spomaliť rozsah epidémie a urýchli hľadanie ďalších prípadov (v príklade voličov Slovenskej ligy). Vieme, že sú medzi nami, ale nevieme presne kde a kde môžu ďalej šíriť (ich politické názory).

Ešte dva dni zostávajú na podanie prihlášky na bakalárske štúdium na matfyze. Využite fakultnú elektronickú prihlášku a ...
30/03/2020

Ešte dva dni zostávajú na podanie prihlášky na bakalárske štúdium na matfyze. Využite fakultnú elektronickú prihlášku a nemusíte nám v tomto období posielať žiadne fyzické dokumenty.

Bakalárske štúdium Podanie prihláškyTermín podania prihlášok: 31.3.2020(rozhoduje dátum poštovej pečiatky)Poplatok za prijímacie konanie (prihláška v listinnej podobe): 33 EURPoplatok za prijímacie konanie (prihláška v elektronickej podobe): 15 EUR Uchádzač môže v jednej pri...

28/03/2020
25/03/2020

Posledné počty Slovákov identifikovaných ako nakazených koronavírusom dávajú nádej, že včasné a pomerne prísne opatrenia epidémiu na Slovensku výrazne spomalili. Môj model (o ktorom som podrobnejšie písal v predchádzajúcich postoch) naznačuje, že reálny počet infikovaných máme menej ako 2000, možno dokonca menej ako 1000. Taktiež sa podľa modelu zdá, že tempo nárastu je pomalšie ako 12 percent nových infikovaných za deň, možno dokonca menej ako 5 percent.

Obrázok znázorňuje fit simulovaných zistených prípadov (čierne plné bodky) a reálnych zistených prípadov (červené plné bodky) pre parameter efektivity výberu ľudí na testovanie b0=80, reálny vek epidémie na Slovensku tmax=32 dní, pre len dvojpercentný nárast počtu reálne infikovaných denne, pričom simuláciou získaný počet reálnych prípadov je 926 a simuláciou získaný počet odhalených prípadov je 236.

Podotýkam, že takýchto priebehov mi model vypočítal tisíce pre rôzne parametre a nenašiel dobrý fit so známymi dátami pre prípad, že by reálny počet infikovaných bol viac ako 2000, ani pre prípad, že by súčasné tempo rastu bolo rýchlejšie než 12 percent reálnych nových prípadov denne.

Address

Mlynská Dolina
Bratislava
84248

Alerts

Be the first to know and let us send you an email when Dátová veda posts news and promotions. Your email address will not be used for any other purpose, and you can unsubscribe at any time.

Contact The Business

Send a message to Dátová veda:

Share