Masurarea impactului perturbatiilor spatiale asupra relatiei dintre confidentialitatea datelor si validitatea statisticilor descriptive

Abstract

fundal

La fel ca multe domenii stiintifice, epidemiologia abordeaza probleme de reproductibilitate a cercetarii. Epidemiologia spatiala, care foloseste adesea variabila inerent identificabila a adresei participantului, trebuie sa echilibreze reproductibilitatea cu confidentialitatea participantului. In acest studiu, evaluam impactul mai multor metode diferite de perturbare a datelor asupra statisticilor spatiale cheie si a confidentialitatii pacientilor.

Metode

Am analizat impactul perturbatiei asupra modelelor spatiale in setul complet de date privind mortalitatea la nivel de adresa din Lawrence, MA in perioada 1911-1913. Locatiile initiale ale mortii au fost perturbate utilizand sapte abordari diferite publicate pentru anonimizarea datelor spatiale stochastice si deterministe. Au fost calculate statistici cheie descriptive spatiale pentru fiecare perturbatie, inclusiv modificari in centrul modelului spatial, I al lui Moran global, I local al lui Moran, distanta pana la cel mai apropiat vecini k si functia L (o forma normalizata a lui Ripley K). O forma adaptata spatial de anonimat k a fost utilizata pentru a masura protectia confidentialitatii conferita de fiecare metoda si conformitatea acesteia cu standardele de confidentialitate HIPAA si GDPR.

Rezultate

Perturbarea aleatorie la 50 m, mascarea gogosilor intre 5 si 50 m si mascarea Voronoi mentin validitatea statisticilor spatiale descriptive mai bine decat alte perturbatii. Mascarea centrala a retelei cu celule de 100 × 100 si 250 × 250 m a dus la modificari mari in statistica spatiala descriptiva. Niciuna dintre metodele de perturbare nu a aderat la standardul HIPAA conform caruia toate punctele au un k-anonimat> 10. Toate celelalte metode de perturbare utilizate au avut cel putin 265 de puncte, sau peste 6%, care nu au aderat la standardul HIPAA.

Concluzii

Folosind setul de metode de perturbare publicate aplicate in aceasta analiza, dezidentificarea conforma cu HIPAA si GDPR nu a fost compatibila cu mentinerea modelelor spatiale cheie, masurate prin statisticile noastre rezumative alese. Cercetarile ulterioare ar trebui sa investigheze metode alternative de echilibrare a compromisurilor intre confidentialitatea datelor spatiale si pastrarea tiparelor cheie in datele de sanatate publica care sunt de importanta stiintifica si medicala.

fundal

Cercetatorii in sanatate publica, medicina si stiinte sociale se confrunta cu o criza de reproductibilitate care continua sa creasca odata cu complexitatea colectarii datelor, curatarii si conductelor de analiza. Un studiu reproductibil a fost definit in general ca unul din care un cercetator poate duplica rezultatele folosind datele din analiza initiala si metodele descrise in studiu [1]. Pentru a indeplini aceste standarde, multe reviste revizuite de colegi implementeaza politici pentru a creste transparenta datelor si disponibilitatea publicului. In practica, indeplinirea acestui standard se poate dovedi destul de dificila. Aceste probleme sunt amplificate in sanatatea publica si in medicina, unde protectiile etice si legale ale pacientilor si ale confidentialitatii subiectului cercetarii trebuie luate in considerare inaintea sanatatii publice si a beneficiilor stiintifice ale reproductibilitatii. Aceste probleme sunt deosebit de acute pentru datele referitoare la boli si sanatate, care pot face referire spatiala, care pot dezvalui nu numai identitatea, ci si localizarea spatiala a indivizilor cu conditii de sanatate sensibile, de exemplu infectia cu HIV, sau riscuri comportamentale, cum ar fi consumul de droguri injectabile [2]. Aceste obstacole catre o epidemiologie spatiala reproductibila in mod constant au limitat aplicarea unor instrumente analitice spatiotemporale puternice in practica de sanatate publica. Aceasta reprezinta o pierdere semnificativa pentru sanatatea publica, deoarece astfel de date pot oferi informatii despre cum sa intervenim cel mai bine pe o gama larga de conditii de sanatate, de la cele asociate cu expunerea la substante toxice pentru mediu, inegalitati sociale concentrate spatial si transmitere a bolilor infectioase [3, 4,5,6].

De exemplu, dupa cum a aratat lucrarile recente in domeniul bolilor care pot fi prevenite prin vaccinare, scara la care sunt raportate astfel de date poate determina natura si calitatea inferentelor care pot fi extrase din acestea [7]. paturi matrimoniale ieftine In ultimele luni, pandemia COVID-19 a aratat rolul crucial al intelegerii factorilor determinanti ai variatiei spatiale la scara mica in rezultatele infectiei, deoarece aceste date sunt esentiale pentru intelegerea riscurilor diferentiale ale mortalitatii in functie de varsta, statut socioeconomic si ca functie a vecinatatii medii. Acest lucru a creat un interes fara precedent in punerea la dispozitia publicului a datelor de caz la nivel individual, mai multe surse producand harti ale cazurilor si rate de testare [8,9,10,11]. In timp ce analistii produc harti pentru publicare in contextul pandemiei care se schimba rapid mentinerea confidentialitatii indivizilor este din ce in ce mai esentiala, deoarece creste si hartuirea condusa de stigmatizare [12, 13]. In timp ce toate hartile utilizeaza numarari agregate, nivelul la care au fost agregate datele variaza; unele harti furnizeaza date la un nivel la fel de scazut ca nivelul codului postal, in timp ce multe elibereaza informatii doar pe judet [8,9,10,11]. Mai multe harti granulare au suprimat datele pentru codurile postale cu un numar limitat de cazuri, dar nu exista limite standardizate pentru lansarea datelor [10].

Au fost propuse o serie de metode de geomasking pentru a aborda problema identificabilitatii in datele de sanatate spatiale publicate public. Algoritmii de geomasking muta coordonatele unui punct de interes intr-un mod menit sa reduca probabilitatea identificarii tuturor indivizilor din setul de date pana la punctul in care nu mai prezinta un risc semnificativ de identificare. Cu toate acestea, s-a acordat relativ putina atentie cantitatii de informatii spatiale pierdute in raport cu protectia confidentialitatii obtinuta din fiecare dintre aceste abordari. In aceasta lucrare, am masurat diferenta dintre cresterea confidentialitatii si pierderea informatiilor spatiale oferite de o mare varietate de abordari de geomasking aplicate aceluiasi set de date detaliat. Am folosit o serie de metode de perturbare geografica descrise in literatura de specialitate privind analiza spatiala si geografia medicala,k-anonimat [14].

O mai buna intelegere a naturii si extinderii acestor compromisuri este necesara pentru a permite cercetatorilor, organismelor de reglementare precum IRB-urilor si furnizorilor de date, precum departamentele de sanatate publica si spitalele, sa cada de acord asupra metodelor de perturbare spatiala care pot pastra confidentialitatea pacientului sau a participantului, intelegand in acelasi timp cum acestea pot duce la posibile prejudecati care ar putea limita utilitatea acestor date pentru diferite tipuri de analize.

Raportul acceptabil dintre informatiile pierdute si castigul de confidentialitate poate varia in functie de (1) sensibilitatea datelor subiacente, (2) natura partajarii datelor, de exemplu cu un partener de incredere supus unui acord de utilizare a datelor vs. comunicare publica larga si (3) urgenta de sanatate publica a problemei pe care datele o pot ajuta la rezolvare. Aceste intrebari au fost intotdeauna pertinente, dar pandemia COVID-19 i-a fortat spre partea din fata a conversatiei.

Reproductibilitate confidentiala

Un standard frecvent discutat pentru reproductibilitate in sanatatea publica si in medicina este ca analizele publicate ar trebui sa includa accesul la toate datele subiacente, metodele exacte utilizate de la procesarea datelor la analiza si generarea cifrelor (inclusiv codul pentru a rula toate analizele) si documentatia suficienta pentru a rula codul furnizat pe datele furnizate si obtineti rezultatele publicate [15]. In cele din urma, toate aceste componente ar trebui distribuite intr-un mod care sa le faca accesibile pe scara larga (de exemplu, sub o licenta software permisiva, gazduita pe o platforma deschisa si vizibila, cum ar fi github) [15]. Facut corespunzator, acest lucru permite altora sa valideze direct rezultatele, sa implementeze rapid noi metode si sa urmareasca ipoteze alternative folosind datele originale [16]. Cu toate acestea, aceasta abordare maxima transparenta este interzisa din punct de vedere etic si legal atunci cand datele relevante contin informatii de identificare, inclusiv adrese de domiciliu si date demografice cheie ale pacientilor. Acestea sunt considerate informatii de sanatate protejate (PHI) in conformitate cu Legea privind portabilitatea si responsabilitatea asigurarilor de sanatate (HIPAA) din Statele Unite si Regulamentul general privind protectia datelor (GDPR) din Uniunea Europeana. Prin urmare, aceste date nu pot fi publicate public intr-o forma nemascata [17]. In timp ce alte tari au implementat masuri de protectie pentru confidentialitatea individului, o actualizare din 2016 a GDPR a facut-o una dintre cele mai puternice legi privind protectia datelor, deci metodele care respecta GDPR vor respecta probabil alte politici de protectie [18]. In aceasta lucrare, argumentam si conturam contururile unuiconfidentialitate, prima abordare a reproductibilitatii care echilibreaza aceste obligatii etice si legale fata de persoanele cu potentiale beneficii pentru sanatatea publica. escorte bra Desi rezultatele pot sa nu fie complet reproductibile (in care se obtin exact aceleasi rezultate), ele pot fi reproductibile (se pot aplica aceleasi metode si rezultatele sunt similare), iar datele pot fi transmise in mod transparent, deoarece rezultatele sunt evaluate de la egal la egal. Desi statutul HIPAA si GDPR nu stabilesc standarde specifice pentru ceea ce constituie un nivel inacceptabil de identificare, o interpretare comuna a cerintelor HIPAA privind eliberarea datelor este ca fiecare punct de date trebuie sa nu se distinga de cel putin alte 10 din acelasi set de date [19] .

Conform HIPAA si GDPR, datele pot fi comunicate dupa eliminarea tuturor informatiilor de identificare; in cadrul HIPPA, aceasta se refera la 18 atribute specifice, in timp ce in cadrul GDPR inseamna orice informatie care poate duce la identificarea directa sau indirecta a unei persoane [17, 18]. Unitatea de interes in epidemiologia geospatiala – locatia unui individ sau setul de locatii vizitate de-a lungul timpului – este in mod clar informatii sensibile, identificabile si, prin urmare, metodele de dezidentificare a datelor spatiale trebuie sa fie robuste pana la inginerie inversa daunatoare. In ciuda importantei acestor metode pentru finalizarea cercetarilor reproductibile care respecta confidentialitatea, se stie putin despre modul de valorificare a diferitelor metode de perturbare spatiala pentru a atinge obiectivele duble ale (1) maximizarii confidentialitatii participantilor (adica minimizarea identificabilitatii) in timp ce (2) mentinerea modelelor spatiale cheie necesare reproductibilitatii si verificarii rezultatelor publicate [20]. Datorita acestei lipse de indrumari cu privire la modul de a identifica cel mai bine datele de sanatate spatiala la nivel individual pentru a mentine conformitatea, epidemiologii spatiali si alti cercetatori in domeniul sanatatii se confrunta cu bariere semnificative in calea reproductibilitatii. HIPAA prezinta doua abordari prin care se poate considera ca s-a realizat dezidentificarea:

  1. 1.

    Port sigur: aceasta metoda necesita eliminarea tuturor identificatorilor. Doar primele trei cifre ale codurilor postale sunt pastrate daca „unitatea geografica formata prin combinarea tuturor codurilor postale cu aceleasi trei cifre initiale contine mai mult de 20.000 de persoane”. Daca unitatea geografica contine 20.000 sau mai putine persoane, toate cele cinci cifre ale codului postal sunt eliminate [21].

  2. 2.

    Determinarea expertului: Conform acestei abordari, „o persoana cu cunostinte adecvate si experienta cu principii si metode statistice si stiintifice general acceptate pentru a face informatiile care nu pot fi identificate individual” implementeaza o metoda verificata stiintific pe date identificabile spatial pana cand exista „un risc foarte mic ca [ destinatarul] destinat ar putea identifica [persoana] ”[17]. Desi HIPAA nu cuantifica in mod explicit acest risc, este interpretat in mod obisnuit ca fiecare individ fiind indistinct de cel putin alte 9 persoane din setul de date [19].

GDPR foloseste criterii similare determinarii expertilor, afirmand ca datele anonime nu mai sunt protejate si anonimatul se realizeaza atunci cand datele sunt manipulate intr-un mod prin care nu ar putea fi reidentificate prin „toate mijloacele care ar putea fi utilizate in mod rezonabil” [ 18]. La fel ca HIPAA, acest lucru nu ofera o singura valoare a anonimatului spatial. In ciuda eforturilor de a dezvolta metode de geomasking care pot indeplini aceste standarde, nu exista un consens cu privire la modul de a alege o abordare. Lucrarile anterioare in acest domeniu au testat doar una sau un numar mic de abordari de perturbare la un moment dat [22,23,24], facand imposibila comparatia cu alte metode de perturbare. Masura principala a confidentialitatii utilizata de aceste studii este k-anonimatul. Cu toate acestea, implementarea acestei metrici intre studii a fost inconsistenta [22,23,24]. In acest studiu,

Metode

Date

Am geocodat locatia gospodariei fiecaruia dintre cele 4050 de decese inregistrate in Lawrence, Massachusetts intre 1911 si 1913. escorte tirgoviste Am folosit un set de date istoric, astfel incat datele subiacente sa poata fi publicate in timp ce respectam standardele HIPAA si GDPR, deoarece toti indivizii au fost decedati pentru> 50 de ani [17]. Am folosit ArcGIS versiunea 10.6.1 pentru a crea o harta completa a limitelor orasului dintr-un set de harti istorice. Fiecare adresa din registrul de deces a fost localizata si geocodificata folosind hartile originale. Shapefile pentru granitele orasului Lawrence, Massachusetts si raul Merrimack au fost obtinute de la Mass.gov [25, 26].

Analiza

Am folosit sapte metode de perturbare diferite, care au fost selectate pentru a surprinde gama de abordari care sunt utile si fezabile cu date numai pentru cazuri, in comparatie cu datele de caz-control. Am examinat atat perturbatii care nu agrega, care muta puncte catre locatii unice, cat si perturbari agregate, care aglomereaza puncte intr-o singura locatie.

Perturbari neagregante

  1. 1.

    Perturbare aleatorie: fiecare caz este mutat pe o distanta selectata aleator intr-o directie selectata aleatoriu. Locatiile perturbate nu sunt limitate la limitele zonei de studiu, dar au fost folosite doua distante maxime de perturbare, limitand punctele la locatii pe o raza de 50 sau 250 m. Aceste raze au fost selectate deoarece fiecare punct are in medie aproximativ 12 puncte la 50 m de acesta si 182 la 250 m de el, astfel incat deplasarea punctelor pe care aceste distante ar putea avea pana la 11 si 181 de puncte mai aproape de punctul initial decat perturbarea punct (Fig. 1).

    Fig. 1

    Reprezentarea vizuala a perturbarii aleatorii

  2. 2.

    Perturbare ponderata aleatorie: La fel ca perturbarea aleatorie, dar distanta maxima pentru fiecare caz este limitata la distanta pana la cel mai apropiat vecin al punctului. Am implementat perturbarea aleatorie ponderata de doua ori, cu puncte mutate la distanta de vecinii 5 si 50 apropiati. Aceste valori ale vecinului k au fost selectate pentru a testa diferite niveluri de anonimat, deoarece deplasarea unui punct la distanta pana la cel mai apropiat vecin al lui k-lea inseamna ca ar putea avea pana la k-1 puncte mai aproape de punctul initial decat punctul perturbat.

  3. 3.

    Mascare de gogosi: fiecare caz este mutat intr-o directie aleatorie intr-o distanta aleatorie limitata la un interval care defineste o distanta maxima si minima [27]. Mascarea gogosilor a fost implementata de doua ori, cu punctele deplasate intre 5-50 m si 50-250 m. escorte noi sibiu Aceste distante au fost alese deoarece se deplaseaza puncte intre vecinii 1 si 5 apropiati si respectiv 5 si 100 vecini, respectiv (Fig. 2).

    Fig. 2

    Reprezentare vizuala a mascarii gogosilor

  4. 4.

    Forfecare orizontala: Cazurile sunt perturbate folosind o transformare liniara pentru forfecarea datelor pe orizontala. Am deplasat fiecare punct de-a lungul axei sale x pana cand a fost la 45 ° distanta de pozitia sa initiala in raport cu centrul distributiei punctelor [24] (Fig. 3).

    Fig. 3

    Reprezentarea vizuala a forfecarii orizontale

  5. 5.

    Mascare Voronoi: Aceasta abordare muta fiecare caz intr-un punct de pe marginea cea mai apropiata a teselarii sale Voronoi, sau poligonul din jurul punctelor initiale in care liniile sunt echidistante de punct si punctele sale cele mai apropiate [28]. Desi mascarea Voronoi nu misca intotdeauna punctele impreuna, daca doua puncte sunt ambele cel mai apropiat vecin al celuilalt, ele vor fi agatate impreuna astfel incat mascarea Voronoi are un anumit grad de efect de agregare (Fig. 4).

    Fig. 4

    Reprezentare vizuala a mascarii Voronoi

Agregarea perturbatiilor

Agregarea perturbarilor deplaseaza mai multe puncte catre acelasi centroid al unei celule intr-o grila definita de utilizator, ascunzand efectiv individul intr-o populatie mai mare [29]. Am folosit doua metode de agregare adaptate de la Seidl si colab. [22]:

  1. 1.

    Mascare a liniei de retea: Punctele sunt deplasate la cea mai apropiata margine a celulei lor de retea (Fig. 5).

    Fig. 5

    Reprezentarea vizuala a mascarii liniei de retea

  2. 2.

    Mascare centrala a retelei: Punctele sunt deplasate la centroidul celulei in interiorul careia sunt situate (Fig. 6). agentii matrimoniale timisoara

    Fig. 6

    Reprezentare vizuala a mascarii centrului de retea

Pentru a intelege modul in care rezolutia retelei utilizate are un impact asupra rezultatelor noastre, ambele au fost realizate folosind o retea la scara fina (100 m × 100 m, sau aproximativ distanta medie pana la cel mai apropiat 20 vecin) si una mai grea (250 m × 250 m, sau aproximativ distanta medie pana la cel de-al 100-lea cel mai apropiat vecin).

Masuri spatiale

Pentru a determina cat si ce tipuri de informatii au fost pastrate de fiecare abordare, am comparat fiecare set de date perturbat cu datele originale folosind statistici spatiale multiple:

  1. 1.

    Centrul punctului: centrul distributiei spatiale este calculat ca medie si mediana a coordonatelor punctului, comparand fiecare perturbatie cu datele originale. Diferenta medie si mediana fata de datele neperturbate a fost calculata ca distanta euclidiana intre puncte. Modificarile din centrul distributiei spatiale demonstreaza miscarea generala a punctelor rezultate din fiecare perturbare.

  2. 2.

    Global Moran’s I: Aceasta este o masura a gruparii spatiale variind de la – 1 (separare completa) la 1 (grupare completa) [30]. Punctele au fost cumulate la 200 × 200 m celule, iar Global Moran’s I a fost calculat pentru a compara daca numarul deceselor dintr-o celula este in general similar sau diferit de numarul deceselor din celulele din jur.

  3. 3.

    Local Moran’s I: Aceasta este o masura a autocorelatiei spatiale locale, indicand cat de asemanatoare este o unitate spatiala cu vecinii sai din jur. La fel ca in cazul lui Global Moran, valorile variaza de la [- 1, 1] [31]. La fel ca la Global Moran’s I, punctele au fost agregate la celule 200 × 200 m.

  4. 4.

    Distanta pana la cel mai apropiat vecin Kth: Pentru fiecare perturbare, a fost calculata distanta medie a unui deces pana la vecinii sai 1, 5, 10 si 20 si a fost comparata cu aceeasi distanta in datele neperturbate ca in [22]. Pe masura ce punctele devin mai grupate in spatiu, distanta medie pana la cel de-al zecelea cel mai apropiat vecin scade. Examinarea vecinului 1, 5, 10 si 20 ne permite sa masuram magnitudinea gruparii sau dispersiei conferite de o perturbare.

  5. 5.

    L-Function: ultima calculata metrica spatiala este L-functia, o forma normalizata a lui Ripley K . Functia L calculeaza numarul asteptat de puncte dintr-o bila multidimensionala cu raza r , impartita la volumul mingii [32]. Aceasta este utilizata pentru a evalua daca punctele aflate la o distanta fixa ​​de o anumita locatie demonstreaza gruparea sau repulsia intr-o masura mai mare decat s-ar fi asteptat doar prin intamplare aleatorie.

Masurarea dezidentificarii

Am folosit anonimatul k, care este o metrica utilizata pe scara larga pentru a masura gradul de confidentialitate conferit de o anumita perturbare. curve futut Mai exact, intr-un set de date cu un k-anonimat de 10, fiecare inregistrare lansata este indistincta de cel putin 9 (k – 1) alte inregistrari [14]. Pentru datele non-spatiale, acest lucru necesita de obicei stergerea sau randomizarea campurilor de date pana cand exista cel putin k - 1 inregistrari indistincte pentru fiecare caz. In contextul datelor spatiale, k-anonimatul se refera la numarul de puncte perturbate mai aproape de punctul neperturbat decat propria perturbare. K-anonimatul unui punct individual se masoara folosind numarul de puncte nou perturbate care se incadreaza intr-un cerc in jurul noii locatii perturbate a punctului, cu raza acelui cerc egala cu distanta in care punctul a fost mutat de perturbare [23]. Atunci cand utilizati seturi de date care includ locatii de date care nu sunt de caz, acestea pot fi incluse in masura k-anonimat ca puncte de la care cazul nu poate fi distins; intrucat datele noastre nu includeau date non-caz, a fost utilizata aceasta interpretare a anonimatului K. K-anonimatul este raportat de obicei atat ca k mediu in fiecare punct din setul de date, cat si ca k minim. Pentru a asigura protectia tuturor subiectilor, daca k-anonimatul minim pentru orice punct este <10, perturbarea nu este considerata a indeplini standardele HIPAA de identificare. Deoarece anonimatul k oferit de o perturbatie este o functie a densitatii spatiale a datelor, am efectuat perturbatii atat asupra setului de date complet, cat si a datelor esantionate, de exemplu, esantionarea aleatorie doar 75% din punctele disponibile, pentru a intelege impactul densitatii datelor neperturbate asupra gradului de anonimat conferit de fiecare abordare (Fig. 7).

Fig. 7

Reprezentarea vizuala a anonimatului K folosind doar punctele geocodificate si fara date subiacente ale populatiei

Rezultate

In aceasta sectiune, vom analiza impactul fiecareia dintre diferitele abordari ale perturbatiei prezentate mai sus asupra caracteristicilor spatiale ale seturilor de date perturbate, precum si gradul de anonimizare conferit de fiecare abordare. Hartile care ilustreaza impactul perturbatiei asupra datelor mortalitatii sunt disponibile in Anexa (Fig. 8).

Impactul perturbatiei asupra statisticilor spatiale cheie

  • Centrul punctului: forfecarea afina a deplasat mediana distributiei spatiale la cea mai indepartata distanta euclidiana, urmata de o mascare centrala a retelei cu celule 100 × 100 m si o mascare centrala a retelei cu celule 250 × 250 m, care au deplasat mediana 123 m, 42 m si respectiv 33 m. Toate celelalte perturbatii au avut un efect mic, deplasand centrul spatial median la mai putin de 10 m la distanta euclidiana; in plus, niciuna dintre perturbatii nu a deplasat centrul mediu al distributiei spatiale mai mult de 5 m la distanta euclidiana. Efectele fiecarei perturbari pot fi vazute in Tabelul 1.

    Tabelul 1 Distanta euclidiana intre centrul spatial original al distributiei, asa cum este reprezentat atat de mediana cat si de media punctelor
  • Global si Local Moran’s I: Cand se agrega puncte la 200 × 200 m celule, datele neperturbate au avut un Global Moran’s I de 0,58, indicand o autocorelatie spatiala pozitiva intre numarul de decese din fiecare celula. Desi toate perturbatiile au mentinut o valoare pozitiva a I-ului lui Global Moran, mascarea centrala a retelei cu celule de 100 × 100 m si 250 × 250 m a dus la scaderea valorilor I , de la 0,58 la 0,36 si respectiv 0,30. Mascarea liniei de retea cu celule de 250 × 250 m si perturbarea ponderata aleatorie in cel de-al 5-lea cel mai apropiat vecin a scazut, de asemenea, I-ul Global Moran la 0,52 si, respectiv, 0,55. Toate celelalte perturbatii au crescut euvaloare, cu mascare de gogosi intre 50 si 250 m, crescand valoarea la 0,79. Efectele tuturor perturbatiilor pot fi vazute in Tabelul 2. Tendintele I locale ale lui Moran au fost similare. numere de curve Choropleths of Local Moran’s I demonstreaza schimbarea autocorelatiei spatiale pentru numarul de decese la 200 × 200 m celule si pot fi vizualizate in Fig. 9 din Anexa.

    Tabelul 2 Statistica globala a lui Moran I pentru fiecare dintre metodele de perturbare
  • Distanta pana la cel mai apropiat vecin: Pentru fiecare perturbare, pe masura ce k a crescut, distanta medie pana la cel mai apropiat vecin al k-lea a devenit mai similara cu distantele pentru datele neperturbate. Perturbarile de agregare au scazut distanta medie la toate valorile lui k, in timp ce perturbarile de neagregare au marit distanta pana la cel de-al treilea vecin cel mai apropiat. Mascarea Voronoi, care are atat proprietati de agregare, cat si non-agregare, deoarece unele puncte sunt deplasate impreuna, a redus foarte mult distanta medie pana la primul apropiat si vecin, dar a mentinut distanta medie fata de toti ceilalti vecini (Tabelul 3).

    Tabelul 3 Distanta fata de diferitii vecini apropiati in comparatie cu datele neperturbate
  • Functia L: Pentru a intelege impactul fiecarei perturbatii asupra dispersiei spatiale a punctelor, functia L a fost masurata pentru fiecare perturbatie si comparata cu datele originale. Mascarea Voronoi a avut cel mai mic efect asupra functiei L, in timp ce mascarea afilata si cea centrala a grilei atat la celulele de 100, cat si la cele de 250 m au avut cel mai mare efect. Rezultatele pot fi vazute in Fig. 10 din Anexa.

Impactul perturbatiei asupra confidentialitatii datelor

Folosind setul de date complet, nu a existat nicio perturbare care sa indeplineasca standardul HIPAA de a nu include puncte cu k-anonimat <10. Pentru claritate, denotam k-anonimatul ca \ (\ rho \) si k-anonimatul mediu ca \ (\ overline {\ rho} \). Tunsul afin a oferit cea mai mare protectie a confidentialitatii, cu 265 de cazuri (6,5%) cu \ (\ rho \, <\, 10 \) si 134 de cazuri (3,3% din cazuri) cu \ (\ rho \, <\, 5. \ ) Mascarea centrala a retelei cu celule de 250 m2 a dus la 357 cazuri (8,8% din cazuri) cu \ (\ rho \, <\, 10 \) si 159 (3,9% din cazuri) cu \ (\ rho \, <\, 5 \). Toate celelalte abordari au lasat cel putin 623 cazuri (sau 15,4% din toate cazurile) cu \ (\ rho \) <10. Mascarea Voronoi conferea cel mai mic anonimat, cu \ (\ overline {\ rho} \, = \) 1,90 si toate puncte care au \ (\ rho \) <10. Cand se utilizeaza un esantion aleatoriu de 75% din cazuri, niciuna dintre perturbatii nu a indeplinit standardul HIPAA al tuturor punctelor care au un anonimat k mai mare sau egal cu 10. Pe masura ce procentul de puncte eliberate scade, anonimatul pentru aceste puncte a scazut, de asemenea, subliniind modul in care densitatea spatiala ridicata creste intimitatea individuala atunci cand este masurata folosind k -anonimat. Anonimatul K pentru toate perturbatiile cu mai multe esantioane de date sunt prezentate in Tabelul 4 din Anexa.

Luate impreuna, rezultatele noastre indica faptul ca obtinerea nivelului de dezidentificare cerut de HIPAA, GDPR si standarde de reglementare similare folosind metodele de perturbare pe care le-am folosit, au fost necesare modificari semnificative ale unor modele spatiale cheie. Tunsul afin a oferit cel mai mare anonimat K, dar a avut impacturi mari asupra centrului spatial al distributiei si modelele puternic modificate ale lui I. Moran local. a statisticilor cheie, inclusiv a lui Moran I global si local si a lui K / L a lui Ripley. matrimoniale calarasi femei

Discutie

Rezultatele noastre arata ca gama larga de metode de perturbare aplicate in aceasta analiza nu au fost compatibile cu dezidentificarea conforma cu HIPAA si GDPR atunci cand rezultatele au mentinut si modele spatiale cheie, masurate prin statisticile rezumate alese. Acest lucru evidentiaza provocarea semnificativa de a elibera in siguranta seturi de date de sanatate spatiala, pastrand in acelasi timp suficient continut de informatii pentru a le face utile pentru analiza. Forfecarea afina a conferit cel mai mare anonimat folosind metrica k-anonimat si a mentinut unele modele spatiale. Cu toate acestea, metoda nu este sigura, deoarece punctele pot fi reidentificate in mod trivial daca se poate determina unghiul de forfecare. Caracteristicile spatiale, cum ar fi raul Merrimack din acest set de date, ar indica unde locurile adevarate ale cazurilor nu ar putea fi, si ingineria inversa in jurul acestor si a altor caracteristici geografice ar putea fi apoi usor anulata pentru a obtine unghiul de forfecare. Mascarea centrala a retelei cu celule de 250 × 250 m a dus la schimbari mari in valorile globale ale lui Moran I si a modificat dramatic distributia indicatorilor de grupare locala (de exemplu, I local al lui Moran), dar a oferit si cea mai mare dezidentificare, masurata prin k-anonimat, care este nu la fel de vulnerabil la inginerie inversa la fel de usor ca tunsul afin. Cu toate acestea, mascarea centrului de retea cu celule de 250 × 250 m inca nu indeplinea standardele HIPAA pentru confidentialitate (minim \ (\ rho \, \ ge \) 10 pentru intregul set de date) cu 357 cazuri cu \ (\ rho \, <\ ) 10. Mascarea centrala a retelei cu celule de 250 × 250 m a dus la schimbari mari in valorile globale ale lui Moran I si a modificat dramatic distributia indicatorilor de grupare locala (de exemplu, I local al lui Moran), dar a oferit si cea mai mare dezidentificare, masurata prin k-anonimat, care este nu la fel de vulnerabil la inginerie inversa la fel de usor ca tunsul afin. Cu toate acestea, mascarea centrului de retea cu celule de 250 × 250 m inca nu indeplinea standardele HIPAA pentru confidentialitate (minim \ (\ rho \, \ ge \) 10 pentru intregul set de date) cu 357 cazuri cu \ (\ rho \, <\ ) 10. Mascarea centrala a retelei cu celule de 250 × 250 m a dus la schimbari mari in valorile globale ale lui Moran I si a modificat dramatic distributia indicatorilor de grupare locala (de exemplu, I local al lui Moran), dar a oferit si cea mai mare dezidentificare, masurata prin k-anonimat, care este nu la fel de vulnerabil la inginerie inversa la fel de usor ca tunsul afin. Cu toate acestea, mascarea centrului de retea cu celule de 250 × 250 m inca nu indeplinea standardele HIPAA pentru confidentialitate (minim \ (\ rho \, \ ge \) 10 pentru intregul set de date) cu 357 cazuri cu \ (\ rho \, <\ ) 10.

Mascarea Voronoi, perturbatia aleatorie si perturbatia ponderata aleatorie au avut cel mai mic impact asupra modelelor spatiale originale, dar au oferit si o dezidentificare minima, sute de puncte avand \ (\ rho \) <10 si un minim \ (\ rho \) = 1. Mascarea Voronoi a fost fie prima, fie a doua cea mai apropiata de valoarea initiala pentru toate masurile de agregare spatiala, indicand faptul ca, in timp ce mascarea Voronoi nealterata poate sa nu ofere o dezidentificare suficient de suficienta pentru a indeplini standardele HIPAA, ea mentine mai bine modelele spatiale subiacente alte metode de geomasking. Acest lucru sugereaza ca eforturile de a construi pe abordari bazate pe Voronoi pot fi fructuoase. De exemplu, folosind multiple iteratii ale algoritmului de teselare Voronoi, cunoscut sub numele de algoritm Lloyd, precum si combinarea unei tehnici de perturbare stocastica cu mascare Voronoi [33].

Desi este mai aproape de standardele de reglementare decat toate celelalte perturbatii, cu exceptia forfecarii afine, masca centrala a retelei cu celule de 250 × 250 m a degradat puternic toate masurile spatiale utilizate. Deoarece mascarea centrala a retelei este o perturbare agregata, a scazut distanta fata de vecinii cei mai apropiati de Kth, precum si cea a lui Global Moran. Desi mascarea centrului retelei cu astfel de celule mari nu poate oferi o fidelitate ridicata pentru statisticile spatiale la scara fina examinata aici, deterministicul natura perturbarii are ca rezultat prejudecati predictibile ale statisticilor subiacente. O analiza suplimentara a acestor relatii poate fi utila pentru estimarea factorilor de corectie care pot fi utilizati pentru ajustarea estimarilor derivate din datele perturbate, astfel incat acestea sa fie mai apropiate de cele derivate din datele subiacente.

Analiza noastra are o serie de puncte forte. Spre deosebire de cercetarile anterioare, metrica de anonimat utilizata pentru a masura dezidentificarea a fost derivata in mod specific din standardul HIPAA si, de asemenea, indeplineste standardele GDPR. Aceasta ofera o masura realista a probabilitatii ca o anumita abordare sa produca rezultate care sa fie in concordanta cu legile globale privind confidentialitatea sanatatii. anunturi matrimoniale gratuite bucuresti In plus, comparatiile noastre directe cu o varietate de masuri de perturbare utilizand o singura masura de anonimizare relevanta pentru politici pot ajuta la dezvoltarea unui consens cu privire la modul si momentul in care ar trebui aplicate aceste abordari diferite.

In ciuda acestor puncte forte, aceste rezultate au, de asemenea, cateva limitari importante. De exemplu, acestea sunt limitate de utilizarea unui singur set de date spatiale caracterizat de o grupare spatiala puternica reprezentativa a datelor dintr-un cartier urban dens dens sau un oras mic. Lipsa datelor despre gospodariile inconjuratoare non-caz a impiedicat, de asemenea, utilizarea unor tehnici avansate de geomasking [34,35,36]. De asemenea, este inevitabil ca diferite perturbatii sa aiba implicatii diferite atunci cand datele subiacente au caracteristici spatiale diferite, de exemplu prezenta mai multor clustere spatiale distincte, densitatea mai mica a punctelor pe o zona spatiala mai mare etc. In plus, datele originale de mortalitate au demonstrat semnificative. autocorelatie spatiala cu un I Moran global semnificativ statistic de 0,58. Deoarece perturbarile agregate vor misca intotdeauna punctele impreuna si vor crea spatii goale unde erau punctele anterior, ele vor inclina intotdeauna I-ul lui Moran catre o dispersie mai mare, avand in vedere distributia subiacenta adevarata. Daca datele adevarate ar fi mai putin grupate, metodele de agregare a perturbarii ar putea produce partiniri diferite. Un urmator pas important catre dezvoltarea unui set de bune practici aplicabile pe scara larga pentru reproductibilitatea confidentialitatii este efectuarea analizelor prezentate aici pe seturi de date caracterizate prin diferite densitati si scale spatiale. Studiile viitoare ar trebui sa investigheze efectul pe care il au diferentele in datele subiacente asupra compromisului dintre dezidentificare si mentinerea modelelor spatiale. ei vor inclina intotdeauna I-ul lui Moran catre o dispersie mai mare, avand in vedere distributia subiacenta adevarata. Daca datele adevarate ar fi mai putin grupate, metodele de agregare a perturbarii ar putea produce partiniri diferite. Un urmator pas important catre dezvoltarea unui set de bune practici aplicabile pe scara larga pentru reproductibilitatea confidentialitatii este efectuarea analizelor prezentate aici pe seturi de date caracterizate prin diferite densitati si scale spatiale. Studiile viitoare ar trebui sa investigheze efectul pe care il au diferentele in datele subiacente asupra compromisului dintre dezidentificare si mentinerea modelelor spatiale. ei vor inclina intotdeauna I-ul lui Moran catre o dispersie mai mare, avand in vedere distributia subiacenta adevarata. Daca datele adevarate ar fi mai putin grupate, metodele de agregare a perturbarii ar putea produce partiniri diferite. Un urmator pas important catre dezvoltarea unui set de bune practici aplicabile pe scara larga pentru reproductibilitatea confidentialitatii este efectuarea analizelor prezentate aici pe seturi de date caracterizate prin diferite densitati si scale spatiale. Studiile viitoare ar trebui sa investigheze efectul pe care il au diferentele in datele subiacente asupra compromisului dintre dezidentificare si mentinerea modelelor spatiale. Un urmator pas important catre dezvoltarea unui set de bune practici aplicabile pe scara larga pentru reproductibilitatea confidentialitatii este efectuarea analizelor prezentate aici pe seturi de date caracterizate prin diferite densitati si scale spatiale. Studiile viitoare ar trebui sa investigheze efectul pe care il au diferentele in datele subiacente asupra compromisului dintre dezidentificare si mentinerea modelelor spatiale. Un urmator pas important catre dezvoltarea unui set de bune practici aplicabile pe scara larga pentru reproductibilitatea confidentialitatii este efectuarea analizelor prezentate aici pe seturi de date caracterizate prin diferite densitati si scale spatiale. chat curve Studiile viitoare ar trebui sa investigheze efectul pe care diferentele din datele subiacente il au asupra compromisului dintre dezidentificare si mentinerea modelelor spatiale.

In ciuda utilizarii sale largi ca masura a anonimatului spatial, k-anonimatul nu poate fi de fapt ideal in acest scop. De exemplu, in contextul datelor non-spatiale, asigurarea faptului ca un individ nu poate fi distins de kalte persoane din acelasi set de date pot fi rezonabile. Desi acest set de date a permis o examinare realista a anonimatului atunci cand numai cazurile sunt geocodificate, informatii suplimentare despre populatia de fundal ar permite o interpretare diferita a k-anonimatului. Cu toate acestea, k-anonimatul pentru datele spatiale este puternic influentat de densitatea punctelor din datele originale: daca punctele sunt foarte apropiate, k-anonimatul conferit de o perturbatie poate fi mare, chiar daca distanta reala dintre locatiile originale si perturbate este foarte mic. Riscul pe care il prezinta confidentialitatea devine clar atunci cand sunt disponibile alte surse de date despre populatia spatiala, de exemplu din datele recensamantului sau prin proiecte precum WorldPop [37]. Aceasta inseamna ca indivizii care nu sunt inclusi in setul de date original pot fi expusi riscului de identificare atunci cand sunt conectate datele spatiale si elementele cheie de metadate disponibile publicului (de exemplu, densitatea populatiei, distributia varstei, rasa / etnia, defalcarea sexului / sexului). In consecinta, chiar daca o perturbatie creste anonimatul din cadrul setului de date, poate avea un impact putin sau deloc asupra confidentialitatii la nivel de populatie daca ofera informatii cu privire la riscul in populatia subiacenta care poate fi extras prin abordari cum ar fi kriging si alte metode spatiale. interpolare si netezire.

Studiile viitoare ar trebui sa investigheze abordari alternative ale dezidentificarii spatiale care abordeaza limitarile k-anonimatului din cadrul setului de date discutate aici. Exista tehnici de geomasking mai avansate care necesita informatii suplimentare despre gospodariile din jur; schimbul de locatie, abordarea vecinului verificat si eliminarea aeriana adaptiva pot oferi un anonimat mai mare, dar necesita, de asemenea, informatii spatiale extinse despre regiune. Aceste metode necesita nu numai localizarea cazurilor, ci si centrele gospodariilor inconjuratoare care nu sunt intotdeauna disponibile, cum ar fi cu setul nostru de date [34,35,36]. In plus, aceste intrebari devin mai complexe atunci cand informatii suplimentare dincolo de locatia spatiala a unui caz sunt incluse intr-un set de date, de exemplu varsta, sexul, starea de comorbiditate etc.

Concluzii

Rezolvarea problemelor tehnice, etice si juridice din jurul anonimizarii datelor spatiale va avea beneficii pozitive pentru cercetatori, pacienti si factorii de decizie politica din stiintele sanatatii. Urgenta acestor intrebari este clara: dupa cum a aratat raspunsul la COVID-19, datele de inalta rezolutie pot fi utile pentru informarea atat a tacticii pe termen scurt, cat si a strategiilor pe termen lung in raspunsul la sanatatea publica [38, 39]. Dar beneficiile unor date publice mai granulare nu vor fi realizate daca confidentialitatea individuala nu poate fi protejata in mod fiabil. Pentru ca astfel de instrumente sa fie utile in situatii de urgenta viitoare, trebuie sa fie disponibil un set bine definit si convenit de confidentialitate si standarde tehnice pentru anonimizare, astfel incat acestea sa poata fi implementate rapid, respectand in acelasi timp standardele etice si legale.

Desi am folosit HIPAA ca punct de referinta, abordarile descrise aici au o relevanta clara pentru alte tipuri de date care nu fac obiectul protectiei HIPAA, dar pentru care exista inca bariere etice si legale in calea reproductibilitatii depline. De exemplu, o interventie eficienta pentru prevenirea traficului de persoane si a altor forme de exploatare poate fi asistata de date geospatiale, in timp ce locatia subiacenta a evenimentelor raportate este in mod clar sensibila si poate fi protejata legal in unele jurisdictii, de exemplu in conformitate cu normele GDPR.

In cele din urma, nu exista solutii unice pentru problema anonimizarii datelor spatiale. In schimb, software-ul open-source care foloseste abordari validate pentru securizarea anonimizarii datelor este necesar pentru a atinge echilibrul anonimizarii si fidelitatii necesare pentru a indeplini standardele de confidentialitate, mentinand in acelasi timp utilitatea pentru aplicatia dorita. Analiza noastra reprezinta un pas catre atingerea acestor obiective. curve clujnapoca Cu toate acestea, cercetari suplimentare axate pe facilitarea deschiderii si reproductibilitatii in timp ce respecta standardele etice si legale sunt extrem de necesare pentru a avansa impactul stiintelor spatiale in sanatatea publica, medicina si stiintele sociale.

Disponibilitatea datelor si a materialelor

Referinte

  1. 1.

    Cacioppo JT, Kaplan RM, Krosnick JA, Olds JL, Dean H.



    • matrimoniale telefonic galati
    • publi24 escorte
    • curve pe bani
    • dame de companie cu numar din bistrita
    • escorte carei
    • escorte piatra
    • dame de companie eforie
    • curve cu 2 fete
    • matrimoniale italia
    • curve matrimoniale
    • jurnalul secret al unei dame de companie
    • curve din salaj
    • escorte sexy gay
    • escorte militari residence
    • bucuresti escorte
    • blackberry curve 8520
    • cupidon matrimoniale femei
    • numere curve
    • sotii curve
    • matrimoniale gratuit





    Perspectivele stiintelor sociale, comportamentale si economice asupra stiintei robuste si fiabile. Raport al Subcomitetului pentru Replicabilitate in Comitetul consultativ stiintific catre Directia Fundatiei Nationale a Stiintei pentru Stiinte Sociale, Comportamentale si Economice. 2015.

  2. 2.

    Baker M. 1.500 de oameni de stiinta ridica capacul reproductibilitatii. Nat News. 2016; 533 (7604): 452.

    Articol CAS Google Scholar 

  3. 3.

    Ostfeld RS, Glass GE, Keesing F. Epidemiologia spatiala: o disciplina emergenta (sau reaparenta). Tendinte Ecol Evol. 2005; 20 (6): 328-36.

    Articol PubMed Google Scholar 

  4. 4.

    Grey SC, Edwards SE, Miranda ML. Rasa, starea socioeconomica si expunerea la poluarea aerului in Carolina de Nord. Environ Res. 2013; 126: 152-8. curve din zalau

    Articolul CAS PubMed Google Scholar 

  5. 5.

    Hixson BA, Omer SB, del Rio C, Frew PM. Gruparea spatiala a prevalentei HIV in Atlanta, Georgia si caracteristicile populatiei asociate cu concentratiile de cazuri. Sanatate urbana. 2011; 88 (1): 129-41.

    PubMed PubMed Central Article Google Scholar 

  6. 6.

    Liu HY, Skjetne E, Kobernus M. Urmarirea telefonului mobil: in sprijinul modelarii contributiei poluarii aerului legate de trafic la expunerea individuala si a implicatiilor sale pentru evaluarea impactului asupra sanatatii publice. Sanatatea Environ. 2013; 12 (1): 93.

    PubMed PubMed Central Article Google Scholar 

  7. 7.

    Brownwright TK, Dodson ZM, van Panhuis WG. Gruparea spatiala a acoperirii vaccinarii impotriva rujeolei in randul copiilor din Africa subsahariana. BMC Sanatate Publica. 2017; 17 (1): 957.

    PubMed PubMed Central Article Google Scholar 

  8. 8.

    Dong E, Du H, Gardner L. Un tablou de bord interactiv bazat pe web pentru a urmari COVID-19 in timp real. Lancet Infect Dis. 2020; 20 (5): 533-4.

    CAS PubMed PubMed Central Article Google Scholar 

  9. 9.

    Boala Coronavirus 2019 (COVID-19). transition curve Cazuri in SUA: Centre for Disease Control and Prevention; 2020. https://www.cdc.gov/coronavirus/2019-ncov/cases-updates/cases-in-us.html.

  10. 10.

    Tabloul de bord de date si supraveghere COVID-19 din Florida. Florida Department of Health, Division of Disease Control and Health Protection. 2020.

  11. 11.

    Times TNY. Coronavirus in SUA: cea mai recenta harta si numar de cazuri. New York Times. 2020.

  12. 12.

    Tavernise S, Oppel Jr. RA. Scuipat, tipat, atacat: chinezii-americani se tem pentru siguranta lor. New York Times. 2020

  13. 13.

    Elassar A. Vigilantii inarmati au blocat calea unui vecin cu un copac pentru a-l forta sa intre in carantina: CNN; 2020. curve in buzau https://www.cnn.com/2020/03/29/us/maine-coronavirus-forced-quarantine-trnd/index.html.

  14. 14.

    Sweeney L. k-anonimatul: un model pentru protejarea confidentialitatii. Int J Incertain Fuzziness Knowl Based Syst. 2002; 10 (05): 557-70.

    Articol Google Scholar 

  15. 15.

    Peng R. Criza de reproductibilitate in stiinta: un contraatac statistic. Semnificatie. 2015; 12 (3): 30-2.

    Articol Google Scholar 

  16. 16.

    Wicherts JM, Veldkamp CL, Augusteijn HE, Bakker M, Van Aert R, Van Assen MA. Gradele de libertate in planificarea, desfasurarea, analizarea si raportarea studiilor psihologice: o lista de verificare pentru a evita p-hacking-ul. Front Psychol. 2016; 7: 1832.

    PubMed PubMed Central Article Google Scholar 

  17. 17.

    Legea privind responsabilitatea. Legea privind portabilitatea si responsabilitatea asigurarilor de sanatate din 1996. dame de companie rosiori de vede Drept public. 1996; 104: 191.

    Google Scholar 

  18. 18.

    Regulamentul (UE) 2016/679. 2016.

  19. 19.

    Zerbe J. Liniile directoare privind confidentialitatea datelor geospatiale. 2015.

  20. 20.

    Zandbergen PA. Asigurarea confidentialitatii datelor de sanatate geocodificate: evaluarea strategiilor de mascare geografica pentru date la nivel individual. Adv Med. 2014. https://doi.org/10.1155/2014/567049.

    PubMed PubMed Central Article Google Scholar 

  21. 21.

    Servicii UDoHaH. Indrumari privind metodele de dezidentificare a informatiilor de sanatate protejate in conformitate cu regula de confidentialitate a Legii privind portabilitatea si responsabilitatea asigurarilor de sanatate (HIPAA). Departamentul american de sanatate si servicii umane, Washington, DC. 2018. cuget matrimoniale https: //www.hhsgov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html. Accesat la 26 septembrie 2012.

  22. 22.

    Seidl DE, Paulus G, Jankowski P, Regenfelder M. Metode de ofuscare spatiala pentru protectia confidentialitatii datelor la nivel de gospodarie. Aplicati Geogr. 2015; 63: 253-63.

    Articol Google Scholar 

  23. 23.

    Hampton KH, Fitch MK, Allshouse WB, Doherty IA, Gesink DC, Leone PA si colab. Cartarea datelor de sanatate: protectie imbunatatita a confidentialitatii cu metoda de geomascare a gogosilor. Sunt J Epidemiol. 2010; 172 (9): 1062-9.

    PubMed PubMed Central Article Google Scholar 

  24. 24.

    MP Armstrong, Rushton G, Zimmerman DL. Mascare geografica a datelor de sanatate pentru a pastra confidentialitatea. Stat Med. 1999; 18 (5): 497-525.

    Articolul CAS PubMed Google Scholar 

  25. 25.

    MassGIS. Hidrografie (1: 100. dame de companie din targoviste 000). Massachusetts: MassGIS (Biroul de informatii geografice); 2019.

  26. 26.

    MassGIS. Limitele judetului (1: 100.000). Massachusetts: MassGIS (Biroul de informatii geografice); 2019.

  27. 27.

    MP Kwan, Casas I, Schmitz B. Protectia geoprivitatii si acuratetea informatiilor spatiale: Cat de eficiente sunt mastile geografice? Cartographica. 2004; 39 (2): 15-28.

    Articol Google Scholar 

  28. 28.

    Voronoi G. Nouvelles applications des parametres continus a la theorie des formes quadratiques. Deuxieme memoire. Recherches sur les parallelloedres primitifs. J fur die reine und angewandte Mathematik. 1908; 134: 198–287.

    Articol Google Scholar 

  29. 29.

    Allshouse WB, Fitch MK, Hampton KH, Gesink DC, Doherty IA, Leone PA si colab. Geomasking date sensibile de sanatate si protectie a vietii private: o evaluare utilizand o baza de date E911. Geocarto Int. matrimoniale odorheiu secuiesc 2010; 25 (6): 443-52.

    PubMed PubMed Central Article Google Scholar 

  30. 30.

    Moran PA. Note despre fenomene stochastice continue. Biometrika. 1950; 37 (1/2): 17-23.

    Articolul CAS PubMed Google Scholar 

  31. 31.

    Anselin L. Indicatori locali de asociere spatiala – LISA. Geogr Anal. 1995; 27 (2): 93-115.

    Articol Google Scholar 

  32. 32.

    Dixon PM. Functia K a lui Rpley. Wiley StatsRef: statistici de referinta online. 2014.

  33. 33.

    Tang C, Monteleoni C. Despre algoritmul lui Lloyd: noi perspective teoretice pentru gruparea in practica. In: Inteligenta artificiala si statistici. New York: Springer; 2016.

    Google Scholar 

  34. 34. curve botosani

    Zhang S, Freundschuh SM, Lenzer K, Zandbergen PA. Metoda de schimbare a locatiei pentru geomasking. Cartogr Geogr Inf Sci. 2017; 44 (1): 22-34.

    Articol Google Scholar 

  35. 35.

    Richter W. Abordarea verificata de vecinatate a geo-confidentialitatii: o metoda imbunatatita pentru mascare geografica. J Eposure Sci Environ Epidemiol. 2018; 28 (2): 109-18.

    Articol Google Scholar 

  36. 36.

    Kounadi O, Leitner M. Eliminarea areala adaptiva (AAE): un mod transparent de a divulga seturi de date spatiale protejate. Comput Environ Urban Syst. 2016; 57: 59-67.

    Articol Google Scholar 

  37. 37.

    LeFevre K, DeWitt DJ, Ramakrishnan R. Incognito: k-anonimat eficient pe intregul domeniu. In: Lucrarile conferintei internationale ACM SIGMOD din 2005 privind gestionarea datelor; 2005.

  38. 38.

    Raskar R, Schunemann I, Barbar R, Vilcans K, Gray J, Vepakomma P si colab. Aplicatiile au devenit necinstite: mentinerea intimitatii personale intr-o epidemie. preimprimare arXiv. prestari servicii matrimoniale arXiv: 200308567. 2020.

  39. 39.

    Zelner J, Trangucci R, Naraharisetti R, Cao A, Malosh R, Broen K, si colab. Disparitatile rasiale in mortalitatea COVID-19 sunt determinate de riscuri inegale de infectie. Clin Infect Dis. 2020. https://doi.org/10.1093/cid/ciaa1723.

    PubMed PubMed Central Article Google Scholar 

Descarcati referintele

Multumiri

Autorii recunosc Centrul de Istorie Lawrence pentru ca a oferit acces la inregistrarile istorice ale mortalitatii si la Dr. Chris Muller pentru colectarea si digitalizarea datelor. De asemenea, recunoastem dr. Veronica Berrocal pentru ca a oferit critici si feedback cu privire la proiectele timpurii.

Finantarea

KB a fost finantat de programul de formare tintit de cercetare prin Centrul de Inginerie pentru Sanatate si Siguranta in Munca (COHSE) al Universitatii din Michigan si un grant de la fundatia rOpenSci. JZ & finantat printr-un grant de la fundatia rOpenSci; JZ & RT au fost finantate prin subventia # U01 IP00113801-01 de la Centrele SUA pentru Controlul si Prevenirea Bolilor.

Informatia autorului

Afilieri

  1. Departamentul de epidemiologie, Scoala de sanatate publica a Universitatii din Michigan, Ann Arbor, MI, 48109, SUA

    Kelly Broen si Jon Zelner

  2. Center for Social Epidemiology and Population Health, University of Michigan School of Public Health, Ann Arbor, MI, 48109, SUA

    Kelly Broen si Jon Zelner

  3. Departamentul de Statistica, Universitatea din Michigan, Ann Arbor, MI, 48109, SUA

    Rob Trangucci

Contributii

Toti autorii sunt responsabili pentru acest manuscris si au fost implicati in conceptie si proiectare; analiza si interpretarea datelor; sau redactarea si revizuirea manuscrisului. Toti autorii au citit si au aprobat manuscrisul final.

autorul corespunzator

Corespondenta cu Kelly Broen.

Declaratii de etica

Aprobarea etica si consimtamantul de participare

Acest studiu nu a fost supus revizuirii de catre IRB de la Universitatea din Michigan, deoarece a utilizat date disponibile publicului.

Consimtamantul pentru publicare

Nu se aplica.

Interese concurente

Autorii declara ca nu au interese concurente. escorte in cluj

Informatii suplimentare

Nota editorului

Springer Nature ramane neutru in ceea ce priveste revendicarile jurisdictionale din hartile publicate si afilierile institutionale.

Apendice

Apendice

Vezi Fig. 8, 9, 10 si Tabelul 4.

Fig. 8

Fiecare dintre perturbatiile datelor se aplica datelor Lawrence, MA. Centrul distributiei spatiale este marcat de o stea neagra. Linia albastru deschis reprezinta raul Merrimack, care trece prin Lawrence

Fig. 9

Coropletele I locale ale lui Moran pentru fiecare perturbare. I-ul global al lui Moran este listat dedesubt

Fig. 10

Datele originale au fost centrate la zero, astfel incat functia fiecarei perturbari arata diferenta crescuta de la aleatoritatea spatiala completa dincolo de datele originale

Tabelul 4 K-anonimat pentru fiecare perturbare si cu cantitati diferite de date

Drepturi si permisiuni

Acces deschisAcest articol este licentiat sub o licenta internationala Creative Commons Attribution 4.0, care permite utilizarea, partajarea, adaptarea, distribuirea si reproducerea in orice mediu sau format, atata timp cat acordati creditul autorului (autorilor) original (e) si sursei link catre licenta Creative Commons si indicati daca s-au facut modificari. Imaginile sau alte materiale ale tertilor din acest articol sunt incluse in licenta Creative Commons a articolului, cu exceptia cazului in care se indica altfel intr-o linie de credit pentru material. Daca materialul nu este inclus in licenta Creative Commons a articolului si utilizarea intentionata a dvs. nu este permisa de reglementarile legale sau depaseste utilizarea permisa, va trebui sa obtineti permisiunea direct de la titularul drepturilor de autor. Pentru a vizualiza o copie a acestei licente, vizitati http://creativecommons.org/licenses/by/4.0/.

Reimprimari si permisiuni

Despre acest articol

Citati acest articol

Broen, K., Trangucci, R. & Zelner, J. Masurarea impactului perturbatiilor spatiale asupra relatiei dintre confidentialitatea datelor si validitatea statisticilor descriptive. Int J Health Geogr 20, 3 (2021). escorte husi https://doi.org/10.1186/s12942-020-00256-8

Descarcati citatia

  • Primit: 13 septembrie 2020

  • Acceptat: 18 decembrie 2020

  • Publicat: 07 ianuarie 2021

  • DOI: https://doi.org/10.1186/s12942-020-00256-8

Cuvinte cheie

  • Geomasking
  • Confidentialitate
  • Anonimatul spatial
  • Reproductibilitate