Pārlekt uz galveno saturu

Šeit atradīsiet ieteikumus un noderīgus piemērus par to, kā datus padarīt atbilstīgus FAIR principiem. Tas sākas ar datņu sagatavošanu un pareizu organizēšanu, izmantojot vēlamos failu formātus, kā arī nodrošinot, ka datu kopa tiek raksturota ar nepieciešamajiem metadatiem. Drošības un ētikas apsvērumu dēļ pētniekam ir jāizvērtē, kurus datus publicēt un kurus ne. Pēc datu publicēšanas ir ieteicams tos saistīt ar zinātniskiem rakstiem un citiem pētījumu rezultātiem, tādējādi dati iegūst lielāku redzamību, bet raksti – ticamību. Tāpat arī noderīgas saites, lai uzlabotu pētniecības datu pārvaldības zināšanas un prasmes, kā arī atrastu labās prakses piemērus.

Piemērotie datņu formāti

Vēlamā datņu formāta izvēle ir ļoti svarīga, lai nodrošinātu, ka jūsu dati būs lasāmi arī turpmāk. Daži datņu formāti sniedz lielāku iespējamību datu ilgtermiņa lasāmībai nekā citi. Šādi formāti parasti ir nekomerciāli, atklāti, ar dokumentētiem starptautiskiem standartiem, izmantojot standarta rakstzīmju kodējumu kā Unicode (piemēram, UTF-8), nesaspiesti.

Vēlamie un nevēlamie datņu formāti

Avots

Sagatavo savus datus

Lai palielinātu izklājlapu datu (t. i., lielu tabulu vai neapstrādātu datu) pieejamību un atkalizmantojamību, tiem būtu jāievēro labās prakses soļi.

Ieteicams

  • Piešķirt katrai kolonnai aprakstošu virsrakstu
  • Izmantot vienu galvenes rindu
  • Pārliecinieties, vai esat izmantojis pirmo šūnu, t. i., A1
  • Iekļaut virsrakstu un apzīmējumu, lai aprakstītu katru izklājlapu
  • Saglabāt katru datu failu ar nosaukumu, kas atbilstoši atspoguļo faila saturu
  • Saglabāt katru tabulu, kas ir daļa no datu kopas, kā atsevišķu failu
  • Saglabāt katru darblapu kā atsevišķu datni

Nav ieteicams

  • Iestrādāt izklājlapā diagrammas, komentārus vai tabulas
  • Izmantot krāsu kodēšanu (mašīniespējota datu ieguve to nevar interpretēt)
  • Iekļaut izklājlapā speciālās (t. i., ne burtciparu) rakstzīmes, tostarp komatus
  • Izmantot sapludinātās šūnas
  • Izvietot vairākas darblapas izklājlapā (piemēram, programmā Microsoft Excel), jo CSV un TAB formāti to neatbalsta

Avots

Izklājlapas jāsaglabā CSV vai TAB formātā, IZŅEMOT, ja izklājlapā ir mainīgo apzīmējumi, kodu apzīmējumi vai definētas trūkstošas vērtības, jo tām jābūt izvietotām SAV, SAS vai POR formātā ar mainīgo, kas definēts angļu valodā.

Papildu informācija

Datu tīrīšanas skripts izmantošanai programmatūrā R

Apraksti un dokumentē savus datus

Lai datus un pētījumus padarītu atkārtojamus, datus dokumentē, apraksta, kā arī pievieno dokumentus līdzās datiem. Dati jākodē, izmantojot mainīgos (piemēram, skaitliskos). Tādā veidā jūsu dati kļūst pieejami un savstarpēji izmantojami visā pasaulē. Var būt gadījumi, kad jau esošās klasifikācijas nav piemērotas jūsu datiem vai var sniegt neprecīzu datu interpretāciju, šajā gadījumā jums ir jāsniedz detalizēti savas pieejas apraksti (tie jāpievieno datu kopai).

Dokumentācija

Lai dati būtu labāk saprotami un reproducējami, ir svarīgi pievienot arī attiecīgu dokumentāciju. Visbiežāk šie dokumentu veidi tiek publicēti kopā ar datiem (bet ne tikai):

  • metodoloģijas apraksti – jūsu pētījumu metodoloģijas un datu vākšanas vai ģenerēšanas metodoloģija,
  • kodu grāmatas – datu tehniskais apraksts, izmantotie mainīgie un skaitļi, datu kopu struktūra un cita konteksta informācija atkarībā no pētniecības jomas,
  • anketas – sevišķi aptaujas datu gadījumā ir svarīgi pievienot anketu datnes,
  • laboratorijas piezīmju grāmatas un eksperimentālie protokoli – piezīmes, kurās dokumentēti pētījumi,
  • ar programmatūru saistīta dokumentācija – ja tiek izmantota neparasta un atklāta pirmkoda programmatūra, ieteicams pievienot dokumentāciju un kodu,
  • readme.txt – datne ar norādījumiem, kā reproducēt jūsu pielitoto datu analīzi. Skatīt Readme datnes piemēru

Lielu projektu gadījumā pētnieki var publicēt arī informāciju par izmantotajām taksonomijām/ontoloģijām (ja tās vēl nav publiski pieejamas), dažāda veida kartējumiem (gadījumos, kad ir daudz datu failu), kontekstuālo informāciju, kas apraksta projektu, politikas, kas saistītas ar pētniecības tēmu utt. Turklāt dažādās pētniecības jomās pastāv dažādas tradīcijas attiecībā uz dokumentāciju un nepieciešamajiem papildu materiāliem.

Nosauc un organizē savas datnes

Datņu nosaukšanas un organizēšanas veids ir ļoti svarīgs, lai jūsu pētījumi būtu pārredzami un viegli pārvaldāmi, it īpaši gadījumos, kad jums ir vairāki projekti un pētniecības datu bagātība.

Datņu nosaukumu un organizācijas principi

  • Raksturojošs, cilvēkam lasāms nosaukums, kas atspoguļo saturu
  • Saskanīgs rakstīšanas veids, vēlams, mašīnlasīšanai draudzīgs
  • Datņu organizēšana mapēs ar konsekventu pieeju
  • Izvairīties no semantisku elementu atkārtošanās
  • Datnes paplašinājums, kas atbilst faila formātam

Lūdzu, pārliecinieties, lai visi faili ir skaidri marķēti, lai lasītāji saprastu failu saturu un atšķirības starp tiem. Katrai datnei un grupai iesakām norādīt

  • vienu īsu virsrakstu, kas apraksta datnes saturu,
  • detalizētāks apraksts, kas raksturo katru datu kopu, lai būtu skaidrs, ka datnes ir atšķirīgas un lejupielādējamas (tostarp skaidrojums par visiem datu kopā izmantotajiem akronīmiem),
  • savāciet visus datus un sakārtojiet tos, sākot ar 01. Ievērojiet, ka jums jāizmanto 01, 02... 10., 12., 22., 34. utt.

Izmantojot labo praksi, ir daudz vieglāk atrast pareizo datu datnes ne tikai jums, bet arī jūsu sadarbības partneriem un vēlāk arī citiem pētniekiem, kuri var atkārtoti izmantot jūsu datus.

Papildu padomi datņu nosaukšanai

  • Neizmantojiet atstarpes; tā vietā izmantojiet pasvītrojuma zīmes (piemēram, first_study), defises (piemēram, pirmais-pētījums) vai kamieļu burtus (FirstStudy)
  • Izvairieties no šādām rakstzīmēm: \/?: * “> < |: #%” {} | ^ [] `~ æÆ øØ åÅ äÄ öÖ …
  • Izmantojiet starptautisko datumu konvenciju YYYY-MM-DD (piemēram, 2017-10-25)
  • Datnes nosaukumam oriģinālajā faila formātā jābūt identiskam ar atbilstīgās datnes nosaukumu vēlamajā datnes formātā

Veids, kādā jāorganizē faili, ir atkarīgs no faila tipa un pētniecības jomā. Savā jomā ievērojiet labās prakses piemērus.

Metadati

Bez datu kopu metadatiem nevarētu pastāvēt publiskās datu bāzes. Daudzos atvērtajos datu portālos ir iekļauti nepieciešamie rīki, lai, publicējot jaunus datus, izveidotu datu kopas metadatus. Daži atvērtie datu portāli, rediģējot datu kopas, automātiski atjaunina metadatus. Katrā publicētajā datu kopā būs iekļauti daudzi no šiem metadatu elementiem.

RSU Dataverse arī ir minimālās prasības nepieciešamajiem metadatiem (skatīt šeit).

Metadatu elementi

Pamata metadatu elementi nodrošina vissvarīgāko informāciju, lai palīdzētu meklētājiem atrast datus un noteikt, vai tie ir viņiem nepieciešami. Daudzi no šiem datu laukiem parādīsies tieši katalogu navigācijas lapās vai meklēšanas rezultātos.

Būtiskie

Nosaukums: cilvēkam lasāms datu kopas nosaukums. Būtu nepieciešams vieglā angļu valodā, kā arī iekļaut pietiekamu detalizācijas pakāpi, lai uzlabotu meklēšanas un atrašanas iespējas

Apraksts: cilvēkam lasāms apraksts (anotācija) ar detaļām, lai iespējotu lietotāju ātri saprast, vai datu kopa ir tam interesējoša

Autors/-i: galvenais un citi datu kopas autori, nepieciešams sneigt informāciju arī par viņu institucionālo piederību un ORCID numuru

Kontaktpersona: personas, kuras varēs iztaujāt par datu kopu (e-pasta adrese)

Zinātnes nozare: galvenā zinātnes nozare atbilstīgi klasifikācijai

Atslēgas vārdi: birkas jeb atslēgas vārdi, kas palīdz lietotājiem atrast datu kopu – ieteicams iekļaut terminus, kurus lietotu arī lietotāji, kas nav speciālisti. Var norādīt arī atslēgas vārdu sarakstus (vocabularies).

Publicētājs: piemēram, Riga Stradins University Dataverse

Unikālais identifikators: DOI (tas tiks automātiski piešķirts, kad datu kopa tiks publicēta RSU Dataverse)

Publiskas pieejamības līmenis: pakāpe, kādā šo datu kopu var padarīt publiski pieejamu, neatkarīgi no tā, vai tā ir padarīta pieejama. Izvēles RSU

Dataverse: atvērta (jebkurš var piekļūt datiem bez ierobežojumiem); ierobežota, pieprasīt piekļuvi (piekļuve ir ierobežota, bet pieprasījums ar sadarbības priekšlikumu var tikt iesniegts autoriem); ierobežota, bez piekļuves (piekļuve liegta, faili tiks atvērti tikai ar kontaktpersonu pie autoriem). Ja ir plānots embargo periods, tas ir jānorāda un jāpamato

Licence: RSU Dataverse gadījumā, publiskā īpašuma statuss tiks piemērots automātiski

Valoda: datu kopas valoda

Izstrādes datums un vieta: datu kopas izveides (ne publiskošanas) datums un vieta

Datu ievākšanas periods: laika posms, kurā dati tika ievākti/ģenerēti

Datu tips: piemēram, anketēšanas dati vai klīniskie dati

Versijas numurs: visnesenākais datums, kad datu kopa tika mainīta, papildināt vai modificēta, tostarp informācija par galvenajām izmaiņām Other

Izvēles

Projekta informācija: finansējošā institūcija, projekta numurs vai ID, kā arī projekta nosaukums

Laika periods: periods, kuram atbilst dati (sevišķi par vēsturiskajiem datiem)

Lietojumprogramma: norādes par izmantojamo lietojumprogrammatūru, lai atvērtu failus

Saistītie materiāli un datu kopas: zinātniskie raksti un citas datu kopas, kas saistītas ar šo (sniedzot DOI vai saiti)

Citi

Metadatos var iekļaut arī daudz citu elementu. Ja vēlaties padarīt datu kopu atrodamāku un pieejamāku, varat norādīt klasifikācijas, kontrolētās vārdnīcas, taksonomijas un ontoloģijas, ko pielietojat, ģeogrāfiskos datus utt., pamatojoties uz pētījuma jomu un noteiktajiem metadatu standartiem. Ja vēlaties pievienot papildu metadatus savai datu kopai Dataverse, rakstiet dataverseatrsu[pnkts]lv.

Dati, ar kuriem nevar dalīties

Ir gadījumi, kad nav iespējams publicēt datus. Lūdzu, vienmēr sazinieties ar pieredzējušākiem kolēģiem vai datu pārvaldnieku gadījumos, kad jūsu dati ietver personas datus vai sensitīvu informāciju. Var būt arī dažādi gadījumi atkarībā no jūsu izpētes tēmām, projekta līguma vai līgumiem ar industrijas pārstāvjiem.

Ar datiem nevar dalīties, ja tie ir vai satur šādu informāciju:

  • personas datus, kas var identificēt indivīdu,
  • tirdzniecības noslēpumu,
  • drošības nosacījumus,
  • intelektuālo īpašumu,
  • milzīgi (nav iespējams noglabāt).

Šajos gadījumos pētniekiem vajag sniegt

  • detalizētus metadatus (neietverot konfidenciālu informāciju),
  • pamatojumu ierobežotai pieejai,
  • nosacījumus, lai piekļūtu datiem.

Avots

Ja dati ietver personas datus, pārliecinieties, vai tie ir pareizi anonimizēti vai pseidonimizēti. Iesakām izmantot R anonymizer pakotni. Īpašos gadījumos arī sensitīvu informāciju var kodēt un grupēt, lai nepieļautu personas identificēšanu.

Ja nevarat koplietot datus kāda iemesla dēļ, kas šeit nav iekļauts, vai jums ir papildu jautājumi par datu koplietošanu, lūdzu, sazinieties pa e-pastu datukuratoriatrsu[pnkts]lv.  

Savieno savas datu kopas ar zinātniskajiem rakstiem

Informācijas apmaiņa par datiem nodrošina zinātnisko rakstu un to satura validāciju un pārredzamību, kā arī var veicināt jaunas sadarbības iespējas.

Iesniedzot rakstu žurnālam, aicinām to saistīt ar datu kopām, kas tiek izmantotas tā izveidei. Atkarībā no žurnāla, lielākoties tas ir iespējams, norādot datu kopas unikālo identifikatoru vai citu informāciju sasniedzamībai. To ir iespējojušas arī visas lielākās žurnālu datu bāzes. Gadījumos, kad jūsu dati nevar būt publiski pieejami, jūs joprojām varat pievienot unikālu identifikatoru un skaidrojumu, kāpēc jūsu datiem ir ierobežota piekļuve.

Turklāt, kad jūsu raksts ir publicēts, mēs noteikti iesakām atjaunināt datu kopu ar jūsu raksta DOI, kas tiks jums nosūtīta pa e-pastu, publicējot rakstu. Datu saistīšana ar rakstu ļaus savstarpēji saistīt jūsu datus un rakstu, nodrošinot, ka saņemat atzinību par savu darbu.

RSU pētnieki tiek aicināti informēt RSU Dataverse (dataverseatrsu[pnkts]lv) par jauniem rakstiem vai datu kopām saistībā ar jūsu noglabāto datu kopu arī pēc datu kopas publicēšanas. Tas pats attiecas uz RSU zinātniskās darbības informācijas sistēmu (Pure), kur jau reģistrētām datu kopām iespējams pievienot jaunas saites uz zinātniskiem rakstiem.

Noderīgas saites

Vispārīgas vadlīnijas un apmācības

Pētniecības datu atbalsta materiāls (Vrije Universiteit Amsterdam)

Tīmekļvietne par FAIRifikāciju (Dānijas bibliotēku konsorcijs)

Palīgmateriāli pētniecības datu pārvaldībā (North Carolina State University Library)

Pētniecības datu pārvaldības apmācību portāls (United Kingdom Data Service)

Nacionālais atvērtās zinātnes kontaktpunkts Latvijas Universitātē – pētniecības datu pārvaldība (latviešu valodā)

Pētniecības datu servisa portāls (University of Reading)

Apmācību kursi darbā ar datiem (izstrādāts Kanādā)

Kvalitatīvo datu pārvaldība - apmācību materiāli

ELIXIR izstrādātais RDMkit pētniekiem

Datu sagatavošana

Open Research Europe (Eiropas Komisija) materiāls par datu pārvaldību

Pētniecības datu pārvaldības pakalpojumu grupas materiāls par tabulārajiem datiem (Cornell University)

Labās prakses piemēri – Wilson G, Bryan J, Cranston K, Kitzes J, Nederbragt L, Teal TK (2017) Good enough practices in scientific computing. PLoS Comput Biol 13(6): e1005510

Datu sagatavošana sociālajās zinātnēs un humanitārajās zinātnēs (CESSDA)

Ieteicamie datu formāti (United Kingdom Data Service)

Ieteicamie datu formāti (United Kingdom Data Service)

Metadati

Metadatu standarti (RD-Alliance)

Open Archives iniciētais protokols metadatu rasmošanai (harvesting)

Ievads par metadatiem (University of Texas Library)

Atvērto datu metadatu vadlīnijas (Center for Government Excellence at Johns Hopkins University)