Ievies FAIR principus
Šeit atradīsiet ieteikumus un noderīgus piemērus par to, kā datus padarīt atbilstīgus FAIR principiem. Tas sākas ar datņu sagatavošanu un pareizu organizēšanu, izmantojot vēlamos failu formātus, kā arī nodrošinot, ka datu kopa tiek raksturota ar nepieciešamajiem metadatiem. Drošības un ētikas apsvērumu dēļ pētniekam ir jāizvērtē, kurus datus publicēt un kurus ne. Pēc datu publicēšanas ir ieteicams tos saistīt ar zinātniskiem rakstiem un citiem pētījumu rezultātiem, tādējādi dati iegūst lielāku redzamību, bet raksti – ticamību. Tāpat arī noderīgas saites, lai uzlabotu pētniecības datu pārvaldības zināšanas un prasmes, kā arī atrastu labās prakses piemērus.
- Piemērotie datņu formāti
Vēlamā datņu formāta izvēle ir ļoti svarīga, lai nodrošinātu, ka jūsu dati būs lasāmi arī turpmāk. Daži datņu formāti sniedz lielāku iespējamību datu ilgtermiņa lasāmībai nekā citi. Šādi formāti parasti ir nekomerciāli, atklāti, ar dokumentētiem starptautiskiem standartiem, izmantojot standarta rakstzīmju kodējumu kā Unicode (piemēram, UTF-8), nesaspiesti.
- Sagatavo savus datus
Lai palielinātu izklājlapu datu (t. i., lielu tabulu vai neapstrādātu datu) pieejamību un atkalizmantojamību, tiem būtu jāievēro labās prakses soļi.
Ieteicams
- Piešķirt katrai kolonnai aprakstošu virsrakstu
- Izmantot vienu galvenes rindu
- Pārliecinieties, vai esat izmantojis pirmo šūnu, t. i., A1
- Iekļaut virsrakstu un apzīmējumu, lai aprakstītu katru izklājlapu
- Saglabāt katru datu failu ar nosaukumu, kas atbilstoši atspoguļo faila saturu
- Saglabāt katru tabulu, kas ir daļa no datu kopas, kā atsevišķu failu
- Saglabāt katru darblapu kā atsevišķu datni
Nav ieteicams
- Iestrādāt izklājlapā diagrammas, komentārus vai tabulas
- Izmantot krāsu kodēšanu (mašīniespējota datu ieguve to nevar interpretēt)
- Iekļaut izklājlapā speciālās (t. i., ne burtciparu) rakstzīmes, tostarp komatus
- Izmantot sapludinātās šūnas
- Izvietot vairākas darblapas izklājlapā (piemēram, programmā Microsoft Excel), jo CSV un TAB formāti to neatbalsta
Izklājlapas jāsaglabā CSV vai TAB formātā, IZŅEMOT, ja izklājlapā ir mainīgo apzīmējumi, kodu apzīmējumi vai definētas trūkstošas vērtības, jo tām jābūt izvietotām SAV, SAS vai POR formātā ar mainīgo, kas definēts angļu valodā.
- Apraksti un dokumentē savus datus
Lai datus un pētījumus padarītu atkārtojamus, datus dokumentē, apraksta, kā arī pievieno dokumentus līdzās datiem. Dati jākodē, izmantojot mainīgos (piemēram, skaitliskos). Tādā veidā jūsu dati kļūst pieejami un savstarpēji izmantojami visā pasaulē. Var būt gadījumi, kad jau esošās klasifikācijas nav piemērotas jūsu datiem vai var sniegt neprecīzu datu interpretāciju, šajā gadījumā jums ir jāsniedz detalizēti savas pieejas apraksti (tie jāpievieno datu kopai).
Dokumentācija
Lai dati būtu labāk saprotami un reproducējami, ir svarīgi pievienot arī attiecīgu dokumentāciju. Visbiežāk šie dokumentu veidi tiek publicēti kopā ar datiem (bet ne tikai):
- metodoloģijas apraksti – jūsu pētījumu metodoloģijas un datu vākšanas vai ģenerēšanas metodoloģija,
- kodu grāmatas – datu tehniskais apraksts, izmantotie mainīgie un skaitļi, datu kopu struktūra un cita konteksta informācija atkarībā no pētniecības jomas,
- anketas – sevišķi aptaujas datu gadījumā ir svarīgi pievienot anketu datnes,
- laboratorijas piezīmju grāmatas un eksperimentālie protokoli – piezīmes, kurās dokumentēti pētījumi,
- ar programmatūru saistīta dokumentācija – ja tiek izmantota neparasta un atklāta pirmkoda programmatūra, ieteicams pievienot dokumentāciju un kodu,
- readme.txt – datne ar norādījumiem, kā reproducēt jūsu pielitoto datu analīzi. Skatīt Readme datnes piemēru
Lielu projektu gadījumā pētnieki var publicēt arī informāciju par izmantotajām taksonomijām/ontoloģijām (ja tās vēl nav publiski pieejamas), dažāda veida kartējumiem (gadījumos, kad ir daudz datu failu), kontekstuālo informāciju, kas apraksta projektu, politikas, kas saistītas ar pētniecības tēmu utt. Turklāt dažādās pētniecības jomās pastāv dažādas tradīcijas attiecībā uz dokumentāciju un nepieciešamajiem papildu materiāliem.
- Nosauc un organizē savas datnes
Datņu nosaukšanas un organizēšanas veids ir ļoti svarīgs, lai jūsu pētījumi būtu pārredzami un viegli pārvaldāmi, it īpaši gadījumos, kad jums ir vairāki projekti un pētniecības datu bagātība.
Datņu nosaukumu un organizācijas principi
- Raksturojošs, cilvēkam lasāms nosaukums, kas atspoguļo saturu
- Saskanīgs rakstīšanas veids, vēlams, mašīnlasīšanai draudzīgs
- Datņu organizēšana mapēs ar konsekventu pieeju
- Izvairīties no semantisku elementu atkārtošanās
- Datnes paplašinājums, kas atbilst faila formātam
Lūdzu, pārliecinieties, lai visi faili ir skaidri marķēti, lai lasītāji saprastu failu saturu un atšķirības starp tiem. Katrai datnei un grupai iesakām norādīt
- vienu īsu virsrakstu, kas apraksta datnes saturu,
- detalizētāks apraksts, kas raksturo katru datu kopu, lai būtu skaidrs, ka datnes ir atšķirīgas un lejupielādējamas (tostarp skaidrojums par visiem datu kopā izmantotajiem akronīmiem),
- savāciet visus datus un sakārtojiet tos, sākot ar 01. Ievērojiet, ka jums jāizmanto 01, 02... 10., 12., 22., 34. utt.
Izmantojot labo praksi, ir daudz vieglāk atrast pareizo datu datnes ne tikai jums, bet arī jūsu sadarbības partneriem un vēlāk arī citiem pētniekiem, kuri var atkārtoti izmantot jūsu datus.
Papildu padomi datņu nosaukšanai
- Neizmantojiet atstarpes; tā vietā izmantojiet pasvītrojuma zīmes (piemēram, first_study), defises (piemēram, pirmais-pētījums) vai kamieļu burtus (FirstStudy)
- Izvairieties no šādām rakstzīmēm: \/?: * “> < |: #%” {} | ^ [] `~ æÆ øØ åÅ äÄ öÖ …
- Izmantojiet starptautisko datumu konvenciju YYYY-MM-DD (piemēram, 2017-10-25)
- Datnes nosaukumam oriģinālajā faila formātā jābūt identiskam ar atbilstīgās datnes nosaukumu vēlamajā datnes formātā
Veids, kādā jāorganizē faili, ir atkarīgs no faila tipa un pētniecības jomā. Savā jomā ievērojiet labās prakses piemērus.
- Metadati
Bez datu kopu metadatiem nevarētu pastāvēt publiskās datu bāzes. Daudzos atvērtajos datu portālos ir iekļauti nepieciešamie rīki, lai, publicējot jaunus datus, izveidotu datu kopas metadatus. Daži atvērtie datu portāli, rediģējot datu kopas, automātiski atjaunina metadatus. Katrā publicētajā datu kopā būs iekļauti daudzi no šiem metadatu elementiem.
RSU Dataverse arī ir minimālās prasības nepieciešamajiem metadatiem (skatīt šeit).
Metadatu elementi
Pamata metadatu elementi nodrošina vissvarīgāko informāciju, lai palīdzētu meklētājiem atrast datus un noteikt, vai tie ir viņiem nepieciešami. Daudzi no šiem datu laukiem parādīsies tieši katalogu navigācijas lapās vai meklēšanas rezultātos.
- Būtiskie
Nosaukums: cilvēkam lasāms datu kopas nosaukums. Būtu nepieciešams vieglā angļu valodā, kā arī iekļaut pietiekamu detalizācijas pakāpi, lai uzlabotu meklēšanas un atrašanas iespējas
Apraksts: cilvēkam lasāms apraksts (anotācija) ar detaļām, lai iespējotu lietotāju ātri saprast, vai datu kopa ir tam interesējoša
Autors/-i: galvenais un citi datu kopas autori, nepieciešams sneigt informāciju arī par viņu institucionālo piederību un ORCID numuru
Kontaktpersona: personas, kuras varēs iztaujāt par datu kopu (e-pasta adrese)
Zinātnes nozare: galvenā zinātnes nozare atbilstīgi klasifikācijai
Atslēgas vārdi: birkas jeb atslēgas vārdi, kas palīdz lietotājiem atrast datu kopu – ieteicams iekļaut terminus, kurus lietotu arī lietotāji, kas nav speciālisti. Var norādīt arī atslēgas vārdu sarakstus (vocabularies).
Publicētājs: piemēram, Riga Stradins University Dataverse
Unikālais identifikators: DOI (tas tiks automātiski piešķirts, kad datu kopa tiks publicēta RSU Dataverse)
Publiskas pieejamības līmenis: pakāpe, kādā šo datu kopu var padarīt publiski pieejamu, neatkarīgi no tā, vai tā ir padarīta pieejama. Izvēles RSU
Dataverse: atvērta (jebkurš var piekļūt datiem bez ierobežojumiem); ierobežota, pieprasīt piekļuvi (piekļuve ir ierobežota, bet pieprasījums ar sadarbības priekšlikumu var tikt iesniegts autoriem); ierobežota, bez piekļuves (piekļuve liegta, faili tiks atvērti tikai ar kontaktpersonu pie autoriem). Ja ir plānots embargo periods, tas ir jānorāda un jāpamato
Licence: RSU Dataverse gadījumā, publiskā īpašuma statuss tiks piemērots automātiski
Valoda: datu kopas valoda
Izstrādes datums un vieta: datu kopas izveides (ne publiskošanas) datums un vieta
Datu ievākšanas periods: laika posms, kurā dati tika ievākti/ģenerēti
Datu tips: piemēram, anketēšanas dati vai klīniskie dati
Versijas numurs: visnesenākais datums, kad datu kopa tika mainīta, papildināt vai modificēta, tostarp informācija par galvenajām izmaiņām Other
- Izvēles
Projekta informācija: finansējošā institūcija, projekta numurs vai ID, kā arī projekta nosaukums
Laika periods: periods, kuram atbilst dati (sevišķi par vēsturiskajiem datiem)
Lietojumprogramma: norādes par izmantojamo lietojumprogrammatūru, lai atvērtu failus
Saistītie materiāli un datu kopas: zinātniskie raksti un citas datu kopas, kas saistītas ar šo (sniedzot DOI vai saiti)
- Citi
Metadatos var iekļaut arī daudz citu elementu. Ja vēlaties padarīt datu kopu atrodamāku un pieejamāku, varat norādīt klasifikācijas, kontrolētās vārdnīcas, taksonomijas un ontoloģijas, ko pielietojat, ģeogrāfiskos datus utt., pamatojoties uz pētījuma jomu un noteiktajiem metadatu standartiem. Ja vēlaties pievienot papildu metadatus savai datu kopai Dataverse, rakstiet dataversersu[pnkts]lv.
- Dati, ar kuriem nevar dalīties
Ir gadījumi, kad nav iespējams publicēt datus. Lūdzu, vienmēr sazinieties ar pieredzējušākiem kolēģiem vai datu pārvaldnieku gadījumos, kad jūsu dati ietver personas datus vai sensitīvu informāciju. Var būt arī dažādi gadījumi atkarībā no jūsu izpētes tēmām, projekta līguma vai līgumiem ar industrijas pārstāvjiem.
Ar datiem nevar dalīties, ja tie ir vai satur šādu informāciju:
- personas datus, kas var identificēt indivīdu,
- tirdzniecības noslēpumu,
- drošības nosacījumus,
- intelektuālo īpašumu,
- milzīgi (nav iespējams noglabāt).
Šajos gadījumos pētniekiem vajag sniegt
- detalizētus metadatus (neietverot konfidenciālu informāciju),
- pamatojumu ierobežotai pieejai,
- nosacījumus, lai piekļūtu datiem.
Ja dati ietver personas datus, pārliecinieties, vai tie ir pareizi anonimizēti vai pseidonimizēti. Iesakām izmantot R anonymizer pakotni. Īpašos gadījumos arī sensitīvu informāciju var kodēt un grupēt, lai nepieļautu personas identificēšanu.
Ja nevarat koplietot datus kāda iemesla dēļ, kas šeit nav iekļauts, vai jums ir papildu jautājumi par datu koplietošanu, lūdzu, sazinieties pa e-pastu datukuratorirsu[pnkts]lv.
- Savieno savas datu kopas ar zinātniskajiem rakstiem
Informācijas apmaiņa par datiem nodrošina zinātnisko rakstu un to satura validāciju un pārredzamību, kā arī var veicināt jaunas sadarbības iespējas.
Iesniedzot rakstu žurnālam, aicinām to saistīt ar datu kopām, kas tiek izmantotas tā izveidei. Atkarībā no žurnāla, lielākoties tas ir iespējams, norādot datu kopas unikālo identifikatoru vai citu informāciju sasniedzamībai. To ir iespējojušas arī visas lielākās žurnālu datu bāzes. Gadījumos, kad jūsu dati nevar būt publiski pieejami, jūs joprojām varat pievienot unikālu identifikatoru un skaidrojumu, kāpēc jūsu datiem ir ierobežota piekļuve.
Turklāt, kad jūsu raksts ir publicēts, mēs noteikti iesakām atjaunināt datu kopu ar jūsu raksta DOI, kas tiks jums nosūtīta pa e-pastu, publicējot rakstu. Datu saistīšana ar rakstu ļaus savstarpēji saistīt jūsu datus un rakstu, nodrošinot, ka saņemat atzinību par savu darbu.
RSU pētnieki tiek aicināti informēt RSU Dataverse (dataversersu[pnkts]lv) par jauniem rakstiem vai datu kopām saistībā ar jūsu noglabāto datu kopu arī pēc datu kopas publicēšanas. Tas pats attiecas uz RSU zinātniskās darbības informācijas sistēmu (Pure), kur jau reģistrētām datu kopām iespējams pievienot jaunas saites uz zinātniskiem rakstiem.
- Noderīgas saites
Vispārīgas vadlīnijas un apmācības
Pētniecības datu atbalsta materiāls (Vrije Universiteit Amsterdam)
Tīmekļvietne par FAIRifikāciju (Dānijas bibliotēku konsorcijs)
Palīgmateriāli pētniecības datu pārvaldībā (North Carolina State University Library)
Pētniecības datu pārvaldības apmācību portāls (United Kingdom Data Service)
Pētniecības datu servisa portāls (University of Reading)
Apmācību kursi darbā ar datiem (izstrādāts Kanādā)
Kvalitatīvo datu pārvaldība - apmācību materiāli
ELIXIR izstrādātais RDMkit pētniekiem
Datu sagatavošana
Open Research Europe (Eiropas Komisija) materiāls par datu pārvaldību
Datu sagatavošana sociālajās zinātnēs un humanitārajās zinātnēs (CESSDA)
Ieteicamie datu formāti (United Kingdom Data Service)
Ieteicamie datu formāti (United Kingdom Data Service)
Metadati
Metadatu standarti (RD-Alliance)
Open Archives iniciētais protokols metadatu rasmošanai (harvesting)
Ievads par metadatiem (University of Texas Library)
Atvērto datu metadatu vadlīnijas (Center for Government Excellence at Johns Hopkins University)