共有を前提としてデータを管理する

この記事は,Open and Reproducible Science Advent Calendar 2019の5日目の記事です。

データ解析の再現可能性を高めるためには,生データから最終的に論文で報告されている結果までの処理過程を再現可能にした上で公開する必要があります。今回は,その方法について説明します。

データの管理については,いろいろな方法があるとは思いますが,Wilson et al., (2017)*1は,データ管理の推奨実践として以下を挙げています。

  1. 生データを保存する
  2. 生データは1つ以上の場所にバックアップをとっておく
  3. 三者に提供しやすい形式にデータを整える
  4. データを解析しやすいように整える
  5. データ処理に用いたすべてのステップを記録する
  6. 複数のデータセットを使用することを想定して,ユニークな識別子を使用する
  7. 他の研究者がアクセスし引用できるようにデジタルオブジェクト識別子(Digital Object Identifier: DOI)の付与ができるリポジトリにデータを登録する

以下では,Wilson et al., (2017)の推奨実践について詳しく説明します。

1.生データを保存する

2.生データは1つ以上の場所にバックアップをとっておく

可能な限り生データを公開することが重要です(もちろん,個人情報が適切に保護できているのであればの話です)。色々なデータの整形を行ったきれいなデータを公開したくなりますが,その「色々なデータの整形」にミスが入り込むことが多いです。もし,いろいろなデータ整形に致命的なミスがあるものの整形後のデータを公開しているとその致命的なミスが分からなくなってしまう可能性があります。そこで,まずは,なんらかの処理をしたデータを保存するのではなく,大元の生データをしっかり保存しましょう。また,生データは1つ以上の場所にバックアップをとっておきましょう。電子データはどのように保存してもちょっとしたことでデータが破損する可能性があります。必ず,複数箇所にデータを保存するようにしておくと安心です。

3.第三者に提供しやすい形式にデータを整える

4.データを解析しやすいように整える

生データそのままでは統計解析可能な形式になってないかもしれません。そこで,第三者にも理解しやすい形式に整形します。変数名やファイル名もわかりやすい名前にします。データ整形にあたっては,データサイエンティストのHadley Wickhamが提唱する整然データ(Wickham & Grolemund, 2016)を意識して整形を行うと良いです。整然データとは,1つのセルには個々の値が入り,1つの列には個々の変数が入り,1つの行には個々の観測が入るという原則の元で整えられたデータのことを指します。整然データになっていれば,人間も読みやすいですし,機械も処理しやすい形式になりますので,統計解析に利用しやすいです。

5.データ処理に用いたすべてのステップを記録する

6.複数のデータセットを使用することを想定して,ユニークな識別子を使用する

データの整形過程から統計処理までのすべての処理過程を記録します。この処理過程がすべて残せるかどうかが再現可能性においては重要です。特定の商品名は避けますが,よく使用されるGUIベースの統計ソフトの場合(パソコンの画面でポチポチクリックする系のソフト),なんかの方法で別途記録を残しておかないと,すべての処理過程が残りませんので,再現不可能になります。その点,RなどのCUIベースのソフトは(コマンドを打ち込んで操作する系のソフト),すべての処理過程を明示的に残せるので再現可能性においては優れています。さらに,Rの場合はR Markdownを用いると,データに対して行った操作だけでなく,なぜそれを行ったかなどの説明も残すことができ,さらに再現可能性を高められます。R Markdownについては,高橋康介先生の「再現可能性のすゝめ」を薦めます。なお,ある個人のデータが複数のデータセットに分かれている場合があります。例えば,質問紙のデータベース,個人属性情報のデータベース,MRIのデータベースなどが別々にあることもあります。この場合に,それぞれが特定の人のデータであると識別できるように,ユニークな識別子を使います。これによって,各データベースを連結することができます。

7.他の研究者がアクセスし引用できるようにデジタルオブジェクト識別子(Digital Object Identifier: DOI)の付与ができるリポジトリにデータを登録する

データを公開する先は個人のHPなどではなく,他の研究者がアクセスしやすく引用しやすい比較的永続性のあるリポジトリを使うことをおすすめします。例えば,figshare (https://figshare.com/)やZenodo (https://zenodo.org/)などがあります。figshareもZenodoもDOIが付与されますので,恒久的に引用することができるようになります。このようにしておくと,後の研究者がデータの再利用する時に引用されるようになるので,自身の研究のインパクトが増します。

今回解説したデータの管理方法は,再現可能な心理学研究入門でも触れています。データ解析の再現可能性の全体像を把握したうえで,上記のデータ管理の位置づけを知りたい場合は,読んでいただけたら幸いです。

Enjoy!

*1:Wilson, G., Bryan, J., Cranston, K., Kitzes, J., Nederbragt, L., & Teal, T. K. (2017). Good enough practices in scientific computing. PLoS Computational Biology, 13(6), e1005510.