マサムネの部屋

何もない所でデータサイエンティストをすると大変という話

約1年データサイエンティストぽい仕事をしていたのですが、当時の苦労と解決法を書いておく事で、誰かしらの役に立つと思うので、残しておきます。1
扱っていたのは、最大で一万×百くらいの小さめのデータです。機械学習は使っておらず、統計解析だけを行っていました。
メンバーは僕だけで、周りに統計の知識があるのは0人という素晴らしい環境でした。2
苦労した点は沢山あるような気がしますが、データ解析に関わる、集計、前処理、解析に関係して苦労した点だけ書いておきます。

スポンサーリンク

データ集計のフォーマットが無い

一番初めに苦労した点はこれに尽きます。
実験データを集めて何かしようとした時に、人によって記録のフォーマットが違っていました。
全てエクセルに記録されていたのですが、表が書いてあるシートと実験の説明が書いてあるシートが同じ人もいれば、実験の説明と表でシートが分かれている人もいました。また、肝心の表の部分も人それぞれの書き方でした。

どう対処したか

これからの実験データ集計は共通のフォーマットで行ってもらうようにしました。また、実験結果だけをまとめた表を実験メンバーで共有して作ってもらうようにしました。
古いデータに関しては、どうしても分析したいものだけマクロを組んで成形しました。3

紙に書いていたり、pdfになっている表をデータとして使いたがる

昭和の時代のデータも追加して使いたいという相談がありました。この時点で嫌な予感がした訳ですが、紙に書かれた結果や紙に書かれたものをpdf化した大量のデータを使いたいという事がありました。4

どう対処したか

この件については、解決方法が良く分かりませんでした。市販のソフトも使ったことが無かったので強く勧める事も出来ませんでした。一番確実な方法として、バイトを雇って手入力してもらうのを進言しました。5

仕事の頼まれ方が雑

仕事をこなすにつれて、噂を聞いた人から仕事が舞い込む事が増えていきました。それ自体は良い事でしたが、何をしてほしいか分からない仕事も多くなりました。
ここにデータがあります。それではよろしくお願いいたします。
みたいな感じです。データを扱う仕事に関しては、上司といえる人がいなかったので、困りました。

どう対処したか

一番簡単な対処は無視する事ですが、仕事でやっているし、相手も困っているので無視する事はありませんでした。
ではどうしたかというと、良く分からない仕事が来たときは、どんな目的で採取したのかと、データの特徴量の意味を聞きました。これをする事で、相手が困っている事と、こちらで出来そうな事が分かりました。その後に、こんな感じの事を出来ますけどどうですかね?6と言って仕事を進めていました。

大変な事のまとめ

結局は、人がいない、設備がないに集約される気がします。人がいないのはかなり辛いので、先輩がいる場所で働き始めた方がいいなと思いました。

  1. 孤軍奮闘してデータを使って価値を出そうとする人や、良く分からないけど部下にやらせようと思ってる人に役立つ気がします。
  2. 部署などは独立していたわけでなく、何か出来そうだから今の部署で始めてみようか、という流れで始まりました。活動を始めた当初は、色々な部署の人と話をして、それ解決できそうだよ、と言って仕事をもらう、という感じでした。
  3. フォーマットを数種類に分けて、それぞれを成形するコードを書きました。例外的な結果は無視するか、手動で成形しました。
  4. 市販のソフトで、文字認識アプリみたいなのがあるのは知っていましたが、導入して~というのはやりたくないみたいでした。
  5. データを入力するだけで、一ヵ月以上かかりそうだったので、自分で何かしようという気にはなりませんでした。
  6. 例えば、t検定を行って、ある日を境にして数字に変化があったか検出できますよとか。