はじめに

ビジネスに結びついたデータ分析をやる上で2つの大きな課題があると弊社では考えています。

  1. ビジネスメリットに結びついたデータ分析を設計できていない
  2. データ分析までの障壁が大きい

1つ目の要因については前回の記事のようなに業務プロセスを洗い出していくのが1つの解決策だと思います。
本稿では2つ目の「データ分析までの障壁」をいかにして小さくするのかを説明します。

データ分析までの障壁とは

データサイエンティスト界隈で有名な言葉として「データ分析は前処理が8割」があります。
「前処理」というのはデータ分析ができる状態にするために加工する作業のことを指します。
データ分析をやったことがある身としては「データ分析は前処理が8割」は理解できますし、実際のデータ分析プロジェクトでもそうでした。
しかしながらビジネスサイドからすると

  • なぜこんなに工数がかかるのか
  • データ解析自体に時間を割きたい

となり前処理のフェーズは「何しているか分からないのに工数がかかってしまう」となってしまうこともあるかと思います。
この認識の違いがデータ分析までの障壁をより大きくしていると思っています。
前処理のフェーズで何をやっているかを明らかにしてデータサイエンティストサイドとビジネスサイドの認識のずれをなくすことが、「データ分析までの障壁」を小さくする方法の1つだと私たちは考えております。

そのため本記事では、前処理のフェーズで何が行われているのか、どの部分で時間がかかってしまうかを説明します。

前処理で行われていること

前処理では大きく以下の3つのことを行います。

  • データ取得
  • データ分析の環境構築
  • データアセスメント

データ取得

このフェーズでは「手動で入力しているデータ」「システムのログ」等のデータを取得します。
作業自体は基本的に「手動で入力しているデータを収集してcsvに変換」「DBの中身をcsvにダンプ」だけです。
しかし、以下の理由で想定より時間がかかってしまうことが多々あります。

  1. 構造化されていない
    通常業務としては人が理解できる形であれば問題がないため「PDF」「紙」の場合があります。
    そのままだと、機械が認識できないため手動でデータ入力をして構造化データに変換する必要があります
  2. 何のデータかが分からない
    構造化されていても、どのカラムが何を指しているかが分からない場合があります。
    その場合は、そのデータを使っている担当部署と連携して情報を集める作業が発生します
  3. DBのダンプに時間がかかる
    システムは安定運用されていることが望ましいため作業は手順化され極力ミスが起きないようにしています。
    そのためDBのダンプのような通常とは違う作業の場合はシステム運用者との調整で時間がかかる場合があります。
    結果、クライアントと多くのコミュケーションが必要となり工数が膨らむことがあります。

データ分析の環境構築

このフェーズでは「セキュリティレベルの確定」をします。
一般的にセキュリティと利便性は相反する関係にあります。
データ分析をする上でも同じようなことがおきます。議論のポイントなるのが以下の2つです

  • クラウドを使うのか、オンプレにするのか
  • IP制限で大丈夫か、閉域網を構築する必要があるか

データサイエンティストとしては、便利なPaaSがあるクラウドを使うと分析により注力できます。
しかしながら、セキュリティに関わることはデータサイエンティストだけでは決定することはできません。
そのため、セキュリティ管轄部門の合意を得るための資料を作成する必要があります。

また、クラウドを使用する場合は購買をする必要があります。
データ分析というのは新しく事例が少ないため、
分析そのものの業務以外の手続きや調整に時間がかかってしまうことがあります。

データアセスメント

このフェーズでは「外れ値」「欠損値」について話し合います。
私たちの場合は以下のように話し合っています

  • どこからが外れ値なのか
  • 欠損値の割合はどうなっているか
  • 削除するのか、修正するのか

どこからが外れ値なのかについて、教科書的なやり方では「上位1%と下位1%を外れ値」とするやり方もあるのですがビジネスの世界だと何をもって外れ値とするかはケースバイケースとなります。極論全数データを使うケースも現れます。

ビジネスレイヤーの方と一緒に外れ値の範囲について話し合っていきます。
欠損値については目的変数や説明変数として使えそうなデータを優先的に確認していきます。
データが欠損無く入っているケースは少なく、ここで初めて「使えるデータが実は少ない」と気づくこともあります。

データはできるだけ多いほうがいいため外れ値、欠損値はできるだけ修正することが望ましいです。
しかしながら、修正には多くの時間がかかってしまうため、バランスを見る必要があります。
コストパフォーマンスが著しく悪いと判断した場合は削ったり、平均値で補完することもあります。

まとめ

本記事ではニュースでスポットが当たるデータ解析手法についてではなく、
その前段階である前処理(データ取得、データ分析の環境構築、データアセスメント)について執筆しました。
読んでいくとお分かりになると思いますが、前処理ではコミュニケーションが重要となり、いかにデータ分析を正確に行えるかの準備のためのコストであるということがお分かりになるかと思います。

コミュニケーションが多いということは、チーム、組織、会社によって工数が変わることを指しています。
不明瞭な部分が多いと、不確定要素への対応工数を盛り込んでしまうために、全体工数が大きくなってしまいます。

しかしながら、認識のずれをなくしていくことでデータサイエンスサイドとビジネスサイドの両方が納得した上で対応することができるため
結果的に「データ分析までの障壁」が小さくなり、乗り越えられる壁になるかと考えています。

最後に

富士通クラウドテクノロジーズではデータ分析に興味がある人を募集しています!
詳しくは下記URLまで!
https://open.talentio.com/1/c/fjct_rec/requisitions/228

著者

富士通クラウドテクノロジーズ株式会社
営業マーケティング本部
データ・IoTデザイン部
エンジニア 呉屋 寛裕