【AIはきちんと理解して扱うのが非常に難しいですね】

 

 こんにちは、データデザイン部でプランナーをしております金岡です。

 昨今AIは爆発的なブームになり、メディアで目にしない日はありません。すでに普段のみなさまの業務や生活の中にも入り込みはじめています。

 しかし、AIは様々なトピックが混同・誤解されて解釈されており、定義が非常に分かりづらいです。事業会社様のAI導入プロジェクトでも「結局AIは何なのか」ということが整理されぬまま推進され、発注先や内製組織と認識の齟齬が生まれるケースがあります。

 

 すると、

  • 要件の手戻りが発生、開発費が当初見積よりも増大
  • 期待が高まりすぎて、成果物との乖離から現場に導入されない
  • AI導入担当者が左遷
  • AI開発ベンダーが出禁

という致命的な問題が発生します。

 この記事では、改めて「AIとはそもそも何なのか」を実商談で実際に生じたAIに対する誤解を例に挙げながら説明したいと思います。

 

 

目次

  1. 商談でよくあるAIへの誤解
  2. AIとは何か
     【1】データの処理方法
     【2】アルゴリズム
  3. 誤解への反論
  4. まとめ

1.商談でよくあるAIへの誤解

 まず、AI導入の現場でよく発生する「誤解」について書こうと思います。いまから書く内容は商談で実際にあった誤解で、すべて「間違って」います(特定の条件では成り立つものもありますが、AIは~~という主語では一般化しすぎです)。

 みなさまのAI導入プロジェクトで、こういったフレーズが出てきたら、失敗したり、要件が突然変わったり、良くないことが起きる可能性が高いです。要注意です。

  • 「AIって使えば使うほど賢くなるんでしょ?」
  • 「なんで統計使うの?AI使わないんだから高くない?」
  • 「『教師なし学習』はデータがいらないんでしょ。うちは全部紙管理なのでデータないけどAI作ってよ」
  • 「ディープラーニングが最強なんでしょ?ディープラーニングでやってよ」

 
 なんというかなんというかですが、めげずに書いていこうと思います。

 

2.AIとは何か

 それでは、AIはそもそも何なのかを解説します。

 AIとは、「人間の知的ふるまいの一部を人工的に再現したソフトウェア」と言われています。決して誤ってはいないですが、業務に適用しようと思うと解釈が割れるため、もう少し具体的にしたいですね。
 業務で利用するには「データの処理方法」・「アルゴリズム」の組み合わせで機能が確定するソフトウェアと定義すると分かりやすいです。

 

【1】 データ処理方法

 AIを活用する際、まずデータの特性およびそれに適切な処理方法を決定します。

 

1. 教師あり学習

  • データが入力データと出力データからなる場合、「教師あり学習」という処理を行います
  • データの中にある入出力関係をある種の数式化(これを『モデル』といいます)します
  • この数式に新しい入力データを入れると、未知の出力データを導出してくれます

【例】過去の天気、チラシ頒布数、クーポン配布数、来店客数実績を教師あり学習したモデルを作り、今日の天気、チラシ頒布数、クーポン配布数を入力することで今日の来店客数を出力。

  • 入力:天気、チラシ頒布数、クーポン配布数
    出力:来店客数
  • なお、入力のことを「説明変数」、出力のことを「目的変数」と呼びます

 

2.教師なし学習

  • データには入出力の区別がなく、データ自身の生成構造や分布を明らかにしたい場合は「教師なし学習」を採用します

【例】顧客のウェブサイト行動履歴から「教師なし学習」を用いることで、顧客を何グループかに分けたい

  • データは説明変数と目的変数に分かれていません。これが「入出力の区別」のない状態です

 

3. 強化学習

  • データが状態・行動・報酬からなり、報酬を最大化するような行動を特定したい際はこの方法を採用します
  • 難しいですね。例を見てみましょう

【例】碁というゲームの中で、過去の棋譜から勝利に最大限近づくような差し手を自動で差したい

  • 状態:碁のルールが適用される空間
  • 行動:差し手
  • 報酬:ゲームで有利になる
  • 強化学習は「行動計画の策定」を目的としています

 

【2】アルゴリズム

 アルゴリズムとは数学的な課題解決の方法を差します。【1】で説明した「データの処理方法」を一般化すると、いずれも「データから何らかの方法でモデル、構造を導出」しています。この「何らかの方法」が「アルゴリズム」です。アルゴリズムには様々な手法があり、あくまで一例のみを示します。

  • 重回帰分析
  • XGBoost
  • 回帰木
  • 深層学習
     ・深層学習(ディープラーニング)はあくまでアルゴリズムの一種とご理解いただけることと思います

補足:データをさらに細分化すると「構造化データ(Excelで表現されるデータ)」「非構造化データ(動画、画像、音声など、Excelで表現できないデータ)」に分類されます。

 

3.誤解への反論

 それでは、冒頭に書いたAIへの「誤解」について反論していきたいと思います。

  • AIって使えば使うほど賢くなるんでしょ?」
    • 一度AI開発に利用するデータを見直して、状態・行動・報酬すべての要素が揃っているか見直してみましょう。おそらく多くの場合「教師あり学習」だと思われます
    • 一度作った教師あり学習における学習済みモデルが自動で更新されることはありません。つまり使えば使うほど賢くならないのです
    • 学習済みモデルが更新されるとするならば、ソフトウェア的に再学習をかける仕組みを実装している場合です(下図)。AIというよりもソフトウェア要件かもしてません。また、この場合も必ず賢くなるわけではなく、「最新のデータが反映されている」状態に過ぎません

    【学習済みモデルが更新されるケース】

    • 「なんで統計使うの?AI使わないんだから高くない?」
      • 統計的な手法(例:重回帰分析)とそのほかのアルゴリズムは、どちらもAI開発の中で用途別に使い分けられる並列なものであり、「統計とAI」という二分法は上位下位の関係が不適切と考えます
      • 統計的機械学習の特徴量設計と深層学習における層設計のどちらが難しいか、宗教戦争のきっかけになるので避けた方がいい発言です
    • 「『教師なし学習』はデータがいらないんでしょ。うちは全部紙管理なのでデータないけどAI作ってよ」
      • 必要です。説明変数と目的変数を決めないだけです。
      • 本当にデータはいります。大事なことなので二回書きました
    • 「ディープラーニングが最強なんでしょ?ディープラーニングでやってよ」
      • そんなことはありません。あくまでアルゴリズムの選択肢の一つです
      • アルゴリズムはデータと解きたい課題に合わせて色々なものを試し、最終的にどのようなものにするかを確定します
      • ディープラーニングに統計的手法が勝つということは往々にしてあり得ます。きちんと目的に即したアルゴリズムを選定しましょう

     

    4.まとめ

    AIは様々な要素が入り乱れ、正確にとらえるのが難しいです。本稿では、なるべく数学的な概念を持ち出さず解説して参りました。「データの処理方法」・「アルゴリズム」の組み合わせで機能が確定するソフトウェアと捉えると簡単かと思います。みなさまのAI導入が成功されますことを祈念しております。

    著者の紹介

    プランナー 金岡 亮
    複数の新規AI・データ活用サービスの企画およびPMを担当する。大手広告代理店様/メーカー様のビッグデータ活用の支援等の実績あり。
     
    上級ウェブ解析士

     

     

    資料の無料ダウンロード

    貴社の事業課題に向けたAI活用の各種資料をご案内いたします。

    サラリーマンのためのデータサイエンス基礎講座

    非エンジニアの方向けに、データサイエンスの基礎から便利なフレームワーク、そしてデータを直接操作してAI開発を体験できるハンズオンまでを網羅した、人気の半日集中講座を毎月開催しております。