こんにちは、データデザイン部でディレクターをしております古川です。
普段はお客様のAI・データ活用を軸にした課題解決プロジェクトを推進しています。

 

今回やること

今回は、テキストマイニングを用いることで、簡単に価値ある分析が可能となります、という実例を紹介します。

具体的には、情報処理推進機構のITパスポート試験において、ヤマを張るべきジャンルを探し出してみます。

 

《活用するデータ》

この試験問題は、IT業界で使う知識を広く浅く取り扱っています。取扱う問題の傾向の変化を掴むことができるならば、どのジャンルが出題されそうかもわかるはずです。

《結論》

以下を実施した結果、「セキュリティ」にヤマを張るべきとわかりました。

 


《ヤマを張るジャンルの見つけ方概要》

  • STEP1.
    2010年と2019年の春季ITパスポート試験において、出題されている名詞の累計数を数える。
  • STEP2.
    2019年で高頻出の名詞が、どういった文脈で用いられているか調べる。
  • STEP3.
    2010年では高頻出だった名詞と、2019年で高頻出になった単語が、世の中的に広まっているのかを調べる。
  • STEP4.
    ヤマを張るジャンルを決める。

 

 

《作業詳細》

STEP1.
2010年と2019年の春季ITパスポート試験において、出題されている名詞の累計数を数える。

まず、IPAが公表している2010年と2019年の問題文を、フリーのテキストマイニングツール「KHcoder」にかけて品詞に分解し、計測してみました。

問題文に出てくる名詞を、出現回数の多い順にトップ20位まで一覧にしました。
※「システム」と「情報」の2単語だけは、試験の特性上、頻繁に出現することが予想されるため、結果からは意図的に除外しました。

2010年春季ITパスポート試験 出現回数の多いトップ20名詞(全884語)

2019年春季ITパスポート試験 出現回数の多いトップ20名詞(全1,015語)

結果、以下のような特徴が読み取れました。

  • 想像通り、どちらの年度も、「データ」「開発」「管理」などが上位に来る
  • 2010年は「作業」「機能」「テスト」などの、開発寄りの名詞が多い
  • 2019年には上位10位に位置付けられている「プロジェクト」が2010年には出現しない
  • 2019年は「リスク」「対策」「監査」などの、セキュリティ寄りの名詞が多い

まとめると、プロジェクト(マネジメント)や、セキュリティが出題されるようになっている傾向が読み取れます。

 

STEP2.
高頻出の名詞が、どういった文脈で用いられているか調べる。

 次に、本当にプロジェクトやセキュリティに関するジャンルの出題が多いのか、確認してみました。具体的には、同様にKHcoderを用いて、特定の名詞がどういった文脈で用いられているのかを確認しています。

例えば、2019年で14番目に頻出の単語である「PC」という名詞はどういった文脈で用いられているのでしょうか。

問題文から抽出した、「PC」の周辺にある文章の一覧

特徴を見てみると、
「ウイルスを収集し、自宅のPCに保管」
「PCにウイルスを感染」
「PCのセキュリティ状態の検査」
「PCの不正使用」
「PCのログイン認証」

などと、穏やかでない文脈での使用が多いことがわかります。
詳細は割愛しますが、他の名詞でも同様の傾向が見られました。
どうやら、セキュリティに焦点を当てる方向で良さそうです。

 

STEP3.
2010年だけに出現する名詞と2019年だけに出現する単語のトレンドを調べる。

次に、2010年だけ、または2019年だけに出てくる名詞を調べました。全部はとても紹介しきれませんが、その中から特徴的だと思うものを私の独断で選びました。

大雑把な言い方ですが、傾向は大きく、「開発作業重視からセキュリティ重視」の変更が読み取れました。

2010年だけに出現する名詞(全884語)の例
ジョブ、スタック、ワープロソフト、流れ図、マクロ、組込み、占有、プログラマ、オブジェクト、クライアント、ディスプレイ、ハウジング、ADSL

・2019年だけに出現する名詞(全1,015語)の例
ウイルス、HTTPS、ISMS、証拠、VPN、バイオメトリクス、脆弱、可用性、スコープ、委託、ベンダ、8K、5G、Android、CSR、IoT、MySQL、OSS、アジャイル、AI

最後に、この中から2010年の「流れ図」と2019年の「HTTPS」について、フリーの統計サービス「Googleトレンド」で見てみました。「流れ図」が低下する一方で、「HTTPS」はが緩やかに上昇しています。

Googleトレンド「流れ図」
https://trends.google.co.jp/trends/explore?date=2009-05-30%202019-05-30&geo=JP&q=%E6%B5%81%E3%82%8C%E5%9B%B3

・Googleトレンド「HTTPS」
https://trends.google.co.jp/trends/explore?date=2009-05-30%202019-05-30&geo=JP&q=HTTPS

 

STEP4. ヤマを張るジャンルを決める。

STEP1~3の結果に基づき、「セキュリティ」に決めます。

 

 

まとめ

フリーのツールとオープンな試験問題を使って、ここまで簡単に分析ができました。

現在のデータサイエンス技術であれば、STEP1~4を完全に自動化することや、単語だけではなく文章一文を分析対象とすることも可能です。
これにより、コールセンターにおけるVOCデータやSFAにおける営業担当の入力データを分析し、従来とは比較にならない速度・精度で、顧客ニーズの変化や需要量予測、製品のポジネガ判断等ができます。
また、最も大変だった作業は、ITパスポート試験の問題をテキスト化することでした。試験問題は情報処理推進機構からPDFでオープンにされているとはいえ、画像に近い状態です。

データ活用が可能なデータの要件の一つは、機械が容易に可読であることです。
もし、みなさまの所有データ機械にとって可読性が低いものである場合、まずはデータを整えることを推奨いたします。

著者の紹介

ディレクター 古川 翔
ニフティ株式会社 新卒入社。2010年より自社IaaSの企画・営業・顧客への導入支援コンサル業務に従事。
現在は富士通クラウドテクノロジーズにて、ディレクターの立場で上記に関連する様々なデータ分析プロジェクトを実行中。
 
JDLA Deep Learning for GENERAL 2018
IPA 高度情報処理技術者(ITストラテジスト)

 

 

資料の無料ダウンロード

貴社の事業課題に向けたAI活用の各種資料をご案内いたします。

サラリーマンのためのデータサイエンス基礎講座

非エンジニアの方向けに、データサイエンスの基礎から便利なフレームワーク、そしてデータを直接操作してAI開発を体験できるハンズオンまでを網羅した、人気の半日集中講座を毎月開催しております。