中小企業のための IT 活用経営改善ブログ

アーティサン株式会社 沖縄支店から中小企業の皆さまへ、ITを活用し経営改善のヒントとなる情報を配信しています。

機械学習で失敗しないために!

time 2018/02/23

どうもこんにちは!
またまた久しぶりの投稿で恐縮ですが、最近いろいろとAIや機械学習、ディープラーニングというキーワードのセミナーや勉強会が各地で開催されております。

私自身もセミナーや勉強会へ参加したり、ウェビナー見たりして日々勉強しております。

 

その中でセミナーや勉強会で講師が話をされている部分と実際の実案件ではギャップがあると感じており、そのギャップを正しく理解されていないのではないかと感じて、今回ブログとして情報発信しております。

 

私自身、数は多くないですが機械学習の実案件を行った経験があります。
その案件は「大人の事情」があり、スタートする必要があったのですが。。。。。。
スタート時点で機械学習として結果が出ないのは明らかでした。。。。。

 

なので中小企業の皆様には同じような失敗をしてほしくないので、簡単に注意するポイントなどを纏めました。
私自身、まだディープラーニングに関してはよくわかっていないので今回は機械学習に絞ってお話をいたします。

 

ではさっそく!

 

おそらくAIや機械学習というキーワードのセミナーや勉強会に多くの方が参加されていると思いますが、よく以下のような言葉を聞かないですか??

 

「簡単にできます!」

「すぐにできます!」

 

とちょっと待ってくださいね!

上記の「簡単にできます!」、「すぐにできます!」というのは機械学習の実案件(プロジェクト)ではどの工程(作業領域)を指しているか考えたことありますか?

 

私の考えを言うと「簡単に」、「すぐに」はできないということです!

それはなぜか??
と説明する前に機械学習を行う上での大きな流れを説明しますね!
■機械学習の流れ

フロー

◎データの準備
→機械学習に投入するためのデータを整理したり、加工したりする工程を指します。

◎ビルドモデル
→機械学習を行うためのモデル(実際にはアルゴリズムの選定)を作ることを指します。

◎運用
→構築したモデルを見直しして、モデルに投入した列(Feature)およびアウトプットの見直しを指します。
※列をFeatureと呼ぶそうです。この前、Microsoft畠山さんに教えて頂きました(笑)

 

上記の3つの行程で一番、工数(時間)がかかるのはどの工程だと思いますか????

 

 

 

 

 

 

そう。「データの準備」です。

でよく、セミナーや勉強会で言っている「簡単に」、「すぐに」というのは2番目の行程である「ビルドモデル」の部分となります。
というか私はそう思っています。というか確実にそうです。

 

Microsoftが提供している「Azure Machine Learning」をはじめ大抵の機械学習ツール(サービス)があらかじめ、基本的な統計学アルゴリズムを用意しております。

ユーザとしてはそのアルゴリズムを以下の画面のようにマウスでドラッグ&ドロップすればよいわけです!

配置

 

マウスでドラッグ&ドロップするだけなのでほとんどの方が「簡単に」、「すぐに」できるのではないかと思います。

なのでセミナーや勉強会で「簡単に」、「すぐに」という言葉を鵜呑みにすると痛い目にあいます。。。。確実に
だからといって機械学習の利活用することを否定しているわけではありません。
ちゃんと機械学習の流れなどを理解して頂きたいのです!

 

上記までの説明で「簡単に」、「すぐに」というキーワードがどの工程(作業領域)を指しているかご理解いただけたのではないでしょうか?

 

続いては一番、工数(時間)がかかると説明した「データの準備」に関してですが、なぜ工数がかかるかと言ったら単純にデータの整理には時間がかかりますし、一番重要な作業だからです。
※機械学習にかけるということはそれなりのデータ量になると思います。数十件であれば大したことないですがそれだと機械学習にかける理由があまりありません。

 

機械学習ではデータをInput(入力)としてOutput(出力)ができます。
なのでおかしなInputであれば当然、おかしなOutputしかでません。

 

「データの準備」でよくある問題が以下です。

①列(Feature)に投入できるデータがない(機械学習では以下のようなデータが必要です)
※よくあるのが列と行が入れ替わっていたり、個票形式なデータになっていたり
図1

②お客様がデータの項目や値の意味合いを正しく把握していない

③上記②に関係してデータの例外値の判断ができない
※例えば身長の列に「男」、「女」などの値が設定されているのが例外値

 

「データの準備」では上記の①、②、③に関して確認、整理、定義したりする必要があります。
なので時間がかかるのです!

 

最後に「運用」です。
こちらも工数がかかります。
「運用」に関しては単純に列(Feature)とOutputを評価・検証する作業を繰り返し行うためです。
※機械学習では最初に作ったモデルそのままということはまず、ありえません。

 

と簡単ではありますが、機械学習を行う上での流れを説明しました。

 

ただ、一番重要な以下なので注意してくださいね!(笑)

 

 

■目的(ゴール)の明確化
→なぜ機械学習を使うのか?何を解決したいのか?

 

これがないと評価・検証のしようがありません。(笑)
最近では機械学習を使うことが目的となっているのをたまに見かけます。。。。。

 

機械学習はあくまで道具(ツール)なので何を解決するために?
ということを明確(明文化)にしてください!!

でなければ社長や役員から無茶ぶりされた現場がデスマーチとなります。(笑)

 

 

といろいろ書きましたが、もし機械学習などに関してもお悩みがありましたらお気軽にご連絡ください。
■連絡先
okinawa@artisan.jp.net

 

down

コメントする




アーティサン 沖縄支店

アーティサン株式会社 沖縄支店が運営しているブログです。 [詳細]

お問い合わせ先

okinawa@artisan.jp.net