これまで AI による分析には、一貫した基準で取得されたビッグデータが必要とされてきました。しかし、少量で不完全なデータであっても、業務に関する知識や経験則、学術的知見などのドメイン知識を組み込むことで分析・予測と意思決定に活用することが可能です。Focal Point では2回にわたり、その考え方と具体的な取り組み方をご紹介します。
DX( デジタルトランスフォーメーション)とは、人間が経験に基づいて暗黙のうちに行っていた意思決定の過程を、客観的な実体がある、検証可能な形に変換することです。客観的な実体とは、データ、予測モデルや、KPI などの評価基準です。これらの過程の全部または一部を担うのが、人工知能(AI)による分析、推論、予測や最適化です。
単純集計や、汎用的な構造を持つ既存の AI を適用するためには、項目や期間の欠損、誤りが少なく、一貫した基準で取得されたデータが大量に必要になります。これがいわゆる「ビッグデータ」です。ビッグデータを収集するためには、専用に設計されたシステムと組織体制が必要で、その構築と運用に費用と時間がかかります。
しかし、ビジネスの現場で、手入力や非定型業務により収集されているデータは、少量で、一部の項目や期間が欠けたり、誤りが含まれていたり、基準や分類が一貫していないことがほとんどでしょう。このようなデータを私は「レガシーデータ」と呼んでいます。レガシーデータをそのまま集計したり、AI に入力したりしても、意思決定に使える結果は得られません。
以下の五つの特徴のうち、少なくとも一つに当てはまるデータを、レガシーデータと呼んでいます(表)。
特徴1
データが少量であること。例えば、データ点数が1,000 点に満たないデータは、従来の AI では対応がほぼ不可能です。データベース上でのレコード数がいくら多くても、業務上必要な値が「月次」の数量の場合、データ取得の期間が「12 カ月」しかなければ、それは「12点のデータ」と同じです。
特徴2
一部の期間のデータが欠けていること。データの入力・収集のためのシステムや組織体制の都合により、古いデータが欠けていることはよくあります。一部の項目でも、長期間にわたって古いデータが欠けていると、汎用的な構造を持つ既存の AI でその項目を利用するのは不可能になります。
特徴3
入力者の手間やデータ収集の都合で、一部の項目が欠けていること。例えば、ある項目の欠損の有無と、その項目の値自体に関係性がある場合、単純集計をすると、欠損している値を含めたこの項目の真の平均などについて、誤った結果が得られてしまいます。汎用的な構造を持つ既存の AI に入力する場合でも、欠損を考慮した形で入力しなければ、やはり結果の信頼性が低くなってしまいます。
特徴4
データ自体に誤りが含まれること。ここでの「誤り」とは、入力者のミスはもちろん、データ収集システムの設計や実装の不具合に起因するものもあり得ます。入力データが誤っていれば、単純集計によって意味のある結果は当然ながら得られません。汎用的な構造を持つ既存の AI を利用する場合は、誤りの法則性を自動的に推測できるわけではないので、分析や予測に有効に活用できません。
特徴5
記録に残す基準や、分類の基準が一貫しないこと。担当者の違い、交代や組織の方針変更などで、記録の残し方や計上の仕方、分類の基準が一貫しない場合があります。担当者の ID が記録されていれば、汎用的な構造を持つ既存の AI でも、同じ担当者に一貫した基準があれば、担当者間のばらつきにある程度対応できます。しかし、同じ担当者の基準が時間の経過によって変動するなど、複雑な場合は対応できません。また、担当者の交代や組織方針の変更に対しては、時期を調べてデータとして入力すれば、ある程度対応できる場合もありますが、汎用的な構造を持つ既存の AI では、基準変更の内容を考慮できるわけではありません。
汎用的な構造を持つ既存の AI は、データのみに基づいて学習します。このため、少量で不完全なデータであっても、過剰に真に受けてしまいます。一方、人間が予測や意思決定を行う場合には、データがある場合でも、データだけではなく、業務の過程や対象に関する知識や経験則、さらにより一般性がある学術的知見などの、いわゆるドメイン知識を織り込んで行います。ドメイン知識をうまく AI に組み込むことができれば、少量で不完全なデータからでも、分析や予測、意思決定を行うことができます。その例として、私たちが提案して開発した、機械の交換部品の需要予測をご紹介します。
レガシーデータによる交換部品の需要予測は可能か
A 社は機械を製造しています。この機械は、故障が発生すれば直ちに修理する必要があります。そのため、交換部品の在庫を確保し、故障発生時には在庫している部品を用いて交換修理をしています。
A 社が求めていたのは、製品の生産開始から生産終了後までの、交換部品の長期的な需要予測です。交換部品の需要を正確に予測し生産計画に反映できれば、速やかに修理できるだけの在庫を確保できる一方、つくり過ぎて不良在庫になることを防げます。しかし、製品の出荷開始から生産終了までの期間が長期にわたり、また実稼働時の故障率を正確に把握できていませんでした。
交換部品の需要は、製品の出荷数の推移と、故障が発生するまでの期間の分布が絡み合って決まります。例えば、製品の出荷が減少し、生産停止となれば、どこかの時点で増大から減少に転じます。しかし、いつ減少に転じるかは、交換部品の出荷数の推移を人間が見ても分かりませんし、汎用的な構造を持つ既存の AI で予測することもできませんでした。
そこで A 社は、「交換部品の出荷実績」だけでなく「対象の交換部品を用いる製品の出荷実績」も用いて、交換部品の出荷数を予測するモデルの開発を私たちに求めました。しかし、データは少量で不完全であり、レガシーデータの特徴を持っていました。データの発生期間は最大でも10年程度で、月次では120 点程度となります。さらに、交換部品の出荷実績については、最初の数年が欠けていました。製品の出荷実績を追加しても、汎用的な構造を持つ既存の AI を適用することはできませんでした。
製品と交換部品のライフサイクルを AI に組み込む
そこで私たちが提案したのが、製品と交換部品のライフサイクルに関するドメイン知識を、数理モデルの形で AI に組み込み、データに不足している情報を補うことです(図)。
製品が出荷され稼働し始めると、組み込まれた部品が、ある確率で故障します。これが故障率です。故障率は、稼働年数や季節、部品や製品の改良により変わります。故障した製品は、稼働年数が長ければ廃棄されますが、多くは部品交換により直ちに修理され、また稼働を始めます。このモデルに製品出荷数と交換部品の出荷数のデータを組み合わせることで、データと整合する故障率や廃棄率を推定することができます。これに基づいてシミュレーションを行うことで、将来の交換部品の出荷数を予測できるようになりました。また、部品の稼働台数も稼働年数別にシミュレーションできるため、改良や保守サービスの設計など、さまざまな施策を計画する際に活用できます。
複雑で不確実な状況への対応が可能に
この手法により、少量で不完全な出荷実績データから、交換部品の需要予測が可能になりました。故障までの年数や、故障の季節性も現場の知識と合っていました。
さらに、改良やモデルチェンジにより、故障率が異なる新しい部品が出荷され、既存の部品と混在するといった複雑なケースについても、これを明示的にモデル化することで、交換部品の需要を予測できるようになりました。また、不確実性を明示的に考慮することで、平均的に予測される出荷数に対して、実際の出荷数がどの程度の振れ幅で上下しそうかを示せるようになりました。これにより、生産計画や在庫管理において、必ず確保しておきたい数量や、余裕があれば確保しておきたい数量などが把握でき、意思決定に利用できるようになりました。
このように、ドメイン知識を数理モデルの形で AI システムに組み込むことで、少量で不完全な「レガシーデータ」からも、意思決定に利用可能な予測を行うことができます。
次回は、ドメイン知識の例や、それを数理モデルの形で AI システムに組み込む方法を紹介し、さらに適用可能な領域や組織の意思決定への影響について紹介します。
関連ページ
プロフィール
日本タタ・コンサルタンシー・サービシズ
IoT 戦略本部
シニアデータサイエンティスト
松崎 潤 (まつざき・じゅん)
東京大学にて博士(農学)を取得後、北海道大学、農業生物資源研究所(現 農業・食品産業技術総合研究機構)、理化学研究所にて研究員を務め、ドメイン知識のモデル化に基づくデータ分析を植物科学に導入した。その後、データ分析企業に転じてさまざまな業種のプロジェクトに従事。製造業をはじめとする顧客向けに、データとモデルを用いた分析、予測および意思決定に関する技術の提案と開発に携わる。
※掲載内容は2021年6月時点のものです。
※ 本記事に関連する寄稿文が、外部メディア『デジタルクロス』でも紹介されています。