データマイニングの例 バスケの試合の分析 NBAの時計の活用

t f B! P L
例えば、1995年1月6日にニューヨーク・ニックスとクリーブランド・キャバリアーズの間で行われた試合のプレー・プレー・シートを分析すると、マーク・プライスがガード・ポジションを演じたとき、ジョン・ウィリアムズは4回のジャンプショットを試んで、アドバンスドスカウトはこのパターンを見つけるだけでなく、その試合中のキャバリアーズの平均射撃率49.30%とはかなり異なるために、面白いと説明している。
NBAのユニバーサル時計を使用することで、コーチはビデオクリップを自動的に持ち上げて、数時間のビデオ映像を拾うことなく、フロリダの価格でウィリアムズが試みたジャンプショットのそれぞれを表示することができる。
これらのクリップは、
ウィリアムズがオープンジャンプショットを見いだした非常に成功したピックアンドロールプレイを示している。
データマイニングはどのように機能するか?
大規模な情報技術は別々のトランザクションと分析システムに進化してきたが、データマイニングは両者の間のリンクを提供する。
データマイニングソフトウェアは、オープンエンドのユーザークエリに基づいて、格納されたトランザクションデータの関係とパターンを分析する。
いくつかのタイプの分析ソフトウェアが利用できる。統計学、機械学習、ニューラルネットワーク 一般に、以下の4つのタイプの関係のいずれかが求められる。
 クラス:格納されたデータは、所定のグループ内のデータの位置を特定するためにに使用される。
たとえば、レストランチェーンは、顧客の購入データを掘り起こして、顧客がいつ訪れたか、そしてあの人達が通常注文するものを判断することができる。
この情報は、毎日のスペシャルを持ってトラフィックを増やすためにに使用できる。
 クラスタ:データ項目は、論理的関係または消費者の好みに従ってグループ化される。
例えば、市場セグメントまたは消費者の親和性を識別するためににデータを採掘することができる。
 アソシエーション:アソシエーションを識別するためににデータをマイニングできる。
ビールおむつの例は連想マイニングの例。
 逐次パターン:データは、行動パターンと傾向を予測するためにに採掘される。
例えば、屋外の小売店は、消費者の寝袋やハイキングシューズの購入に基づいて、リュックサックが購入される可能性を予測することができる。
データマイニングは5つの主要な要素で構成されている。
 トランザクション・データを抽出し、変換し、データ・ウェアハウス・システムにロードする。
 多次元データベースシステムにデータを格納して管理する。
 ビジネスアナリストや情報技術の専門家へのデータアクセスを提供する。
 アプリケーションソフトウェアでデータを分析する。
 グラフや表などの有用な形式でデータを提示する。
さまざまなレベルの分析が利用できる。
 人工ニューラルネットワーク:訓練を通して学び、構造内の生物学的ニューラルネットワークに似ている非線形予測モデル。
 遺伝的アルゴリズム:遺伝的組み合わせ、突然変異、天然選択などのプロセスを自然進化の概念に基づくデザインで使用する最適化手法。
 意思決定ツリー:意思決定の集合を表すツリー状の構造。
これらの決定は、データセットの分類のためにのルールを生成する。
具体的な決定木の方法には、分類木および回帰木(CART)および二乗自動相互作用検出(CHAID)が含まれる。
 CARTおよびCHAIDは、データセットの分類に使用される意思決定ツリー手法。
これらのルールは、新しい(分類されていない)データセットに適用できる一連のルールを提供し、どのレコードが所定の結果を持つかを予測する。
 CARTは、2ウェイ分割を作成してCHAIDセグメントを作成し、多方向分割を作成してデータセットを分割する。
 CARTは、通常、CHAIDより少ないデータ準備しか必要としなかった。
 最近隣法(Nearest Neighbor Method):ヒストリカルデータセット(k 1)の中で最も似ているkレコードのクラスの組み合わせに基づいて、データセットの各レコードを分類する手法。
 k-最近傍法と呼ばれることもある。
 ルール誘導:統計的有意性に基づいてデータから有用なif-thenルールを抽出する。
 データ視覚化:多次元データにおける複雑な関係の視覚的解釈。
グラフィックスツールを使用してデータの関係を説明する。
どのような技術基盤が必要か?
現在、データマイニングアプリケーションは、メインフレーム、クライアント/サーバー、およびPCプラットフォーム用のすべてのサイズのシステムで利用できる。
システム価格は、最小のアプリケーションの場合は数千ドルから最大の場合は1百万ドルまで。
企業全体のアプリケーションのサイズは、一般に10ギガバイトから11テラバイト以上。
 NCRには、100テラバイトを超えるアプリケーションを提供する能力がある。
 2つの重要な技術的要因がある。
 データベースのサイズ:処理され維持されるデータが多いほど、システムはより強力。
 クエリの複雑さ:クエリが複雑になって、処理されるクエリの数が増えるほど、システムがより強力になる。
関連性データベースのストレージおよび管理テクノロジーは、50ギガバイト未満の多くのデータマイニングアプリケーションに適している。
しかし、このインフラストラクチャは、より大きなアプリケーションをサポートするためにに大幅に強化する必要がある。
店によっては、クエリのパフォーマンスを向上させるためにの豊富なインデックス機能が追加されている。
他のものは、超並列プロセッサ(MPP)などの新しいハードウェアアーキテクチャを使用して、クエリ時間を大幅に短縮する。
たとえば、NCRのMPPシステムは、数百の高速Pentiumプロセッサをリンクして、最大級のスーパーコンピュータのパフォーマンスレベルを超えるレベルを達成する。

人気の投稿

このエントリーをはてなブックマークに追加

プロフィール

こんにちは!ゆうすけと申します。このブログでは、さまざまなジャンルやテーマについての情報やアイデアを共有しています。私自身、幅広い興味を持っており、食事、旅行、技術、エンターテイメント、ライフスタイルなど、幅広い分野についての情報を発信しています。日々の生活で気になることや、新しい発見、役立つヒントなど、あらゆる角度から情報を提供しています。読者の皆さんがインスパイアを受け、新しいアイデアを見つける手助けができれば嬉しいです。どのジャンルも一度に探求する楽しさを感じており、このブログを通じてその楽しさを共有できればと考えています。お楽しみに!

人気記事

ブログ アーカイブ

テキストの遊園地、vimの全オプション

このブログを検索

人気ブログランキングへ


QooQ