データサイエンティストのフレームワーク:To Achieve 99% Accuracy

はじめに

blogを読んでくれてありがと!data scientistを目指す将来的にUSJを立て直した森岡さんみたいなマーケターになりたい(要言語化

この記事の目的

これからKaggleを解きながら腕を磨いていくけど、その前にどの手順でKaggleを解くべきなのかから学ぶためにKaggleから引っ張ってきたものを翻訳してくよ

データサイエンティストのフレームワーク

1.問題の定義

データサイエンス、ビッグデータ機械学習、予測分析、ビジネスインテリジェンス、その他のバズワードが解決策であるとき、本当に解決したい問題は何? 諺のとおり、荷車を馬の前につないではならない(本末転倒なことはしてはならない)。 まず問題を定義して、要件を整理。そこから解決策を考えて、戦術を練り最後にテクノロジーを頼ります。 私たちが解こうとしている実際の問題を定義する前に、最先端のテクノロジーアルゴリズムに飛びつきがちです。まず最初にするべきは問題の定義です。

2.データ収集

John Naisbittは、1984年に出版したMegatrendsに「我々は博識にも関わらず、データに溺れている」と書いています。つまりチャンスそこにあります、データセットはすでにどこかにさまざまな形式で存在しているのです。データは 内部にあるかもしれないし外部にあるかもしれない、構造化データかもしれないしい非構造化データかもしれない、静的データかもしれないし動的かもしれない、はたまた客観的データかもしれないし主観的データかもしれない。 ことわざにあるように車輪を再発明する必要はありません(データをいちから取得する必要はありません)ただデータがどこにあるか調べればいいのです。次のステップでは「ダーティデータ」を「クリーンデータ」に変換します。

3.分析のためのデータ前処理

このステップはデータラングリング(データを自由自在の扱うこと)とよく呼ばれています。データサイエンスでは“wild” データを “manageable”データに処理する必要があります。データラングリングは多岐に及ぶ。保管および処理のためのデータ・アーキテクチャを実装、品質と管理のためのデータガバナンス標準を開発、データ抽出(例えばETL処理やウェブスクレイピング)、およびデータクリーニングを手法を駆使し、異常値、欠損値、外れ値の処理まで含まれる。

4.探査分析の実行

データを扱ったことがある人は誰でも、ガーベッジ・イン、ガーベッジ・アウト(GIGO)を知っています。 ゆえに、データセット内の潜在的な問題、パターン、分類、相関および比較を探すための説明的およびグラフィカルな統計を展開することが重要です。 さらに、データ分類(すなわち、定性的、定量的)には正確な仮説検定やデータモデルを理解し、選択することが重要です。

5.モデリング

記述的および推論的統計と同様に、データモデリングはデータを要約するか、将来の結果を予測することができます。 データセットと期待される結果は、使用可能なアルゴリズムを決定します。 アルゴリズムはツールであり、魔法の杖や銀の弾丸ではないことを覚えておくことが重要です。 あなたは仕事に応じた正しい道具を選択する方法を知っている職人でなければなりません。 あなたにフィリップスのドライバーを手渡すように尋ねるアナリストは、あなたにはマイナスのドライバーまたは最悪のハンマーを渡します。 せいぜい、それは全く持って理解が足りていないことを教えてくれるにすぎません。 最悪の場合、プロジェクトを完遂できません。 データモデリングでも同じことが言えます。 モデルが間違っていると貧弱なパフォーマンスを発揮し、最悪の場合は実行可能な解決策として誤った方策が導き出されます。

6.データモデルの検証と実装

データのサブセットに基づいてモデルを訓練した後は、モデルをテストする必要があります。 これにより、選択したサブセットに対してモデルを過度にフィットさせないようにしたり、同じデータセットの別のサブセットに正確に適合しないようにすることができます。 このステップでは、モデルがデータセットをオーバーフィットしているか、一般化できているか、またはアンダーフィットしているかどうかを判断します。

7.最適化と戦略

これは "バイオニック・マン"のステップです。ここでは、よりよく、より強く、より早いモデルをつくるためのプロセスを繰り返し繰り返し行います。データサイエンティストとして、開発業務とアプリケーション実装は他の人に任せましょう。そして、建策や設計により長い時間を費やします。 アイデアをパッケージ化できたら、これはあなたの「為替レート」になります

最後に

もっと自然な日本語に翻訳できるように英語も勉強が必要ですね… イディオムが分からんとこ結構ある、為替レートってなんですか?? 間違いなどがあれば指摘していただけると嬉しいです blogを書くのは初めてだけど、ずっと続けられるように頑張ります!!

引用

A Data Science Framework: To Achieve 99% Accuracy