統計学の基礎から学ぶデータ分析入門

目次

「統計学なんて無理」って思ってた私の話

2017年の夏、私は完全に詰んでた。クライアントから「売上予測のモデルを作ってほしい」って依頼が来て、Excelの数式だけじゃどうにもならない状況に陥ってた。Webエンジニアとして15年やってきたから、HTMLもCSSもJavaScriptも書けるし、PHPでシステムも作れる。でも統計学?大学の講義で単位を落としたレベル。完全に逃げてきた分野だった。

「平均」「分散」くらいは何となくわかる。でも「標準偏差」「相関係数」「回帰分析」とか、もう頭がパンクしそう。統計学の教科書を開いた瞬間、ギリシャ文字とシグマ記号の嵐で、3秒で本を閉じた。正直、当時の私は「これ、本当に実務で使うの?」って疑ってた。

カフェでノートパソコンを開き統計学の参考書に困惑する30代男性の線画イラスト

でも逃げられなかった。請けた以上は何とかしないといけない。報酬も結構いい金額だったし、何より信頼してくれてるクライアントを裏切りたくなかった。仕方なく「統計学 初心者」「データ分析 入門」でググりまくって、YouTubeのチュートリアル見て、Pythonのコード写経して…毎晩2時まで勉強して、気づいたら3ヶ月経ってた。

正直、最初の1ヶ月は何やってるかわからなかった。Pandasっていうライブラリでデータを読み込んで、なんかグラフ作って、数字が出てくる。でも「これが何を意味してるのか」がわからない。クライアントに見せても「で、結局どういうこと?」って聞かれて、うまく説明できなくて冷や汗かいた。

でも2ヶ月目くらいから、少しずつ霧が晴れてきた。データを見るとき、「平均だけじゃなくて、バラつきも見ないと意味がない」とか、「相関が高いからって因果関係があるわけじゃない」とか、そういう「勘所」みたいなものが何となくわかってきた。

そこで発見したのは、統計学って思ってたより「普通」だったってこと。数式を完璧に理解する必要はなくて、「何ができるか」「どう使うか」「結果をどう解釈するか」がわかれば、実際の案件はこなせる。もちろん、理論がわかってる方がいいけど、それは後から学んでもいい。

この記事では、「統計学って難しそう」って思ってるあなたに向けて、最短ルートでデータ分析を学んで副業で稼ぐ方法を話していく。私がこれまで200人以上の初心者をメンタリングしてきた経験から、リアルにつまずくポイントと、その乗り越え方を包み隠さず伝える。遠回りしなくていい。私が失敗した分、あなたは最短距離で進んでほしい。

なぜみんな統計学で挫折するのか

統計学を学ぼうとして挫折する人、めちゃくちゃ多い。私がメンタリングしてきた中でも、最初の1ヶ月で音信不通になる人が3割くらいいる。でもそれって、本人の能力の問題じゃなくて、学び方が間違ってるだけなんだよね。

数式から入って心が折れる

これ、初心者が必ずハマる罠。統計学の教科書って、いきなり「正規分布」とか「標準正規分布表」とか、数学的な話から始まる。で、ページ開いたら数式だらけ。「σ(シグマ)」とか「μ(ミュー)」とか、ギリシャ文字の嵐。「これってどこで使うの?」「これ覚えないとダメ?」ってなって、モチベーションがゼロになる。

私も最初、統計学の本を3冊買った。でも全部、最初の30ページで挫折した。数式を追うのに疲れて、「自分には向いてない」って思った。今思えば、あの時間がもったいなかった。

実際のデータ分析の仕事って、数式を手で計算することはほぼない。Pythonのライブラリが全部やってくれる。私らがやるべきことは、「どの手法を使うか」「結果をどう解釈するか」「クライアントにどう説明するか」。この3つができれば、副業レベルの案件は十分こなせる。

最初の案件で作った売上予測モデルなんて、scikit-learnのサンプルコードを10行くらいいじっただけ。正規分布の数式なんて一つも書いてない。でもクライアントは「これで意思決定の精度が上がった」って喜んでくれたし、報酬も15万円もらえた。完璧な理論より、動くものを作る方が100倍価値がある。

特に副業で稼ぎたいなら、理論は後回しでいい。まず手を動かして、データを触って、グラフを作って、結果を出す。それができるようになってから、「もっと精度を上げたい」「この手法の背景を知りたい」って思ったときに、理論を学べばいい。順番を間違えないこと。

「統計学=データサイエンティストになる」という誤解

「統計学を学ぶ=博士号が必要」「データサイエンティストは修士以上じゃないとなれない」みたいな思い込み。これもよく聞く。確かに、GAFAMとかで働いてるデータサイエンティストは、めちゃくちゃ高学歴で、論文も書いてて、数学もバリバリできる人たちが多い。

でも副業レベル、初心者レベルなら、そこまでの知識はいらない。というか、そんなレベルを目指してたら、いつまで経っても案件取れない。

実際に必要なのは:

  • CSVやExcelファイルからデータを読み込んで集計できる
  • 欠損値や異常値を適切に処理できる
  • 平均、中央値、標準偏差を計算して解釈できる
  • 折れ線グラフ、棒グラフ、散布図を作れる
  • 簡単な予測(回帰分析)ができる
  • 結果をわかりやすい日本語で説明できる

これだけ。これができれば、月5万円~10万円くらいの案件は普通に取れる。統計検定とか資格があると確かにプラスにはなるけど、まずは「手を動かせる」「結果を出せる」ことが最優先。資格の勉強は、案件を何個かこなしてから考えればいい。

実際、私がメンターしてる受講生の中で、一番早く案件取れたのは26歳の営業職の女性。プログラミング経験ゼロから始めて、3ヶ月後には「Excel業務の自動化」の案件で8万円稼いでた。彼女が使ったのは、Python、Pandas、Matplotlibだけ。統計検定も持ってないし、大学も文系。でも「クライアントの課題を解決する」ってことに集中したから、結果を出せた。

逆に、理論にこだわりすぎて案件が取れない人もいる。統計学の本を5冊読んで、Courseraの講座も全部修了して、それでも「まだ準備不足かも」って言って動かない。もったいない。完璧主義は、副業では敵。60点でいいから、とにかく納品する。そのほうが100倍成長できる。

ツールに振り回される

「Pythonがいいって聞いたから」「Rの方が統計に強いって言われた」「Excelじゃダメなの?」「Tableauも必要?」「JupyterとGoogle Colabどっち?」。ツール選びで悩んでる時間、めちゃくちゃもったいない。

私のところに相談に来る初心者の半分くらいが、「どのツールを学べばいいですか?」って聞いてくる。気持ちはわかる。せっかく時間かけて勉強するんだから、無駄にしたくないもんね。でも、ツール選びで1ヶ月悩むくらいなら、とりあえずPython触り始めた方が100倍マシ。

結論から言うと、副業で稼ぐならPython一択。理由は簡単で、案件が圧倒的に多いから。クラウドワークスやランサーズで「Python データ分析」って検索すると、山ほど出てくる。しかも単価も悪くない。月5万円~30万円くらいの案件がゴロゴロある。

Rも優秀だよ。統計処理に特化してるから、学術研究とかには向いてる。でもビジネスの現場では、Web開発やAI開発と組み合わせにくい。「データ分析だけ」なら問題ないけど、その後のキャリアの幅が狭まる。

Pythonなら、データ分析の後に機械学習やWeb APIも学べるし、スクレイピングとかも できる。つまり、スキルの横展開がしやすい。「今月はデータ分析の案件、来月はWeb開発の案件」みたいな動き方ができる。副業でやるなら、これが大事。

Excelはどうか?確かに、Excel VBAでも簡単な分析はできる。でも限界がある。データ量が多いと重くなるし、複雑な処理は書きにくい。何より、「Excel VBA データ分析」の案件って、単価が低い。時給換算したら1000円とかザラ。

だから、最初から Pythonに投資した方がいい。Progateで2週間、基礎を学ぶ。そこからPandasを1ヶ月触る。これだけで、もう案件取れるレベルになる。遠回りしないこと。

深夜、自宅の机でPythonのコードを書きながら悩む表情の20代女性の線画イラスト

統計学の基本と最短ルート学習ロードマップ

ここからが本題。統計学って結局何なのか、どうやって学べば効率がいいのか。私が3年かけて試行錯誤した結果を、ギュッと凝縮して伝える。

統計学って結局何なの?

一言で言うと、「データから意味を引き出す技術」。データをただ眺めてても何もわからない。100行のExcelを見て「ふーん」で終わり。でも統計学を使うと、「どんな傾向があるか」「どう予測できるか」「この差は偶然か本当か」「どの施策が効果的か」がわかる。

たとえば、あるECサイトの売上データがあったとする。日別の売上が並んでる。ただ見てるだけだと「まあ、波があるな」くらいしかわからない。でも統計学を使うと:

  • 「平均売上は1日50万円で、標準偏差は15万円」→だいたい35万円~65万円の範囲に収まる
  • 「月曜日は売上が20%低い」→週末に集中してプロモーションする
  • 「気温が25度を超えると、飲料の売上が30%増える」→夏場は在庫を増やす
  • 「過去3ヶ月のトレンドから、来月の売上は180万円」→仕入れ計画を立てる

こういうことがわかる。これが統計学の力。

統計学は大きく2つに分かれる:

記述統計:データを要約する。平均とか、グラフとか。「今どうなってるか」を把握する。まずはここから。データの全体像を掴むための技術。

推測統計:データから未来や全体を推測する。「来月の売上はいくらか」「この施策は本当に効果があるか」を予測・検証する。ここまでできると、単価が上がる。

副業レベルなら、まずは記述統計をしっかり押さえる。平均、中央値、分散、標準偏差、相関係数。この5つができれば、初心者向け案件の8割は対応できる。推測統計(回帰分析、仮説検定)は、そのあと余裕があれば学べばいい。

焦らないこと。統計学は範囲が広いから、全部やろうとすると挫折する。「今の自分に必要な部分だけ」を学ぶ。これが最短ルート。

初心者が最初に押さえるべき3つの概念

1. データの中心を掴む(平均・中央値)

データの「真ん中」を知る方法。平均は全部足して個数で割る、あれ。中央値は、データを並べて真ん中にある値。

import pandas as pd

# サンプルデータ
data = [10, 20, 30, 40, 50, 100]  # 最後の100は外れ値

# 平均値
mean_value = sum(data) / len(data)  # 41.67
print(f"平均値: {mean_value}")

# 中央値
sorted_data = sorted(data)
median_value = sorted_data[len(data)//2]  # 30と40の間
print(f"中央値: {median_value}")

外れ値(極端に大きい/小さい値)があるとき、平均は引っ張られちゃうけど、中央値は影響受けにくい。年収データとかでよく使う。

2. データのバラつきを掴む(分散・標準偏差)

データがどれくらい散らばってるか。全員が同じ値なら分散はゼロ。バラバラなら分散は大きい。

import numpy as np

data = [10, 20, 30, 40, 50]

# 分散
variance = np.var(data)
print(f"分散: {variance}")

# 標準偏差(分散の平方根)
std_dev = np.std(data)
print(f"標準偏差: {std_dev}")

標準偏差は分散の平方根で、元のデータと同じ単位だから解釈しやすい。「平均±標準偏差」の範囲に、だいたいデータの7割が入る。

3. 2つのデータの関係を掴む(相関係数)

「気温が上がると、アイスが売れる」みたいな関係性を数値化したもの。-1から1の間の値で、1に近いほど「片方が増えるともう片方も増える」、-1に近いほど「片方が増えるともう片方は減る」。

import pandas as pd

# サンプルデータ
df = pd.DataFrame({
    '気温': [20, 25, 30, 35, 40],
    'アイス売上': [100, 150, 200, 250, 300]
})

# 相関係数を計算
correlation = df['気温'].corr(df['アイス売上'])
print(f"相関係数: {correlation}")  # 1.0に近い値

相関が高いからって、必ずしも因果関係があるわけじゃない。「アイスが売れると溺死者が増える」みたいな見せかけの相関(擬似相関)もあるから注意。

メンターから統計学の基本を学ぶ受講生の線画イラスト

学習ロードマップ(3~6ヶ月)

私がメンターしてきた人たちで、一番成功率が高かったプラン。このロードマップ通りにやって、6ヶ月以内に初案件取れた人は8割以上。遠回りしたくない人は、このまま進めてほしい。

ステップ1:Pythonの基礎(1~2ヶ月)

統計学の前に、Pythonが書けないと話にならない。でも、全部学ぶ必要はない。Webアプリを作るわけじゃないから、FlaskもDjangoもいらない。データ分析に必要な部分だけ、サクッと学ぶ。

必要最小限:

  • 変数の使い方(数値、文字列、True/False)
  • if文(条件分岐)
  • for文、while文(繰り返し処理)
  • リスト、辞書(データをまとめて扱う)
  • 関数の定義と呼び出し
  • CSVファイルの読み書き

これだけ。オブジェクト指向とか、クラスとか、デコレータとか、最初は無視していい。データ分析では、ほとんど使わない。

おすすめの学習方法は、Progateの Pythonコース。月額1,078円で、ブラウザだけで学べる。環境構築もいらない。1周目はわからなくてもいいから、とにかく最後まで進む。2周目で理解を深める。これで1ヶ月。

YouTubeの無料チュートリアルでもいい。「Python 入門」で検索すれば、いい動画がたくさん出てくる。ただし、動画は受け身になりがちだから、必ず自分で手を動かすこと。写経するだけでも、かなり力がつく。

この段階で、「完璧にわかった!」ってならなくて大丈夫。6割くらい理解できてれば次に進む。実際にデータを触りながら、Pythonも同時に学んでいくイメージ。

私自身、Pythonの基礎を学んだとき、for文の書き方を何回も忘れた。でも、実際にデータ分析で毎日使ってるうちに、自然と覚えた。完璧主義は捨てること。

ステップ2:データ操作の基礎(1~2ヶ月)

Pandasを使ったデータ処理。これが一番重要。実務の7割はこれ。Pythonの基礎が6割理解できてれば、もうここに進んでいい。

Pandasって、Excelみたいにデータを表形式で扱えるライブラリ。CSVを読み込んで、行や列を選んで、計算して、グラフ作って…みたいなことが、コード数行でできる。これが使えるようになると、一気に世界が開ける。

import pandas as pd

# CSVファイルを読み込む
df = pd.read_csv('sales_data.csv')

# データの最初の5行を表示
print(df.head())

# データの基本統計量を表示(平均、最大値、最小値など)
print(df.describe())

# 欠損値(空白のセル)を確認
print(df.isnull().sum())

# 欠損値を平均値で埋める
df['price'].fillna(df['price'].mean(), inplace=True)

# 月ごとに売上を集計
monthly_sales = df.groupby('month')['sales'].sum()
print(monthly_sales)

# 特定の条件でフィルタリング(売上が10万円以上)
high_sales = df[df['sales'] >= 100000]
print(high_sales)

最初は、このコードの意味がわからなくてもいい。とにかく写経する。そして、自分のデータで試してみる。「あ、こうやってデータ選ぶのか」「こうやって集計するのか」って、体で覚える。

おすすめの練習方法は、Kaggleの「Titanic問題」。タイタニック号の乗客データから、誰が生き残ったかを予測する問題。無料で使えるし、解説記事も山ほどある。これをやると、データ処理の基本がひと通り学べる。

実際、私がメンターしてる受講生には、全員にTitanic問題をやってもらってる。最初は「何これ、意味わかんない」って言ってた人も、2週間くらいで「なんか楽しくなってきた」って変わる。データを触る感覚が掴めると、急に面白くなる。

この段階でも、完璧を目指さないこと。「データの読み込み」「欠損値の処理」「基本的な集計」ができれば、もう次に進んでいい。細かい関数は、必要になったときにググればいい。

ステップ3:可視化と統計の基礎(1~2ヶ月)

Matplotlibでグラフ作成、基本的な統計量の計算。ここまでできると、もう初心者向け案件は取れる。

グラフが作れると、データの傾向が一発でわかる。クライアントへの説明も100倍楽になる。数字の羅列を見せるより、グラフ1枚見せた方が、圧倒的に伝わる。

import matplotlib.pyplot as plt
import pandas as pd

# データを用意
df = pd.read_csv('sales_data.csv')

# 折れ線グラフ(売上の推移)
plt.figure(figsize=(10, 6))
plt.plot(df['date'], df['sales'])
plt.xlabel('Date')
plt.ylabel('Sales')
plt.title('Sales Trend')
plt.xticks(rotation=45)  # 日付が重ならないように斜めに
plt.tight_layout()
plt.show()

# 棒グラフ(商品別売上)
plt.figure(figsize=(10, 6))
plt.bar(df['product'], df['sales'])
plt.xlabel('Product')
plt.ylabel('Sales')
plt.title('Sales by Product')
plt.show()

# 散布図(気温とアイス売上の関係)
plt.figure(figsize=(10, 6))
plt.scatter(df['temperature'], df['ice_cream_sales'])
plt.xlabel('Temperature')
plt.ylabel('Ice Cream Sales')
plt.title('Temperature vs Ice Cream Sales')
plt.show()

最初はサンプルコードをコピペして、自分のデータに当てはめる。色を変えたり、タイトルを変えたり、ちょっとずついじってみる。そうすると、「こうすればこう変わるのか」って感覚が掴める。

統計の基礎も、この段階で触る。平均、中央値、分散、標準偏差、相関係数。全部Pandasで計算できる。

# 平均値
mean_sales = df['sales'].mean()

# 中央値
median_sales = df['sales'].median()

# 標準偏差
std_sales = df['sales'].std()

# 相関係数(気温とアイス売上)
correlation = df['temperature'].corr(df['ice_cream_sales'])
print(f"相関係数: {correlation}")

ここまでできれば、もう「データ分析の基礎」は身についてる。あとは案件をこなしながら、必要なスキルを足していけばいい。

ステップ4:予測モデルの基礎(1ヶ月)

scikit-learnで回帰分析。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

# データ準備(例:気温からアイス売上を予測)
X = df[['temperature']]  # 説明変数
y = df['ice_cream_sales']  # 目的変数

# データを訓練用とテスト用に分割
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# モデルを作成して訓練
model = LinearRegression()
model.fit(X_train, y_train)

# 予測
y_pred = model.predict(X_test)

# 精度を確認
mse = mean_squared_error(y_test, y_pred)
print(f"平均二乗誤差: {mse}")

# 新しいデータで予測
new_temp = [[35]]  # 気温35度のとき
predicted_sales = model.predict(new_temp)
print(f"予測売上: {predicted_sales[0]}")

線形回帰は一番シンプルだけど、実際の案件でめちゃくちゃ使う。売上予測、価格推定、需要予測…応用範囲が広い。

自宅でPythonのグラフ作成に成功し喜ぶ表情の40代男性の線画イラスト

副業案件を取るための実践テクニック

ここからが一番大事。スキルを学んでも、案件が取れなきゃ意味がない。私がこれまで見てきた中で、「スキルはあるのに案件が取れない人」と「スキルは普通だけどバンバン案件取れる人」の違いを話す。

どんな案件があるのか(現実の話)

統計学やデータ分析の案件って、実はめちゃくちゃ幅が広い。「データサイエンティスト募集!月額80万円!」みたいな高単価案件もあれば、「Excel集計を自動化したい」みたいな案件もある。

初心者が狙うべきは、後者。理由は簡単で、競合が少ないから。

初心者でも取れる案件(月5~15万円)

  • ExcelデータをPythonで自動集計
  • 売上データの月次レポート作成
  • CSVファイルの整理・統合
  • アンケートデータの集計とグラフ作成
  • 簡単なダッシュボード作成(Streamlitとか)
  • 在庫データの可視化

これらの案件、実は「データ分析」「統計学」っていう言葉が使われてないことが多い。「Python Excel 自動化」「CSV 集計」みたいなキーワードで検索すると、山ほど出てくる。

私が初めて取った案件は、「飲食店の売上データを集計してグラフにする」っていうやつ。報酬は6万円。Pandasで読み込んで、月別・曜日別・商品別に集計して、Matplotlibでグラフ作って、PDFにまとめた。コード書いてる時間は実質5時間くらい。でも、資料をまとめたり、クライアントとやり取りしたり、修正したりで、トータル15時間くらいかかった。時給4000円。初案件にしては、まあまあだった。

中級者向け案件(月15~30万円)

  • 売上予測モデルの構築(回帰分析)
  • 顧客セグメンテーション(クラスター分析)
  • A/Bテストの分析と報告
  • マーケティングデータの分析
  • 在庫最適化のシミュレーション

こっちは、ある程度経験を積んでから。最初の3~5案件をこなしてから、こういう案件にチャレンジする。単価は高いけど、求められるレベルも上がる。クライアントとのコミュニケーション、仮説の立て方、分析の設計、これ全部できないといけない。

最初は初心者向け案件を狙う。経験ゼロでも、Pythonとpandasが使えれば十分取れる。「完璧じゃない」「まだ勉強中」とか思っても、とりあえず応募する。落ちても減るもんじゃない。10件応募して、1件取れればラッキー。そういうゲーム。

クラウドソーシングでの戦い方(実体験)

いきなり「データサイエンティスト募集!実務経験3年以上!」みたいな案件に応募しても、まず取れない。競争が激しすぎるし、実績ゼロの人間に依頼する理由がない。

じゃあどうするか。ちょっと視点を変えて、「データ分析」って言葉が使われてない案件を探す。

私が初心者に勧めるのは:

  • 「Excelの集計作業を自動化したい」
  • 「売上データをグラフにしてほしい」
  • 「CSVファイルの整理・結合をお願いしたい」
  • 「アンケート結果を集計してレポートにしたい」

これら、表向きは「データ分析」って書いてないけど、実は同じスキルセットで対応できる。しかも、「Python Excel」で検索してる人の方が、「データ分析」で検索してる人より圧倒的に少ない。つまり、競合が少ない。ブルーオーシャン。

最初の案件獲得までの流れ:

  1. クラウドワークス、ランサーズ、ココナラに登録
  2. 「Python Excel 自動化」「CSV 集計」で検索
  3. 低単価(3万円~5万円)でもいいから、とにかく応募
  4. 10件応募して、2~3件面談まで進む
  5. 1件受注できればラッキー
  6. 納品して、評価をもらう
  7. 実績ができたら、次は単価を上げる

1件目は正直、時給換算したら500円とかだった。報酬3万円の案件に、休日丸2日使った。でも、実績ゼロから抜け出すために必要な投資だと割り切った。2件目は5万円、3件目は8万円、5件目には15万円の案件が取れた。

実績ができると、クライアントの方から声がかかるようになる。「また次回もお願いしたい」「知り合いを紹介したい」。これが一番おいしい。新規営業しなくても、案件が回ってくる。

あと、プロフィール写真と自己紹介文は、ちゃんと書くこと。「Python, Pandas, Matplotlibが使えます。迅速丁寧に対応します」じゃ弱い。「Web系エンジニアとして10年の経験があり、最近データ分析を学びました。クライアントの業務効率化に貢献します」みたいに、背景とメリットを書く。

提案文の書き方(テンプレート公開)

提案文って、めちゃくちゃ大事。同じスキルレベルでも、提案文次第で選ばれるかどうかが変わる。クライアントは忙しい。パッと見て「この人に頼めば解決しそう」って思わせないと、読んでももらえない。

悪い例:

はじめまして。Pythonでデータ分析ができます。
統計学も勉強しました。真面目に取り組みます。
ぜひよろしくお願いします。

何がダメか?「何ができるか」が具体的じゃない。「統計学も勉強しました」って言われても、クライアントは「で、それで私の課題が解決するの?」ってなる。

良い例:

お世話になります。Excelデータの集計・可視化について、
Pythonを使った自動化で対応可能です。

具体的には:
- CSVから自動でデータ読み込み
- 売上推移、商品別分析のグラフ自動生成
- 月次レポートをPDF出力
- 欠損値や異常値の自動処理

過去に似た案件で、手作業30時間→自動化後5分に短縮した実績があります。
(サンプルコード:[GitHubリンク])

納期は1週間を想定していますが、ご相談可能です。
ご予算○○円で検討させていただきたく存じます。

何かご不明点がございましたら、お気軽にお問い合わせください。

この差、わかるよね?下の方が圧倒的に選ばれる。「何ができるか」を具体的に書く。「クライアントのメリット」を明確に伝える。「実績」があれば書く。なければ、「サンプルを作りました」でもいい。

あと、金額は最初から書いた方がいい。「要相談」「予算に応じます」だと、クライアントは「この人、高そう」って思って敬遠する。初心者のうちは、相場よりちょっと安めに設定して、実績を積む。

実績ができたら、徐々に単価を上げる。最初の3案件は「実績作りのための投資」って割り切る。4案件目からは、ちゃんと利益を出す。これが戦略。

ポートフォリオの作り方

GitHubに3~5個のプロジェクトを載せておく。これがあるだけで、提案の通過率が2倍くらい違う。「実際のコードが見たい」ってクライアントは意外と多い。

おすすめテーマ:

  • 公開データセット(気象データ、人口統計、株価データなど)の分析
  • Kaggleの入門問題(Titanicとか)の解答
  • 自分の興味あるテーマ(映画レビュー分析、スポーツデータ分析とか)
  • 架空の業務データ(売上、在庫、顧客データ)を自分で作って分析

完璧じゃなくていい。「こういう分析ができます」って示せればOK。コードにコメント付けて、README.mdで説明書くだけ。

README.mdには:

  • プロジェクトの概要
  • 使用技術(Python, Pandas, Matplotlibなど)
  • 分析の目的と結果
  • グラフやレポートのスクリーンショット

私の最初のポートフォリオは、自分で作った架空の「カフェの売上データ」を分析したやつ。曜日別、時間帯別、商品別に集計して、「平日の午後が売上が低い→この時間にプロモーションすべき」みたいな結論をまとめた。データは自分でExcelで作った。でも、これで3件目の案件が取れた。

GitHub使ったことない人は、最初は戸惑うかもしれない。でも、慣れれば簡単。「GitHub 使い方 初心者」でググれば、わかりやすい記事がたくさん出てくる。1時間もあれば、基本的な使い方は覚えられる。

ポートフォリオは、一度作ったら終わりじゃない。案件をこなすたびに、アップデートしていく。「こういう分析もできます」「こんな業種の経験もあります」って、実績が増えるたびに追加する。これが営業ツールになる。

初めての案件獲得に緊張しながらパソコンに向かう様子の線画イラスト

よくある質問(FAQ)

Q1: 数学が苦手でもできますか?

できる。中学レベルの数学(四則演算、グラフの読み方)がわかれば十分。私も数学は大の苦手だったけど、何とかなってる。

統計学の「理論」を完璧に理解する必要はない。「何ができるか」「どう使うか」がわかれば、初心者レベルの案件には十分対応できる。

Q2: 学習にどれくらいの期間が必要?

プログラミング経験がある人なら3~4ヶ月。完全初心者なら6ヶ月。ただし「毎日2~3時間学習」が前提。

週末だけとか、1日30分とかだと、倍以上かかる。でも、続ければ必ず到達できる。スキマ時間をうまく使うのがコツ。通勤時間に理論を読んで、帰宅後にコード書くとか、昼休みにKaggleの問題を眺めるとか。

私がメンターしてる中で、一番早く案件取れたのは、毎日3時間コツコツやった人。3ヶ月半で初案件。逆に、「週末だけやります」って言ってた人は、1年かかってもまだ案件取れてない。継続が全て。

Q3: おすすめの学習リソースは?

無料:

  • YouTube(プログラミング系チャンネル、「Python 入門」「Pandas チュートリアル」で検索)
  • Kaggle(実践的な練習、コンペに参加しなくても問題だけ解ける)
  • Google Colab(環境構築不要、ブラウザだけでPythonが書ける)
  • 公式ドキュメント(Pandas, Matplotlib, scikit-learn)

有料:

  • Udemy(セール時1500円、買い切り。「Python データ分析」で検索)
  • Progateの Python & SQLコース(月額1,078円)
  • 書籍「Pythonではじめるデータ分析」「完全独習 統計学入門」

スクールは月10万円~30万円とかする。正直、独学で3~4ヶ月やってみて、どうしても無理だったら検討すればいい。私は完全独学でやったけど、何とかなった。大事なのは、金額より「継続できるかどうか」。

Q4: どのOSがいい?MacとWindowsどっち?

どっちでもいい。Pythonはどちらでも動く。私はMac使ってるけど、受講生の半分くらいはWindowsで問題なくやってる。

予算があるならMacBook Airが楽。Unixベースだから、コマンドラインの操作がLinuxに近くて、本番環境(サーバー)との互換性が高い。でも、Windowsでも全然問題ない。WSL2(Windows Subsystem for Linux)を使えば、Linux環境も使える。

大事なのはスペックよりも「毎日触ること」。高いPC買っても、触らなきゃ意味がない。今使ってるPCで、とりあえず始めればいい。

Q5: 統計検定は取った方がいい?

あると便利だけど、必須じゃない。案件取るときに「統計検定2級持ってます」って書けるとプラスにはなる。クライアントによっては、資格を重視する人もいる。

でも、実績がある方が100倍強い。「統計検定2級」より「実案件3件納品しました、評価は全て5.0です」の方が圧倒的に説得力がある。

資格の勉強に3ヶ月使うくらいなら、その時間で実案件を3件こなした方がいい。実績と経験が積める し、お金ももらえる。資格は、案件をいくつかこなしてから、余裕があれば取ればいい。

ただし、「就職・転職」を狙うなら、資格はあった方がいい。企業の人事は、実績よりも資格を見ることが多い。でも副業レベルなら、優先度は低い。

Q6: 独学で本当に稼げるようになる?

なる。断言する。私がメンターした人の中で、完全独学から副業で月10万円稼いでる人は何人もいる。中には、月20万円超えてる人もいる。

大事なのは、「完璧になってから案件取る」じゃなくて、「今できることで案件取って、現場で学ぶ」。最初は単価低くてもいい。実績を作ることが最優先。

実際、私自身も完全独学。統計学の講義も取ってないし、スクールにも通ってない。本とネットだけで学んで、3ヶ月後には初案件取れた。完璧主義を捨てることが、一番の近道。

逆に言うと、「もっと勉強してから」「もっと準備してから」って言ってる人は、いつまで経っても稼げない。60点でいいから、とにかく案件取る。そのほうが100倍成長できる。

Q7: 年齢は関係ある?40代でも大丈夫?

全く問題ない。むしろビジネス経験がある分、クライアントの課題を理解しやすいっていう強みがある。技術だけじゃなくて、コミュニケーション能力とか、業務理解とか、そういうのが案件では大事。

私がメンターした最年長は52歳の元営業職。プログラミング経験ゼロから始めて、6ヶ月後には月12万円稼いでた。リモート案件が多いから、年齢や見た目は関係ない。納品物のクオリティと、クライアントとのコミュニケーションが全て。

20代の若い人より、40代50代の人の方が、実は有利な面もある。クライアントの多くは、経営者とか管理職とか、40代以上の人が多い。同じ世代の方が、コミュニケーションが取りやすい。ビジネスの文脈も理解してもらいやすい。

「今から始めても遅い」なんてことは絶対にない。私の受講生見てても、年齢と成功率は全く関係ない。むしろ、若い人の方が「すぐに飽きる」「継続できない」ってパターンが多い。40代以上の人の方が、コツコツ継続できる傾向がある。

深夜、データ分析の成果を確認し達成感に満ちた表情の線画イラスト

まとめ:次に取るべき一歩

ここまで読んでくれてありがとう。長かったと思うけど、最後まで読んでくれたってことは、本気で統計学とデータ分析を学びたいってことだよね。その熱意があれば、絶対にできる。

統計学とデータ分析の基本、そして副業につなげる道筋は見えたんじゃないかな。最後にもう一度、重要なポイントをまとめる。

これだけは覚えておいてほしいこと

  • 統計学は、思ってるより敷居は低い。完璧な理論より、まず動かすことが大事。
  • 数式の完璧な理解より、「何ができるか」「どう使うか」を知ることが優先。
  • Python + Pandas + Matplotlib + scikit-learn。この4つで基本は十分。
  • 初心者向けの案件は意外とたくさんある。「Python Excel」で検索してみて。
  • ポートフォリオを作ることが、案件獲得の近道。GitHubに3個でいいから載せる。
  • 完璧を目指すより、まず1件納品することを目指す。60点でいいから、とにかく納品。
  • 実績ゼロから抜け出すために、最初の3案件は「投資」と割り切る。
  • 年齢は関係ない。40代50代の方が、むしろ有利な面もある。

今日から始められること

もしあなたが「難しそう」「自分にできるかな」って思ってるなら、まず今日、以下のことをやってみてほしい:

  1. Google Colabを開く(Googleアカウントがあれば、ブラウザだけで使える)
  2. 簡単なコードを書いてみる(「print("Hello World")」でいい)
  3. ProgateのPythonコースに登録する(月額1,078円)
  4. Kaggleのアカウントを作る(無料)
  5. GitHubのアカウントを作る(無料)

この5つ、全部合わせても1時間あればできる。この一歩が、副業で月10万円稼ぐ未来につながってる。

私自身、最初は「統計学なんて無理」「数学苦手だし」「今更遅いかも」って思ってた。でも、実際に手を動かしてみたら、案外できた。完璧じゃなかったけど、案件はこなせた。クライアントは喜んでくれた。報酬ももらえた。あなたにもできる。絶対にできる。

3ヶ月後、「統計学って面白いな」「データ触るの楽しい」って思えたら嬉しい。6ヶ月後、初めての案件が取れたら、もっと嬉しい。1年後、「あのとき始めてよかった」「人生変わった」って思えるはず。

わからないことがあったら、一人で抱え込まないようにね。コミュニティに参加するとか、質問サイト(StackOverflowとか)で聞くとか、助けを求めることも大事。みんな最初は初心者だった。優しく教えてくれる人は、たくさんいる。

最後に、もう一つだけ。「完璧主義」を捨てること。これが一番大事。60点でいいから、とにかく前に進む。失敗してもいい。むしろ失敗した方が学べる。クライアントに怒られても、次に活かせばいい。完璧を目指して動けないより、不完全でも動き続ける方が、100倍成長できる。

それじゃ、頑張って!応援してる。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いたエンジニア

上原 玲のアバター 上原 玲 インフラエンジニア

インフラ構築に強く、AWS・GCPを用いた大規模環境の運用経験が豊富。冷静な判断と堅実な設計で、チームからの信頼が厚い。多趣味で、最近は写真撮影にハマり中。休日はカメラを片手に各地を巡る。穏やかな雰囲気で後輩にも優しい。

目次