基礎理論

2進数

人が使用している数値は10進数だけど、コンピュータは2進数を使用する。2進数は、01だけで数値を表す方法のこと。


h5
10進数と2進数の対応

10進数と2進数の対応を表にまとめたよ。

10進数 2進数
0 0
1 1
2 10
3 11
4 100
5 101
6 110
7 111
8 1000
9 1001
10 1010

h5
10進数から2進数への変換

例えば、10進数の「19」を2進数に変換すると「10011」になる。変換は次のように行うよ。

19÷2=9余り1 …⑤

09÷2=4余り1 …④

04÷2=2余り0 …③

02÷2=1余り0 …②

01÷2=0余り1 …①

①から⑤の順に余りを並べると、「10011」になるよ。


h5
2進数の足し算

2進数の足し算は次のように行うよ。


  • STEP

    01

    2進数 足し算

    太字の1桁目に注目。1+1=10になる。

  • STEP

    02

    2進数 足し算

    太字の2桁目に注目。1+0+0=1になる。

  • STEP

    03

    2進数 足し算

    太字の3桁目に注目。0+0=0になる。

  • STEP

    04

    2進数 足し算

    太字の4桁目に注目。1+1=10になる。

  • STEP

    05

    2進数 足し算

    太字の5桁目に注目。1+1=10になる。

  • STEP

    06

    2進数 足し算

    太字の6桁目に注目。1のみで1になる。

0 / 06

ビット

ビットは、コンピューターが扱うデータ量の最小単位のこと。

コンピューターは、データを0と1で処理している。

この時、nビットは2n通りのデータを表現することができるよ。

ビット数 表現できるデータ
1ビット 0、1 21=2通り
2ビット 00、01、10、11 22=4通り
3ビット 000、001、010、011、100、101、110、111 23=8通り

コンピュータで漢字、ひらがな、カタカナを表現するため、文字に2進数の番号を割り当てたものを文字コードという。

文字コードには、Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16などがあるよ。

ワイルドカード

ワイルドカードは、文字の代わりに使う記号。


?は、任意の1文字を表している。例えば、次のような場合、「test」や「text」が当てはまるよ。

te??


*は、任意の0文字以上を表している。例えば、次のような場合、「test」や「text」に加えて、「technology」や「Technique」も当てはまるよ。

te*

ベン図

ベン図は、集合の範囲を視覚的に表すために用いる図のこと。論理演算を表すのに最適だよ。



and

A and Bは、色が塗られている部分のこと。

AかつBを表しているよ。



or

A or Bは、色が塗られている部分のこと。

AまたはBを表しているよ。



SaaS

not Aは、色が塗られている部分のこと。

Aではないを表しているよ。


順列

順列は、いくつかのものを、順序をつけて1列に並べること。

異なるn個のものの中からr個取り出して並べる順列の総数は、nPrと表すよ。

例えば、6枚のカードの中から4枚を選んで並べる場合は360通り考えられる。計算は次のように行うよ。

6P4=6×5×4×3=360

統計

平均値

データの値の合計データの個数で割ったもの。

例えば、次のように計算して、1から5の平均値はと求めることができる。

平均値=データの合計÷データの個数=(1+2+3+4+5)÷5=3

中央値

データを小さい順に並べた際、中央にあるもの。メジアンともいうよ。

例えば、次のようなデータがあったとする。

11122344455555

この時、中央にある数値は4なので、中央値は4になるよ。

最頻値

最も頻度が高い値のこと。モードともいうよ。

例えば、次のようなデータがあったとする。

AABBBCCCCDDDDDDDDDDDEE

この時、Dが一番多いので、最頻値はDになるよ。

分散

データのばらつき具合を表すもの。

平均値から離れたデータが多いほど、分散は大きくなる。

偏差値

偏差値は、ある数値を平均値と比べた時、どのあたりに位置するかを示すもの。

例えば、AさんからEさんのテストの点数が次のような結果になったとする。


受験者 点数
Aさん 60点
Bさん 95点
Cさん 79点
Dさん 26点
Eさん 43点


今回は、Aさんの偏差値を求めるよ。

Aさんの偏差値を求めるには、まず平均点を求める。

次のように計算して、平均点は60.6点と求めることができる。

平均点=60+95+79+26+43÷5=60.6


次に、AさんからEさんの偏差を求めて2乗する。

次のように計算して、Aさんの偏差は-0.6と求めることができる。

Aさんの偏差=Aさんの点数-平均点=60-60.6=-0.6

これを2乗すると、0.36になる。

Aさんの偏差の2乗=(-0.6)2=0.36


BさんからEさんまで同じように計算すると、次のようになるよ。

        
受験者 点数 偏差の二乗
Aさん 60点 0.36
Bさん 95点1183.36
Cさん 79点 338.56
Dさん 26点 1197.16
Eさん 43点 309.76


次は分散を求めるよ。

次のように計算して、分散は605.84と求めることができる。

分散=偏差の2乗の合計÷受験者数=(0.36+1183.36+338.56+1197.16+309.76)÷5=605.84


さらに、標準偏差を求めるよ。

次のように計算して、標準偏差は約24.61と求めることができる。

標準偏差=√605.84=24.6138172577…


ここまで揃えば、次のように計算して、Aさんの偏差値は約49.76と求めることができる。

Aさんの偏差値=Aさんの偏差×10÷標準偏差+50=-0.6×10÷24.61+50=49.7561966681…

尺度

統計学において、値が持つ性質を整理したものを尺度という。尺度には次の4つがあるよ。


名称 詳細
名義尺度 区別分類をするために用いられる。 電話番号、郵便番号など。
順序尺度 大小関係順序があり、間隔には意味がない等級、震度、5段階評価の成績など。
間隔尺度 大小関係順序があり、間隔にも意味がある 気温、西暦、100点満点のテストの点数など。
比率尺度 0を原点としており、大小関係にも意味がある。 身長、重量、値段など。

分析

次の2つの分析を覚えておこう。



回帰分析

回帰分析


要因となる数値(説明変数)と結果となる数値(目的変数)の関係を調べること。


相関分析

相関分析


2つの要素がどの程度同じような動きをするか、要素の関係を明らかにするもの。


回帰分析について、説明変数が1つの場合は単回帰分析、複数の場合は重回帰分析という。

相関分析は因果関係を仮定しない。一方、回帰分析は因果関係を仮定するよ。

グラフ

グラフ理論におけるグラフは、いくつかの点とそれらを結ぶ線からなる図形のこと。次の2つがあるよ。



有向グラフ

有向グラフ


辺に方向性のあるグラフ。


無向グラフ

無向グラフ


辺に方向性がないグラフ。


頂点(ノード)は、グラフの丸い点のこと。

辺(エッジ)は、有向グラフの矢印、無向グラフの線のこと。

推論

推論を行う方法には次の2つがある。



複数の事実を並べ、これらに共通するルールを見つけて結論を出すこと。


  • 事実1:A社の水山さんは、いつも忙しそうにしている。
  • 事実2:A社の金木さんは、いつも忙しそうにしている。
  • 事実3:A社の田村さんは、いつも忙しそうにしている。

これらの事実から、A社はかなりハードワークな社風があると推論できる。



複数の事実を足し合わせて結論を出すこと。


  • 前提:先輩はいつも忙しそうにしている。
  • 事実:将来、自分は先輩と同じ仕事を任されるようになる。
  • 結論:自分も先輩と同じくらい忙しくなる。

これらの事実から、将来は自分も忙しくなることが推論できる。


デジタルとアナログ


デジタル

デジタル


連続的なデータを段階的に切り取ったもの。例えばデジタル時計など。


アナログ

アナログ


連続的なデータを目に見える量で表したもの。例えばアナログ時計など。

PCM

パルス符号変調(PCM:Pulse Code Modulation)は、音声などのアナログ信号をデジタル信号に変換するもの。標本化、量子化、符号化の順に行われるよ。



パルス符号変調 PCM 標本化

アナログデータから値を取り出す

1秒間に測定する回数をサンプリングレートという。

サンプリングレートが大きいほど、元のデータの再現性が高くなり、デジタルデータの量が増える。



パルス符号変調 PCM 量子化

標本化で得た値を、ビット数を決めて数値化する。

量子化するビット数が大きいほど、元のデータの再現性が高くなり、デジタルデータの量が増える。



0011 1000 1010 0101 0111 1101



量子化したデータを01に変換する。


接頭語

接頭語は、桁数の大きな数字や小さな数字を表すために付ける記号。

MバイトのMや、GバイトのGがこれに当たるよ。

大きな数を表す接頭語 小さな数を表す接頭語
k(キロ) 10300 m(ミリ) 10-300
M(メガ) 10600 μ(マイクロ) 10-600
G(ギガ) 10900 n(ナノ) 10-900
T(テラ) 10120 p(ピコ) 10-120
P(ペタ) 10150 0

大小関係は、1kバイト<1Mバイト<1Gバイト<1Tバイト<1Pバイトになる。

AIに関する用語

次のAIに関する次の用語も覚えておこう。

POINT

01

述語論理


人間の知識や問題をコンピュータで計算できるようにすること。

POINT

02

最適化問題


与えられた条件のもとで、ある数値を最大または最小にすること。

POINT

03

ルールベース


コンピュータが判断する際の条件基準を人が用意すること。

POINT

04

特微量


特徴を数値化したもの。

例えばリンゴの場合、色、大きさ、形を特微量として数値化するよ。

POINT

05

活性化関数


ニューラルネットワークにおける、入力の合計から出力を決定するための関数。

POINT

06

誤差逆伝播法


ディープラーニングで使われる手法。コンピュータの回答が間違っていたり、期待と離れている場合、誤差を上層部に伝えて修正すること。

バックプロパゲーションともいうよ。

POINT

07

エキスパートシステム


特定の問題に対して、専門家のような受け答えをするもの。

POINT

08

再現率


あるデータの中から、探しているデータをAIがどのくらい見つけることができたかを表すもの。