2進数
人が使用している数値は10進数だけど、コンピュータは2進数を使用する。2進数は、0と1だけで数値を表す方法のこと。
10進数と2進数の対応
10進数と2進数の対応を表にまとめたよ。
10進数 | 2進数 |
---|---|
0 | 0 |
1 | 1 |
2 | 10 |
3 | 11 |
4 | 100 |
5 | 101 |
6 | 110 |
7 | 111 |
8 | 1000 |
9 | 1001 |
10 | 1010 |
10進数から2進数への変換
例えば、10進数の「19」を2進数に変換すると「10011」になる。変換は次のように行うよ。
19÷2=9余り1 …⑤
09÷2=4余り1 …④
04÷2=2余り0 …③
02÷2=1余り0 …②
01÷2=0余り1 …①
①から⑤の順に余りを並べると、「10011」になるよ。
2進数の足し算
2進数の足し算は次のように行うよ。
0 / 06
ビット
ビットは、コンピューターが扱うデータ量の最小単位のこと。
コンピューターは、データを0と1で処理している。
この時、nビットは2n通りのデータを表現することができるよ。
ビット数 | 表現できるデータ | |
---|---|---|
1ビット | 0、1 | 21=2通り |
2ビット | 00、01、10、11 | 22=4通り |
3ビット | 000、001、010、011、100、101、110、111 | 23=8通り |
コンピュータで漢字、ひらがな、カタカナを表現するため、文字に2進数の番号を割り当てたものを文字コードという。
文字コードには、Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16などがあるよ。
ワイルドカード
ワイルドカードは、文字の代わりに使う記号。
?は、任意の1文字を表している。例えば、次のような場合、「test」や「text」が当てはまるよ。
te??
*は、任意の0文字以上を表している。例えば、次のような場合、「test」や「text」に加えて、「technology」や「Technique」も当てはまるよ。
te*
ベン図
ベン図は、集合の範囲を視覚的に表すために用いる図のこと。論理演算を表すのに最適だよ。
A and Bは、色が塗られている部分のこと。
AかつBを表しているよ。
A or Bは、色が塗られている部分のこと。
AまたはBを表しているよ。
not Aは、色が塗られている部分のこと。
Aではないを表しているよ。
順列
順列は、いくつかのものを、順序をつけて1列に並べること。
異なるn個のものの中からr個取り出して並べる順列の総数は、nPrと表すよ。
例えば、6枚のカードの中から4枚を選んで並べる場合は360通り考えられる。計算は次のように行うよ。
6P4=6×5×4×3=360
統計
- 平均値
データの値の合計をデータの個数で割ったもの。
例えば、次のように計算して、1から5の平均値はと求めることができる。
平均値=データの合計÷データの個数=(1+2+3+4+5)÷5=3- 中央値
-
データを小さい順に並べた際、中央にあるもの。メジアンともいうよ。
例えば、次のようなデータがあったとする。
11122344455555
この時、中央にある数値は4なので、中央値は4になるよ。 - 最頻値
-
最も頻度が高い値のこと。モードともいうよ。
例えば、次のようなデータがあったとする。
AABBBCCCCDDDDDDDDDDDEE
この時、Dが一番多いので、最頻値はDになるよ。 - 分散
-
データのばらつき具合を表すもの。
平均値から離れたデータが多いほど、分散は大きくなる。 - 偏差値
-
偏差値は、ある数値を平均値と比べた時、どのあたりに位置するかを示すもの。
例えば、AさんからEさんのテストの点数が次のような結果になったとする。
受験者 点数 Aさん 60点 Bさん 95点 Cさん 79点 Dさん 26点 Eさん 43点 今回は、Aさんの偏差値を求めるよ。
Aさんの偏差値を求めるには、まず平均点を求める。
次のように計算して、平均点は60.6点と求めることができる。
平均点=60+95+79+26+43÷5=60.6
次に、AさんからEさんの偏差を求めて2乗する。
次のように計算して、Aさんの偏差は-0.6と求めることができる。
Aさんの偏差=Aさんの点数-平均点=60-60.6=-0.6
これを2乗すると、0.36になる。
Aさんの偏差の2乗=(-0.6)2=0.36
BさんからEさんまで同じように計算すると、次のようになるよ。受験者 点数 偏差の二乗 Aさん 60点 0.36 Bさん 95点 1183.36 Cさん 79点 338.56 Dさん 26点 1197.16 Eさん 43点 309.76
次は分散を求めるよ。
次のように計算して、分散は605.84と求めることができる。
分散=偏差の2乗の合計÷受験者数=(0.36+1183.36+338.56+1197.16+309.76)÷5=605.84
さらに、標準偏差を求めるよ。
次のように計算して、標準偏差は約24.61と求めることができる。
標準偏差=√605.84=24.6138172577…
ここまで揃えば、次のように計算して、Aさんの偏差値は約49.76と求めることができる。
Aさんの偏差値=Aさんの偏差×10÷標準偏差+50=-0.6×10÷24.61+50=49.7561966681…
尺度
統計学において、値が持つ性質を整理したものを尺度という。尺度には次の4つがあるよ。
名称 | 詳細 | 例 |
---|---|---|
名義尺度 | 区別や分類をするために用いられる。 | 電話番号、郵便番号など。 |
順序尺度 | 大小関係や順序があり、間隔には意味がない。 | 等級、震度、5段階評価の成績など。 |
間隔尺度 | 大小関係や順序があり、間隔にも意味がある。 | 気温、西暦、100点満点のテストの点数など。 |
比率尺度 | 0を原点としており、大小関係や比にも意味がある。 | 身長、重量、値段など。 |
分析
次の2つの分析を覚えておこう。
回帰分析
要因となる数値(説明変数)と結果となる数値(目的変数)の関係を調べること。
相関分析
2つの要素がどの程度同じような動きをするか、要素の関係を明らかにするもの。
回帰分析について、説明変数が1つの場合は単回帰分析、複数の場合は重回帰分析という。
相関分析は因果関係を仮定しない。一方、回帰分析は因果関係を仮定するよ。
グラフ
グラフ理論におけるグラフは、いくつかの点とそれらを結ぶ線からなる図形のこと。次の2つがあるよ。
有向グラフ
辺に方向性のあるグラフ。
無向グラフ
辺に方向性がないグラフ。
頂点(ノード)は、グラフの丸い点のこと。
辺(エッジ)は、有向グラフの矢印、無向グラフの線のこと。
推論
推論を行う方法には次の2つがある。
複数の事実を並べ、これらに共通するルールを見つけて結論を出すこと。
- 事実1:A社の水山さんは、いつも忙しそうにしている。
- 事実2:A社の金木さんは、いつも忙しそうにしている。
- 事実3:A社の田村さんは、いつも忙しそうにしている。
これらの事実から、A社はかなりハードワークな社風があると推論できる。
複数の事実を足し合わせて結論を出すこと。
- 前提:先輩はいつも忙しそうにしている。
- 事実:将来、自分は先輩と同じ仕事を任されるようになる。
- 結論:自分も先輩と同じくらい忙しくなる。
これらの事実から、将来は自分も忙しくなることが推論できる。
デジタルとアナログ
デジタル
連続的なデータを段階的に切り取ったもの。例えばデジタル時計など。
アナログ
連続的なデータを目に見える量で表したもの。例えばアナログ時計など。
PCM
パルス符号変調(PCM:Pulse Code Modulation)は、音声などのアナログ信号をデジタル信号に変換するもの。標本化、量子化、符号化の順に行われるよ。
アナログデータから値を取り出す。
1秒間に測定する回数をサンプリングレートという。
サンプリングレートが大きいほど、元のデータの再現性が高くなり、デジタルデータの量が増える。
標本化で得た値を、ビット数を決めて数値化する。
量子化するビット数が大きいほど、元のデータの再現性が高くなり、デジタルデータの量が増える。
0011 1000 1010 0101 0111 1101
量子化したデータを0か1に変換する。
接頭語
接頭語は、桁数の大きな数字や小さな数字を表すために付ける記号。
MバイトのMや、GバイトのGがこれに当たるよ。
大きな数を表す接頭語 | 小さな数を表す接頭語 | ||
---|---|---|---|
k(キロ) | 10300 | m(ミリ) | 10-300 |
M(メガ) | 10600 | μ(マイクロ) | 10-600 |
G(ギガ) | 10900 | n(ナノ) | 10-900 |
T(テラ) | 10120 | p(ピコ) | 10-120 |
P(ペタ) | 10150 | – | –0 |
大小関係は、1kバイト<1Mバイト<1Gバイト<1Tバイト<1Pバイトになる。
AIに関する用語
次のAIに関する次の用語も覚えておこう。
POINT
01
述語論理
人間の知識や問題をコンピュータで計算できるようにすること。
POINT
02
最適化問題
与えられた条件のもとで、ある数値を最大または最小にすること。
POINT
03
ルールベース
コンピュータが判断する際の条件や基準を人が用意すること。
POINT
04
特微量
特徴を数値化したもの。
例えばリンゴの場合、色、大きさ、形を特微量として数値化するよ。
POINT
05
活性化関数
ニューラルネットワークにおける、入力の合計から出力を決定するための関数。
POINT
06
誤差逆伝播法
ディープラーニングで使われる手法。コンピュータの回答が間違っていたり、期待と離れている場合、誤差を上層部に伝えて修正すること。
バックプロパゲーションともいうよ。
POINT
07
エキスパートシステム
特定の問題に対して、専門家のような受け答えをするもの。
POINT
08
再現率
あるデータの中から、探しているデータをAIがどのくらい見つけることができたかを表すもの。