著した著書は数学のなかでも特に幾何学の教科書として有名であった。
ユークリッドが考え出した「距離」とは?
幾何学・距離とは?
幾何学とは図形を扱う数学の中の一分野だ。白紙に書いたある点ともう一つの点の距離は?なんて言うのが問題になる。
ユークリッド距離はその点と点の距離を数値で表したものだ。
ユークリッド距離とは?
ユークリッド距離を一言で表すと、点と点の「差の二乗和の平方根」。
実例で、点と点のユークリッド距離を見てみよう。
ユークリッド距離の求め方実例
ユークリッド距離計算の実例として、統計ソフトRに最初から含まれているUSArrestsというデータを用いる。
これは1973年当時のアメリカ50州の10万人当たりの犯罪による逮捕者率のデータである。
ユークリッド距離計算のサンプルデータ
先頭の6行を見てみると以下の通り。それぞれの州の様子(特徴)を4つの要因(Murder, Assault, UrbanPop, Rape)で規定していると思えばよい。
> head(USArrests) Murder Assault UrbanPop Rape Alabama 13.2 236 58 21.2 Alaska 10.0 263 48 44.5 Arizona 8.1 294 80 31.0 Arkansas 8.8 190 50 19.5 California 9.0 276 91 40.6 Colorado 7.9 204 78 38.7
この4つの要因で、例えばAlabamaとAlaskaの「距離」を計算してみる。
4つの要因になると、もはや図で表すことはできない。
なので、完全に想像の世界になってしまう。
もしくは計算だけの世界だ。
ユークリッド距離を実際にどうやって計算するか?
まずは、AlabamaとAlaskaのデータだけを抜き出す。
> USArrests[c(1,2),] Murder Assault UrbanPop Rape Alabama 13.2 236 58 21.2 Alaska 10.0 263 48 44.5
次に1行目のAlabamaから2行目のAlaskaに対して、4つの要因でそれぞれ引き算をする。
> USArrests[c(1,2),][1,]-USArrests[c(1,2),][2,] Murder Assault UrbanPop Rape Alabama 3.2 -27 10 -23.3
その差を二乗する。
> (USArrests[c(1,2),][1,]-USArrests[c(1,2),][2,])^2 Murder Assault UrbanPop Rape Alabama 10.24 729 100 542.89
合計(つまり和)を計算する。
> sum((USArrests[c(1,2),][1,]-USArrests[c(1,2),][2,])^2) [1] 1382.13
> sqrt(sum((USArrests[c(1,2),][1,]-USArrests[c(1,2),][2,])^2)) [1] 37.17701
この数字自体が何を示しているかは気にしなくてよい。
ただ、数字の大小によってどの州同士がユークリッド距離が大きいのか小さいのか、つまり似ているのか似ていないのかの判断材料になるということと理解する。
この距離を用いて階層型クラスタリングによるクラスター分析が行われる。
階層型クラスタリングの実例は以下の記事を参照。
まとめ
ユークリッド距離は、二次元以上の点同士の距離を表現したものだ。
計算方法は、「差の二乗和の平方根」である。
この距離が大きいか小さいかで、遠いか近いかを判断し、似ていない・似ているという判定につなげることができる。