データベースのガイダンスと導入話

インターネットの情報量

最初に、インターネットで扱われる情報が増加しているという点で、世界中の情報量を説明。Googleが推測するインターネットの情報量は、 2010年度では281EB(エクサバイト10^18,kMGTP*E*ZY)で、この時点で 55倍/6年だったらしい。約2倍/年とすれば、2013年は、2ZB(ゼタバイト)程かな。

ちなみに人間の脳は、大脳皮質だけで16TB、脳全体と遺伝情報も含めると230TB程らしい。

Webシステムとデータベース

データベースが情報共有のために重要な技術であり、 Webシステムの中での使われ方ということで、サーチエンジンの話(設立当初のYahooのユーザ登録型)や、 Google に代表されるクローラ・ロボットによるサーチエンジンの説明を行う。これに伴い、データは巨大化し、大量のユーザを抱える現在、データ検索を極めて短い時間で返答することの難しさを説明する。

このため、一般的なWebシステムでは、Webサーバを負荷分散目的で大量に配置し、その後段にスレーブデータベースが待機し、その後段にさらにマスターデータベースが並ぶという3段スキーマ構成の説明などを行う。また、最近のIT産業では、システム構築からサービス開始までを短期間に行うために、 LAMP (Linux+Apache+MySQL+PHP) といった構成が多いことなども紹介。

さらに、普及しているリレーショナルデータベースシステムの名称として、 Oracle, MySQL, PostgreSQL, SQLite, BerkleyDB などを紹介し、ネットワーク型、ファイル型の違いやSQLを使うもの使わない物などがあることも紹介。最近では、巨大なデータベースを分散システム上に作る必要から、NoSQLなどと呼ばれる手法も使われている。

データベースが無かったら…

C言語レベルの簡単な演習でデータベースっぽいことをする時は、 fscanf+fprintfだろうけど、大量データを永続的に扱いたいのであれば、全データ読み込み＆全データ出力のプログラムを書くのが簡単。でも、データ量が増えれば、修正・追加のあった部分だけ書きこむ必要が出てくる。しかしながら、1行1件のデータであれば1行の長さが変化するとダメ。こういう場合には、1件のデータ長を固定として、lseek+fwrite+freadを使ってランダムアクセスのプログラムを書くことになる。

しかし、こういうプログラムは1件のデータ長が変化すれば、プログラムの修正も大変。さらに、複数の並行処理で書き換えを行えるのであれば、 flockなどを使ったプログラムが必要となる。

日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31