双方向リスト
リストを使った集合演算のように、データを連ねたリストは、単純リストとか線形リストと呼ばれる。特徴はデータ数に応じてメモリを確保する点や、途中へのデータの挿入削除が得意な点があげられる。一方で、配列は想定最大データ件数で宣言してしまうと、実際のデータ数が少ない場合、メモリの無駄も発生する。しかし、想定件数と実データ件数がそれなりに一致していれば、無駄も必要最小限となる。リスト構造では、次のデータへのポインタを必要とすることから、常にポインタ分のメモリは、データにのみ注目すれば無駄となる。
シーケンシャルアクセス・ランダムアクセス
もう1つの欠点がシーケンシャルアクセスとなる。テープ上に記録された情報を読む場合、後ろのデータを読むには途中データを読み飛ばす必要があり、データ件数に比例したアクセス時間を要する。このような N番目 データ参照に、O(N)の時間を要するものは、シーケンシャルアクセスと呼ばれる。
一方、配列はどの場所であれ、一定時間でデータの参照が可能であり、これは ランダムアクセスと呼ばれる。N番目のアクセス時間がO(1)を要する。
このため、プログラム・エディタの文字データの管理などに単純リストを用いた場合、1つ前の行に移動するには、先頭から編集行までの移動で O(N) の時間がかかり、大量の行数の編集では、使いものにならない。ここで、シーケンシャルアクセスでも1つ前にもどるだけでも処理時間を改善してみよう。
単純リストから双方向リストへ
ここまで説明してきた単純リストは、次のデータへのポインタを持つ。ここで、1つ後ろのデータ(N番目からN+1番目)をアクセスするのは簡単だけど、1つ前のデータ(N-1番目)を参照しようと思ったら、先頭から(N-1)番目を辿るしかない。でも、これは O(N) の処理であり時間がかかる処理。
ではどうすればよいのか?
この場合、一つ前のデータの場所を覚えているポインタがあれば良い。
// 双方向リストの宣言 struct BD_List { struct BD_List* prev ; // 1つ前のデータへのポインタ int data ; struct BD_List* next ; // 次のデータへのポインタ } ;
このデータ構造は、双方向リスト(bi-directional list)と呼ばれる。では、簡単なプログラムを書いてみよう。双方向リストのデータを簡単に生成するための補助関数から書いてみる。
// リスト生成補助関数 struct BD_List* bd_cons( struct BD_List* p , int d , struct BD_List* n ) { struct BD_List* ans ; ans = (struct BD_List*)malloc( sizeof( struct BD_List ) ) ; if ( ans != NULL ) { ans->prev = p ; ans->data = d ; ans->next = n ; } return ans ; } void main() { struct BD_List* top ; struct BD_List* p ; // 順方向のポインタでリストを生成 top = bd_cons( NULL , 1 , bd_cons( NULL , 2 , bd_cons( NULL , 3 , NULL ) ) ) ; // 逆方向のポインタを埋める top->next->prev = top ; top->next->next->prev = top->gt;next ; // リストを辿る処理 for( p = top ; p->next != NULL ; p = p->next ) printf( "%d\n" , p->data ) ; for( ; p->prev != NULL ; p = p->prev ) printf( "%d\n" , p->data ) ; }
双方向リストの関数作成
以上の説明で、双方向の基礎的なプログラムの意味が分かった所で、練習問題。
先のプログラムでは、1,2,3 を要素とするリストを、ナマで記述していた。実際には、どんなデータがくるか分からないし、指定したポインタ p の後ろに、データを1件挿入する処理 bd_insert( p , 値 ) , また、p の後ろのデータを消す処理 bd_delete( p ) を書いてみよう。
// 双方向リストの指定場所 p の後ろに、値 d を要素とするデータを挿入せよ。 void bd_insert( struct BD_List* p , int d ) { struct BD_List*n = bd_cons( p , d , p->next ) ; if ( n != NULL ) { p->next->prev = n ; p->next = n ; } } // 双方向リストの指定場所 p の後ろのデータを消す処理は? void bd_delete( struct BD_List* p ) { struct BD_List* d = p->next ; d->next->prev = p ; p->next = d->next ; free( d ) ; } // この手のリスト処理のプログラムでは、命令の順序が重要となる。 // コツとしては、修正したい箇所の遠くの部分を操作する処理から // 書いていくと間違いが少ない。
番兵と双方向循環リスト
前述の bd_insert() だが、データの先頭にデータを挿入したい場合は、どう呼び出せば良いだろうか?
bd_insert() で、末尾にデータを挿入する処理は、正しく動くだろうか?
同じく、bd_delete() だが、データの先頭のデータを消したい場合は、どう呼び出せば良いだろうか?
また、データを消す場合、最後の1件のデータが消えて、データが0件になる場合、bd_delete() は正しく動くだろうか?
こういった問題が発生した場合、データが先頭・末尾で思ったように動かない時、0件になる場合に動かない時、特別処理でプログラムを書くことは、プログラムを読みづらくしてしまう。そこで、一般的には 循環リストの時にも紹介したが、番兵(Sentinel) を置くことが多い。
しかし、先頭用の番兵、末尾用の番兵を2つ用意するぐらいなら、循環リストにした方が便利となる。このような双方向リストでの循環した構造は、双方向循環リスト(bi-directional ring list)と呼ばれる。
この双方向循環リストを使うと、(1)先頭にデータを挿入(unshift)、(2)先頭のデータを取り出す(shift)、(3)末尾にデータを追加(push)、(4)末尾のデータを取り出す(pop)、といった処理が簡単に記述できる。この4つの処理を使うと、単純リスト構造で説明した、待ち行列(queue)やスタック(stack) が実現できる。この特徴を持つデータ構造は、先頭・末尾の両端を持つ待ち行列ということで、deque (double ended queue) とも呼ばれる。
理解確認
- 双方向リストとはどのようなデータ構造か図を示しながら説明せよ。
- 双方向リストの利点と欠点はなにか?
- 番兵を用いる利点を説明せよ。
- deque の機能と、それを実現するためのデータをリストを用いて実装するには、どうするか?
- 双方向リストが使われる処理の例としてどのようなものがあるか?
2019データベース・ガイダンス
インターネットの情報量
インターネット上の情報量の話として、2010年度に281EB(エクサバイト)=281✕1018B(参考:kMGTPEZY)で、今日改めて探したら、2013年度で、1.2 ZB(ゼタバイト)=1.2✕1021B という情報があった。ムーアの法則2年で2倍の概算にも、それなりに近い。 では、今年2019年であれば、どのくらいであろうか?
そして、これらの情報をGoogleなどで探す場合、すぐにそれなりに情報を みつけてくれる。これらは、どの様に実装されているのか?
Webシステムとデータベース
まず、指定したキーワードの情報を見つけてくれるものとして、 検索システムがあるが、このデータベースはどのようにできているのか?
Web創成期の頃であれば、Yahooがディレクトリ型の検索システムを構築 してくれている。(ページ作者がキーワードとURLを登録する方式) しかし、ディレクトリ型では、自分が考えたキーワードではページが 見つからないことが多い。
そこで、GoogleはWebロボット(クローラー)による検索システムを構築した。 Webロボットは、定期的に登録されているURLをアクセスし、 そのページ内の単語を分割しURLと共にデータベースに追加する。 さらに、ページ内にURLが含まれていると、そのURLの先で、 同様の処理を再帰的に繰り返す。
これにより、巨大なデータベースが構築されているが、これを少ない コンピュータで実現すると、処理速度が足りず、3秒ルール/5秒ルール (Web利用者は次のページ表示が3秒を越えると、次に閲覧してくれない) これを処理するには負荷分散が重要となる。
一般的に、Webシステムを構築する場合には、 1段:Webサーバ、2段:動的ページ言語、3段:データベースとなる場合も 多い。この場合、OS=Linux,Web=Apache,DB=MySQL,動的ページ生成言語=PHPの組合せで、 LAMP構成とする場合も多い。
一方で、大量のデータを処理するDBでは、フロントエンド,スレーブDB,マスタDBのWebシステムの3段スキーマ構成となることも多い。
データベースシステム
データベースには、ファイル内のデータを扱うためのライブラリの、 BerkleyDBといった場合もあるが、複雑なデータの問い合わせを実現する 場合には、リレーショナル・データベース(RDB)を用いる。 RDBでは、データをすべて表形式であらわし、SQLというデータベース 問い合わせ言語でデータを扱う。 また、問い合わせは、ネットワーク越しに実現可能であり、こういった RDBで有名なものとして、Oracle , MySQL , PostgreSQL などがある。 単一コンピュータ内でのデータベースには、SQLite などがある。
データベースシステムと呼ばれるには、ACID特性が重要となる。
- A: 原子性 (Atomicity) – 処理はすべて実行するか / しない のどちらか。
- C: 一貫性 (Consistency) – 整合性とも呼ばれ、与えられたデータのルールを常に満たすこと。
- I: 独立性 (Isolation) – 処理順序が違っても結果が変わらない。それぞれの処理が独立している。
- D: 永続性 (Durability) – データが失われることがない(故障でデータが無くならないとか)
しかし、RDBでは複雑なデータの問い合わせはできるが、 大量のデータ処理のシステムでは、フロントエンドDB,スレーブDB,マスタDB の同期が問題となる。この複雑さへの対応として、最近は NoSQL が 注目されている。
データベースが無かったら
これらのデータベースが無かったら、どのようなプログラムを作る 必要があるのか?
情報構造論ではC言語でデータベースっぽいことをしていたが、 大量のデータを永続的に扱うのであれば、ファイルへのデータの読み書き 修正ができるプログラムが必要となる。
こういったデータをファイルで扱う場合には、1件のデータ長が途中で 変化すると、N番目のデータは何処?といった現象が発生する。 このため、簡単なデータベースを自力で書くには、1件あたりのデータ量を 固定し、lseek() , fwrite() , fread() などの 関数でランダムアクセスのプログラムを書く必要がある。
また、データの読み書きが複数同時発生する場合には、排他処理も 重要となる。例えば、銀行での預け金10万の時、3万入金と、2万引落としが 同時に発生したらどうなるか? 最悪なケースでは、 (1)入金処理で、残金10万を読み出し、 (2)引落し処理で、残金10万を読み出し、 (3)入金処理で10万に+3万で、13万円を書き込み、 (4)引落し処理で、残金10万-2万で、8万円を書き込み。 で、本来なら11万になるべき結果が、8万になるかもしれない。
さらに、コンピュータといってもハードディスクの故障などは発生する。 障害が発生してもデータの一貫性を保つためには、バックアップや 障害対応が重要となる。
hogeはメタ構文変数
成績締め切りも近い中、レポートの出ない学生さんに確認したら、メールで送ったそうな。届いてないので確認してもらったら、前記事の福井高専のドメイン名の説明で、hoge@fukui-nct.ac.jp と書いてあったのを私の正式メールアドレスと勘違いしたらしい。
“hoge” は、正式にはメタ構文変数というけど、人に例として説明するときの適当につける名前(例えば太郎とか花子)。英語圏では、foo , bar , baz を使い、私もプログラム例では、foo() を使う。
んで hoge は、日本で使われるメタ構文変数で、hoge, fuga, piyo かな。
由来は、諸説色々あるけど個人的には、バラエティ番組の「ぴったしカンカン」で、司会者の久米宏が伏せ文字的に「◯◯は…」みたいなのを「hogehogeは…」みたいに話したのが元だと思ってる。
piyo は「めぞん一刻」の大家さんのエプロンだろうな。
福井高専のドメイン名
そろそろ前期期末の成績締め切り。学生さんがレポート課題提出で先生にメールを送ることも多いが、メールアドレスの書き間違いでメールがエラーになって届かないトラブルがちらほら。
メールアドレスをどう書き間違えているのか確認すると、hoge@fukui-nct–ac.jp と書いていたりする。高専機構のドメイン名は、hoge@fukui.kosen-ac.jp で、ac の前がハイフンに間違えてるんだろうな。
まずは結論
高専機構(福井)のメールアドレスは、hoge@fukui.kosen–ac.jp です。
福井高専のメールアドレスは、hoge@fukui–nct.ac.jp です。
ということで、以下解説。
ドメイン名の一般ルール
ちなみに、日本のドメイン名は古くは、組織ドメイン.種別ドメイン.国ドメイン の形式。
組織ドメイン=fukui-nct , 種別ドメイン=ac(教育機関) , 国ドメイン=jp(日本)
種別ドメインには、.co.jp(会社) , .ne.jp(ネットワークサービス) , .or.jp(団体) , .go.jp(政府機関) といったものがあるが、企業のサービスだと、.co.jp なのか .ne.jp なのか曖昧だったりするので、最近は省略したものを申請できるようになっている。
国ドメインは、アメリカはネットを作った所なので、国ドメインは省略され、.us(アメリカ) を使うことはめったに無い。一方、国ドメインも、.jp(日本) , .uk(イギリス) , .ch(中国) とかあっても、世界中に拠点を持つ企業では、.jp なのかよくわからないので、国ドメインを持たない種別ドメイン .com (企業) を取得することも多い。
高専機構のドメイン名
日本では最近様々な形式の学校が出てきたため、.ac.jp のドメインを取る時の審査は厳しくなっている。
このため、高専機構では、kosen.ac.jp を取得したいが審査が通らず、しかたがないので kosen–ac.jp を取得している。
組織ドメイン=kosen-ac , 種別ドメイン=なし , 国ドメイン=jp(日本)
ちなみに、”-ac.jp” といった変則的なドメイン名は、教育機関を偽装したドメイン名と勘違いされやすく、kosen-ac.jp のドメイン名を見て「怪しい…」と思う人も多い。
福井高専のドメイン名
一方、高専機構ができた後の福井高専の英語の正式名称は、“National Institute of Technology, Fukui College” であり、福井高専のドメイン名としては、本来 “nit-fukui.ac.jp” を取得したい。
組織ドメインの綴りのルールは無いので、大学でも 大学名-u.ac.jp だったり u-大学名.ac.jp など色々あるが、最近は後者が主流となっている。(福井大学も以前は、fukui-u.ac.jp だったが、最近は u-fukui.ac.jp に変更されている)
しかし、.ac.jp の審査が厳しく、高専機構の1組織っぽい nit-fukui.ac.jp は審査が通らない可能性が非常に高く、どの高専も以前のドメイン名をそのまま使用しているのが現状である。
CTF講座・K-SEC第3ブロック学生向け講習会に参加
高専機構の情報セキュリティ人材育成プロジェクトの一環として、岐阜大学サテライトキャンパス(岐阜高専主幹)にて8/28(水)に開催された、CTF講座・K-SEC第3ブロック学生向け講習会に3EI学生1名が参加しました。
CTFとは
CTFとは、Capture The Flags という、情報セキュリティの知識を使ってクイズを解く競技です。
例えば、簡単なものでは、
- PGS{fnzcyr} からフラグを見つけよ。# rot13暗号化
- SQLインジェクションでデータ漏洩が発生するWebシステムが用意されていて、SQLインジェクションが発生するようなデータを入力させて情報を見る。
といった問題があります。複雑な問題では、
- C言語で生成された機械語があって、通常では何も表示されないけど、逆アセンブルして条件判断の一部をバイパスさせて、データを表示させる。
といった、OSや機械語の知識が要求されるものもあります。
初心者には大変だったかな
今回、4年はインターンシップなどで参加者があつまらず、初心者の3年の学生さんに参加してもらいました。CTFの初心者向け講習会ということで、基礎的演習もあるかと思いましたが、いきなりの簡易版CTF大会となりました。知識が不足していて、苦労していましたが基礎的問題をいくつか解けていたようです。
最後に、講習会の修了証をもらいました。
ダナンでの海外インターンシップ
専攻科1年でのインターンシップでは、海外インターンシップにも参加している。
今年は、本校電子情報工学科のベトナムからの留学生のOBのダン氏がベトナム・ダナンで起業したD-SOFTさんにお願いし、電子情報系専攻科生1年が4週間にて参加となりました。D-SOFTさんでのインターンシップは初めての受け入れのため、私も初日に同行すべくダナンに行きました。
キャンパスツアー2019(in電子情報)
8/11(日)には、福井高専のキャンパスツアーが開催され、電子情報工学科でも様々な展示を行いました。
ログ解析とSOC演習(in 石川高専)
高専機構の情報セキュリティ人材育成イベントK-SECにて、主管の石川高専さんにて、「ログ解析とSOC演習」の講習会がありました。
ログ解析
セキュリティ機器の設定や組織内のルールにて、防衛を行うことはできるが、完全に脅威を検知・防御することは難しい。通信ログやアクセス履歴などの取得・蓄積しログから脅威を検出することが重要。
ログ解析演習
Raspberry-Pi のサーバが学生1人毎に準備してあり、演習用のログデータから目的となる情報を探す演習を行なった。
$ ls -R ~pi/log/event1-5/pcap/sqlinjection.pcap ~pi/log/event1-5/web-log/access_log_yyyymmdd.log
まずは基本コマンド
$ cd log/event1-5/web-log/ $ ls -al access_log_yyyymmdd.log $ cat access_log_yyyymmdd.log | more
ユーザーエージェントの確認
$ cat access_log_yyyymmdd.log | cut -d ' ' -f 12- | more # cut 特定の項目を抜き出すコマンド # -d ' ' データの区切り文字は ' ' 空白 # -f 12- 12項目以降を出力 # more 出力をページ単位で出力 # 大量のLOGだと、長時間かかるよぉ…
ディレクトリパストラバーサルの確認
$ grep "¥.¥./" access_log_yyyymmdd.log # grep 特定の文字を含む行を抜粋して表示 # アクセス履歴のPATHを確認 $ grep "¥.¥./" access_log_yyyymmdd.log | awk '{print $7}' # awk '{print $7}' 各行の7番目を出力 ( cut -d ' ' -f 7 と同じ ) # アクセス成功の確認 $ grep "¥./" access_log_yyyymmdd.log | grep "¥" 200" # Webサーバのアクセスログには、データ取得成功=200 が記載されている行を抜粋 # 特殊なアクセスPATHを確認 $ grep /proc/cpuinfo access_log_yyyymmdd.log # 脆弱なphp,cgiだとアクセスのURLに、アクセスしたいPATHが含まれる # /proc/cpuinfo は、CPUの種別などの情報が取れる # 攻撃者のIPアドレスを確認 $ grep -h "¥./" access_log_yyyymmdd.log | awk '{print $1}' | sort | uniq -c # アクセスログの先頭 $1 には、IPアドレスが書いてある。 # sort 出力をソートする(同じ行を集めるためにソート) # uniq -c 同じ行が繰り返す行数をカウント
OSコマンドインジェクションの確認
脆弱性のあるメール送信ページへの攻撃の確認 # addressを含む行で@を含まないものを検索 $ grep -h address access_log-yyyymm*.log | grep -v @ # grep # -h 複数ファイルの処理で、ファイル名を出力させない # -v 含まない行を出力する。 $ grep -h address access_log-yyyymmdd.log | grep -v @ ¥ | awk '{print $7}' | nkf -w --url-input # nkf 漢字などの文字コードを変換 # -w UTF-8 で出力 # --url-input %20みたいなURLエンコードを復号 この実行結果には以下のようなものがあるかもしれない。 "address=;/bin/echo Permit_RootLogin yes >> /etc/ssh/sshd_config"
SQLインジェクションの確認
- 不正ログイン、情報漏洩、完全性損失、可用性損失 の可能性
SOC演習
大量のログでは、unixコマンドで解析するにしても、コマンド組み合わせを考えるのは大変。企業では、ログ解析専用ソフトを用いて解析を行う。ただし、専用の解析ソフトは高価。今回は、K-SEC事業で一時的な借り物で演習。
創造工学演習発表会
創造工学演習
- 07/30 (不明飛行物捕手) UFOキャッチャーのシミュレータをUnityで作成。UFOキャッチャーの有名な技をいくつか実践できることを目指した。(UFOキャッチャーに3000円ツッコム想定でレベル変化。俺は500円以上ツッコンだことない) #創造工学演習
- 07/30 (不明飛行物捕手) UFOキャッチャーのシミュレータ #創造工学演習 https://twitter.com/TohruSaitoh/status/1…
- 07/30 (Typing. edu) タイピング練習とプログラミングのためのタイピング? もう少しプログラミングの言語をイメージした練習ワードをでるようにして欲しかったり。でもこれは情報系ジジイ教員の感想ね。 #創造工学演習
- 07/30 (sin Go!!) 信号はsignalとかsignだしsign(しん)go(ごー)じゃね? #創造工学演習
- 07/30 (sin Go!!) 運転支援で信号の変化を予測できないか…。信号情報はVICSから取得したいが、そのハードは開発困難で想定データを受信できたとしてシステム構築。データが公開されている地域も限定的なのでデータフォーマットなども想定で作らざるおえなかったみたい。 #創造工学演習
- 07/30 (sin Go!!) #創造工学演習 https://twitter.com/TohruSaitoh/status/1…
- 07/30 (ideal idea) アイデア発想の支援するために、曼荼羅法などの機能を実装。関連ワードの検索で支援。検索結果の内容を評価ができれば高評価だけど…。関連ワード検索などは動くけど複数人の利用を想定したセッション管理は未実装かな。 #創造工学演習
- 07/30 (ideal idea) #創造工学演習 https://twitter.com/TohruSaitoh/status/1…
- 07/30 (UnEI-C) 学祭の運営の支援システム構築。発表がソフトコンペのような丁寧なアイデア提案型で始まったけど、全般にわたるいい説明ですな。1人説明だけどな。支援のためのページを簡単生成できるような自動化について議論が欲しかった。 #創造工学演習
- 07/30 (UnEI-C) #創造工学演習 https://twitter.com/TohruSaitoh/status/1…
- 07/30 質問者から「実際にお客さんにサービス提供したとして幾ら?」との質問。シビアな質問だけど、先日訪問した情報・経営システム工学課程なら、定番の質問だろうな。ま、本科4年では意識を持てるだけで充分。 #創造工学演習
- 07/30 →ALL 自分たちで作ったもの写メってTweetしたかぁ?? #創造工学演習
- 07/30 (忘れ物防止) RFIDで忘れ物防止システムの構築。発表は実装重視型かな。個人的には好きだけどね。グループで作るネタをうまく配分してたかな。 #創造工学演習
- 07/30 (忘れ物防止) #創造工学演習 https://twitter.com/TohruSaitoh/status/1…
- 07/30 (ceries) 複数の希望に応じた候補のランキングなどのアルゴリズムの説明が欲しい。Instagram連携にチャレンジしているのは女の子らしくってGoodだけど、そこは未完か…残念。 #創造工学演習
- 07/30 (ceries) 週末デートをどうするか支援するアプリだとぉ〜。非リア充は土日は引きこもりなんだよ。 #創造工学演習
- 07/30 (TCMS) 注文までのインタフェースは基本が完成していた。作るメニューの画面を写真とテキストを与えたら自動生成するなどの対応を期待。発注の流れをメールに割り切ったのは基本機能を完成させる点でアリかな。 #創造工学演習
- 07/30 (競技部門) 敵の行動予測をしたい,先の手をもっと読ませたいとの目標だけど、同じじゃ無いか? 領域ポイントの戦略がこのゲームの面白さなので、フィールドスカスカのターン数のはず。スカスカな状態で終わるターン数でもっと戦略を試してほしい。 #創造工学演習
2段階認証用USBセキュリティキー
Office365で、パスワードが破られspamメール送信に利用される事案が発生している。
こういうパスワードへの攻撃には2段階認証が有効。私もSMSへの使い捨ての数字パスワードや、認証アプリを使ったりしている。でも最近では、なりすましサイトを挟んで使い捨て数字パスワードを盗む手法も出てきているので注意が必要。この中で最近注目されているのが、物理的キーを使うもの。Google では、全社員がこれを使うことで被害を防いでいるらしい。
以下は、YubiKey というFIDO対応のUSBキー。認証時に、パソコンのUSBキーに刺して、真ん中のボタンに触れるだけで認証が完了する。ただ、ChromeなどのFIDO対応のブラウザが必要らしい。
購入してから、あまり使ってこなかったけど、Google や Facebook は FIDO の認証に対応してきたようなので、設定してみた。