法政大学国際文化学部

情報リテラシーI,II

担当 重定 如彦

2006515

 

9回 サーチエンジン

1.      サーチエンジン (Search Engine)

前回の授業でWWWはありとあらゆる情報がつまった情報の宝庫である述べましたが、それらの情報を利用する為には、まず知りたい情報がどこにあるかを調べなければなりません。WWWの場合、図書館のように決まった規則で種類ごとに本が分類されて並べられているということはありませんので、知りたい情報を自分の力だけで探すのは困難です。

そこで、WWWでは知りたい情報がどこにあるかを探すためのサーチエンジンと呼ばれるサイトが作られています。サーチエンジンでは知りたい情報のキーワードを入力するとそのキーワードに関連したウェブページの一覧が表示されるので、その中から自分の知りたい情報が書いてあるウェブページを探すことができます。

サーチエンジンの仕組みを説明する前に、実際にサーチエンジンを使ってみましょう。スタートメニューからIEを実行して、アドレスの部分に http://www.google.co.jp というURLを入力して下さい。するとgoogle(グーグルと読みます)というサーチエンジンのサイトのウェブページが表示され、その中にテキストを入力するためのフォームが表示されます。この中に探したいウェブページに関連する単語を入力し、「Google検索」と書かれたボタンを押すと調べたい単語に関連するウェブページの一覧が表示されます。例えば「ライブドア」と入力して検索ボタンを押してみて下さい。ライブドアに関連するウェブページのサイトのリンクとその大まかな内容の一覧が表示されます。この中から自分が知りたい情報が載っていそうなウェブページのリンクを選択し、クリックすることで知りたい情報が載っているウェブページを探します。(注:Googleを使って日本語のウェブページのみを検索したい場合は、検索ボタンを押す前に「日本語のページを検索」ボタンをチェックして下さい)

2.      サーチエンジンの仕組み

サーチエンジンには大きく分けてキーワード検索型ディレクトリサービス型2種類があります。それぞれのおおまかな仕組みを知っておけば効率よく情報を検索することができるようになりますので、まずそれらの仕組みと特徴について解説します。

 

·          キーワード検索型サーチエンジン

キーワード検索型サーチエンジンは、世界中のウェブページの内容を自分のサイトのコンピュータの中に格納します。このようにコンピュータを使って集められ、様々な形で利用することが可能になったデータのことをデータベースdatabase)と呼びます。

ユーザが検索したい単語を入力すると、格納したデータベースの中から単語を検索し、その単語が含まれるウェブページをすべて一覧にして表示するという動作を行います。

ウェブページの情報を収集する方法はいくつかありますが、その中でよく行われているのが検索ロボットと呼ばれるコンピュータプログラムを使う方法です。検索ロボットはおおまかに以下のような方法で世界中のウェブページを集めます。

1.         いくつか有名なウェブサイトのトップページを列挙しておく。

2.         列挙したトップページの中から一つウェブページを選択する。

3.         選択したウェブページの内容を読み込みデータベースに保存する。

4.         読み込んだウェブページの中のリンクを順番に選択し、3の作業を繰り返す。

1で列挙したウェブページのそれぞれについて2以降の作業を繰り返すことで、リンクで繋がっている世界中のウェブページを芋づる式にデータベースに収めることができます。コンピュータは人間と違い、このような単調作業を繰り返して行うのが非常に得意ですので、世界中のウェブページのデータを格納することができるような巨大なディスクを用意し、時間をかけてウェブページのデータを集め、その中から文字を検索するプログラムを作れば、キーワード検索型サーチエンジンを作ることができます。

キーワード検索型サーチエンジンは、世界中のウェブページの大半をデータベースの中に保持しているので、キーワードを入力するとそのキーワードが書かれているほぼすべてのウェブページを検索することができるという利点があります。しかしその反面ありふれた単語をキーワードとして入力してしまうとあまりにもたくさんのウェブページが検索されてしまい、その中からどうやって自分の欲しい情報が書かれたウェブページを探してよいかわからなくなるという欠点(このことを情報の洪水と呼びます)があります。また、世界中のウェブページを検索してデータベース化するのには時間がかかるので、ウェブページの内容が更新されたり、新しいウェブページが作られてもそれがデータベース化されるまで時間がかかります(例えば数週間〜1ヶ月程度)。従ってキーワード検索型サーチエンジンでは最新の情報が得られない場合がある点に注意が必要です。

なお、キーワード検索型サーチエンジンはウェブページの全文の中からキーワードを検索するので、全文検索型サーチエンジンと呼ばれることもあります。

·          ディレクトリ型サーチエンジン

ディレクトリ型サーチエンジンは一言でいえば巨大なリンク集です。サーチエンジンのウェブページを管理している人が、ウェブページの内容をジャンルに分けて分類整理し、それらを元に巨大なリンク集を作成しているので、ジャンルを頼りに見つけたいウェブページを検索することができます。代表的なディレクトリ型サーチエンジンの一つであるYAHOO(ヤフーと読みます)のサイト http://www.yahoo.co.jp を見て下さい。ウェブページの中ほどにある「Yahoo!カテゴリ」の下に様々なジャンルが分類されています。

それらのリンクを選択するとそのジャンルをさらに詳細に分類したウェブページが表示され、それらを辿っていくことで自分の知りたい情報に関連するウェブページのリンク集を表示することができます。例えばHTMLを学びたい場合は、「コンピュータとインターネット」「インターネット」WWWHTML「ガイド、チュートリアル」の順で辿ればHTMLを解説するウェブページのリンク集が表示されます。

ディレクトリ型サーチエンジンの場合、検索ロボットのようなプログラムが自動的にウェブページを巡回するのではなく、人が手動でウェブページをジャンルごとに分類してデータベース化しているのでキーワード検索型サーチエンジンと比べてどうしても検索できるウェブページの数が大幅に限られるという欠点があります。しかしその反面、情報がジャンル毎に整理されているため、キーワード検索型サーチエンジンのような情報の洪水に会いにくく、効率的に情報を検索できるという利点があります。

·          個人サイトのリンク集

 個人が運営するウェブページ検索サービスとして、リンク集だけを集めたウェブページが存在します。会社が運営している規模の大きいディレクトリ型サーチエンジンと異なり、個人が運営しているため探し出すことができるウェブページの数はさらに少ないのですが、良くできたリンク集では企業のものと比べてより専門的なウェブページの情報を得ることができる場合があります。

·          代表的なサーチエンジン

代表的なキーワードサーチエンジンのURLを一覧にします。昔はサーチエンジンのサイトは片方のサービスしか提供しないものが多かったのですが、最近ではほとんどのサーチエンジンがキーワードサービス型とディレクトリサービス型の両方のサービスを提供しています。また、ディレクトリサービス型サーチエンジンにキーワード検索機能をつけた複合型のサーチエンジンも一般的になってきています。

http://www.google.co.jp/                                          http://www.yahoo.co.jp/

http://www.infoseek.co.jp/                         http://www.excite.co.jp/

http://www.fresheye.com/                          http://www.lycos.co.jp/

http://www.livedoor.com/                           http://www.altavista.com/ (海外のサイトです)

サーチエンジンはそれぞれ提供するサービスの質が微妙に異なります。また、あるサーチエンジンで見つけられなかった情報を他のサーチエンジンで見つけられるという場合がよくありますので、欲しい情報が見つからなかった場合は一つのサーチエンジンにこだわらずに、いろいろなサーチエンジンを使って見るのが良いでしょう。

3.      高度な検索方法

キーワード検索型サーチエンジンを使った結果、大量の検索結果が表示され、その中のどのウェブページに自分が知りたい情報が入っているのかを探しきれない場合があります(情報の洪水)。これに対処する為、検索結果を絞り込む方法が用意されています。

例えば http://www.google.co.jp/ で「日本語のページを検索」ボタンをチェックし、「ライブドア」をキーワードに検索をしてみて下さい。するとページの上のほうに「30,400,000件中1 - 10件目」というような表示がされると思います。これは「ライブドア」という単語を含むウェブページが約3000万個見つかったので、その中の最初の10個のリンクを現在表示しているという意味を表します。残りの検索結果を表示するには、ウェブページの下に書かれている「次へ」と書かれたリンクをクリックします。

先日のライブドアのように、大きな話題になっている単語やありふれた単語をキーワードとして入力すると検索結果が膨大になってしまい、そのなかからどれを選べば良いかわからなくなってしまいます。そこで、知りたい情報に関するキーワードを複数指定することで、得られるウェブページの量を絞り込むことができます。例えば、ライブドアと堀江氏の情報が知りたい場合、キーワードの部分に「ライブドア 堀江」とそれぞれの単語の間をスペース記号で区切って入力してみて下さい。これでウェブページの中に「ライブドア」と「堀江」の両方の単語が入ったページが検索されるようになり、ヒット数が約4,170,000件と(この例ではまだまだ多いですが)検索を絞り込むことができます。「ライブドア 堀江 保釈 裁判」のように検索条件を増やすことでヒットするウェブページの数をさらに絞り込むこともできます。

情報の洪水とは逆に、マイナーな単語で検索を行うと、ページが一つも検索されなかったり、知りたい情報とは関係のないウェブページしか検索されない場合があります。このような場合は、単語を複数設定しそれらの単語のうちのいずれかを含むウェブページを検索する方法が用意されています。これを行うには単語と単語の間に OR を半角で記述します。例えば「ライブドア OR 堀江」と記述すると「ライブドア」又は「堀江」のいずれかの単語が含まれているウェブページが全て検索されます。

サーチエンジンの種類によってはこれらの記述方法が若干異なる場合があります。詳しくはサーチエンジンのページのどこかに必ず詳しい使い方が記述されているのでそれを参照して下さい。また、多くのサーチエンジンでは、日付や言語など様々な条件を使った検索サービスを提供しています。例えばgoogleの場合、「検索オプション」と書かれているリンクをクリックするとより詳細な検索を行う為のウェブページが表示されます。

4.      WWWに関するFAQ (Frequently Asked Question)

·          ウェブページを表示しようとしたがエラーが出て表示されない。

いくつか原因が考えられますが、最も多いのが 404 Not Found」や「ページがみつかりません」と表示されるケースです。これは、URLで指定したウェブページが存在しないということを表しています。ウェブページの内容はウェブサーバの中のファイルに格納されていますが、そのファイルを何らかの理由で削除するとそのファイルを指すURLのページを見ることはできなくなってしまいます。このように、リンク先のページが存在しないリンクのことを「リンク切れ」や「デッドリンク」と呼びます。またもともと存在しないウェブページのURLを指定した場合もエラーになります。

この他の原因としては、ウェブサーバが止まっていたり、ネットワークが混雑しているためデータを転送できなかった場合などが考えられます。この場合はウェブサーバが復旧するか、ネットワークの混雑が解消されるまで待つしかありません。

·          自分がどのウェブページを見たかを他人が知ることはできるか?

良く仕事中や授業中に趣味のウェブページを見た場合、そのことが先生や上司にバレないか?という質問がありますが、その答えは「調べればばれる場合がある」です。

第一にウェブブラウザにはある程度の過去までに見たページとその時間を履歴として残す機能があり、それを見ればそのブラウザでどのページをいつ見たかを知ることができます(IEの場合「履歴」ボタンを押す)。この機能は最近見たページでうっかりお気に入りに入れるのを忘れたページをもう一度みたい場合には便利です。また、過去に訪れたことのあるページのURLをアドレスに入力した時に最初の数文字を入力しただけで勝手に残りの部分を補完してくれる場合がありますが、それも履歴機能の一部です。なお、ブラウザの履歴は手動で消去することが可能です。

第二にウェブサーバなどのサーバは一般にデータの転送要求があった場合、どのコンピュータからいつどのような要求が来たかをファイルに保存します(これをログファイルと呼びます)。特に大学の教室や会社のコンピュータのように、ログインしてから使用するコンピュータからアクセスした場合は誰がいつどんなウェブページを見に行ったかを調べることは不可能ではありません。ただし、プライバシーの問題がありますので、これらのログは通常一般には公開されませんし、いちいち毎日誰がどこをみにいったかをチェックするのは大変なので自分がどのウェブページを見に行ったかが通常他人に知られることはないといって良いでしょう。

とはいえ、会社などのコンピュータでは仕事の以外の用途でコンピュータが使われていないかどうか厳しく監視している場合がありますし、犯罪的な用途でWWWが使われた場合は当然警察などが介入して詳しく調べますので、何をやってもばれないだろうと思うのは早計です。節度をわきまえた利用を心がけて下さい。

·          買い物をしようと思ってクレジット番号を入力してくれと言われたが途中で盗聴される心配はないか?

インターネットは誰もが利用できるコンピュータネットワークです。従って途中で誰かが盗み聞きをしている可能性は充分にあり、クレジットカード番号などの他人に知られたくない情報をやりとりするのは危険が伴います。これに対処するために、多くのオンラインショッピングサイトではクレジットカードなどの情報を暗号化して送るようになっています。暗号化の仕組みについては詳しく述べませんが、データを暗号化して送ることによって、途中でデータを盗聴されても相手には内容がまったくわからないようになります。ただし、すべての暗号は解読される危険性があるので、暗号を使ったからといって100%安心であるということはありませんが、クレジットカード番号などの大事なデータをWWWでやり取りする場合は、最低限暗号を使って送るとウェブページに記述されているのを確認してから送ると良いでしょう。

·          WWWを使えば無料でいろんなソフトが手に入るって本当か?

WWW上にはいろんなソフトがあり、そのうちフリーソフト(free soft)と呼ばれる、「ソフトの作者が無料で利用してもかまわない」と宣言したソフトは実際に無料で手に入れて利用することができます。また、シェアウェア(shareware)という、一定期間は無料で使用でき、気に入った場合はお金を払うというタイプのソフトウェアも存在します。ただし、フリーソフトやシェアウェアといっても作者が著作権を放棄したわけではありません。フリーソフトを手に入れてそれを自分が作ったと偽って他人に売りつけるなどの行為は犯罪ですので決して行わないで下さい。WWW上にはフリーソフトを集めたサイト(例えば http://www.forest.impress.co.jp/)があり、そこへいけばインターネットを通じてフリーソフトを手に入れることができます。このように、インターネットを通じでファイルなどのデータを自分のコンピュータに転送することを「ダウンロード(download)」と呼びます。逆に自分のコンピュータのファイルをインターネット上のコンピュータに転送することを「アップロード(upload)」と呼びます。

コンピュータのソフトなどのデータはコピーが簡単なため、商品のソフトを自分のサイトにコピーして置いて、ダウンロードできるようにするサイトを作る人がいますが、それらの行為はお金を払わずに商品を手に入れる万引きと同じ犯罪です。そのような商品のソフトを置いた人も、ダウンロードして利用した人も共に犯罪行為を行った事になり、見つかると罪に問われる場合がありますのでくれぐれも決してそのような行為は行わないようにして下さい。また、ソフトに限らずインターネット上には無断で他人の音楽データなどを置いているところがありますが、それも犯罪です。製作者の立場に立ってみればわかることですが、もしこのような著作権を無視して他人のソフトや音楽データを勝手にコピーすることが許されてしまうと、誰も一生懸命ソフトや音楽データを作らなくなってしまいます。くれぐれも他人の作ったデータを無断でコピーして利用しないで下さい。(なお、自分で購入したCDのデータを個人使用を目的にMDやコンピュータにコピーすることは許されていますが、あくまで個人使用だけです。それを他人にコピーすると犯罪になりますので注意して下さい)

もう一つ注意して欲しいのがコンピュータウィルスです。インターネット上からダウンロードできるソフトにはウィルスが混入されている可能性があり、ダウンロードしたソフトを実行するとコンピュータがウィルスに感染してしまう可能性があります。これは原理的には電子メールの添付ファイルを開くとウィルスに感染する可能性があるというものと全く同じです。特に詳しい内容が書かれておらず、とにかく面白いからダウンロードしてくれと書かれているようなソフトはウィルスが混入されている危険が非常に大きいので注意して下さい。ソフトをダウンロードして実行する場合は必ずウィルススキャンソフトを使ってウィルスに感染していないことを確認してから実行するように心がけて下さい。

·          ウェブページを見ただけでコンピュータウィルスに感染するって本当?

HTMLで書かれたウェブページには文字や絵だけでなく、プログラムを書くことができるようになっています。良くウェブページでマウスカーソルを移動させるとボタンの絵などの形状がかわるようなページがありますが、それらはJavaScriptと呼ばれるプログラムがウェブページの中に埋め込まれているからです。本当はJavaScriptにどんなプログラムを書いてもウィルスに感染しないようにするべきなのですが、セキュリティホールが見つかった場合、ウェブページを見ただけでユーザの知らないうちに勝手にウィルス入りのファイルをダウンロードして実行し、コンピュータウィルスに感染させるようなプログラムを書くことが可能な場合があります。JavaScriptによるウィルス感染を防ぐ一つの方法として、ウェブページ内にJavaScriptが書かれていてもそれを実行しないようにする方法があります。これを行うには、メニューの「ツール」「ウェブブラウザの設定」で表示されるパネル内で行うことができます(法政大学のコンピュータでは行えません)。また、JavaScript以外にOSのセキュリティホール(欠陥)をついてウェブページを見ただけでウィルスに感染するような場合も実際に発生しています。いずれの場合もセキュリティホールが見つかるとそれを修正するパッチが公開されますので、先週プリントで説明したWindowsUpdateを使ってセキュリティホールを塞ぐプログラムをインターネットからダウンロードして実行して下さい。

·          特定のウェブブラウザでしか見れないウェブページがあるって本当か?

 多くのウェブページはHTMLと呼ばれる形式で記述されています。HTMLは規格が定まっており、その規格に従ってウェブページが記述されていればどんなウェブブラウザでもその内容を見ることができるようになっています。このように、WWWの世界では使っているコンピュータやウェブブラウザの種類に関係なく、誰もが同じ情報を共有できるようにしようという考え方が基本になっています。しかし、残念なことに、ブラウザの開発者が独自にHTMLを一部拡張したために、それらの拡張された形式で記述されたウェブページは特定のブラウザでしか見れない場合が存在します。

·          ウェブページはファイルに書かれていると習ったが、サーチエンジンのように入力したデータによって内容が変わるページはどうなっている?

通常のウェブページはウェブサーバ内に格納されたHTML形式で書かれた文章ファイルを読み込んで画面に表示しています。このようなウェブページのURLのパスの拡張子は一般に.html(又は.htm)となっています。

これに対して、サーチエンジンのページのようにフォームで入力した内容によって表示される内容が変わるウェブページはウェブサーバに格納されたファイルの内容を表示するのではなく、CGIと呼ばれるプログラムが作り出したHTML形式のデータを表示しています。このようなウェブページのURLのパスの拡張子は一般に.cgiとなっています。

5.      課題

任意のサーチエンジンを使って以下の中から5つ以上選んで調べて下さい。調べた結果は電子メールで私のメールアドレスta060017@mail.edu.i.hosei.ac.jpまで(出席のメールとは別に)送って下さい。件名はこれまでと同様に「情報リテラシーI ○月○日 ○限 課題」、内容は1行目に名前、学年、クラス、学生証番号を記入して、2行目以降に課題の答えをそれぞれ以下の形式で記述して下さい。

·           どのような方法でその情報を発見したか。例えば、どのサーチエンジンにどのような検索ワードを入力して探したか等。

·           その情報を発見したウェブページのURLとタイトル。

·           調べた結果を簡単にまとめたもの。

調べる内容は以下の中から5つ以上選んでください。

·           世界最初のコンピュータの名前、開発年、開発者は誰か?

·           去年のプロ野球(セリーグ、パリーグのどちらでも可)又は、Jリーグの上位3チームのチーム名と勝敗。

·           東京駅を正午に出発し、札幌へ行き、札幌で一泊して翌日午後から東京に帰ってくる旅行の計画(使う路線、泊まるホテル、費用など)を立ててみよ。

·           自宅から最も近い救急病院はどこか?

·           ニムダというコンピュータウィルスについて調べ、その特徴を述べよ。

·           20万円で今すぐコンピュータを買う場合、どんなコンピュータが買えるかを調べその中から自分が欲しいと思ったものを挙げよ。

·           インターネットでトラブルにあった場合、相談にのってくれるサイトがいくつか存在する。そのうちのいくつかを探すこと。

·           興味のある企業のホームページを探し、その企業の本社の住所、社長の名前、企業の理念などを調べよ。

·           仮に、自分に恋人がいて、今週末に恋人と食事に行くことになったとする。WWWを使って自分が最適だと思う店を探してみよ。

·           過去の課題のうち調べることができなかったものがあれば、WWWを使って調べよ。

出席、課題のメールは ta060017@mail.edu.i.hosei.ac.jp までお願いします。

質問のメールなどは、 sigesada@edu.i.hosei.ac.jp までお願いします。

授業の資料の最新版は http://www.edu.i.hosei.ac.jp/~sigesada/ にあります。