08 ธันวาคม 2550

การค้นหาข้อมูลบนเวิลด์ไวด์เว็บ

การค้นหาข้อมูลบนเวิลด์ไวด์เว็บ ข้อมูลทั้งหมดที่มีอยู่ตามเว็บไซต์กว่าหลายร้อยล้านแห่งในขณะนี้ คุณอาจจะต้องใช้เวลาตลอดชั่วชีวิตท่องไปในโลกไซเบอร์สเปซ จากลิงก์หนึ่งไปยังอีกลิงก์หนึ่ง การค้นหาข้อมูลเรื่องใดสักเรื่องหนึ่งอาจจะฟังดูน่าสนุก แต่มันก็ไม่ใช่เรื่องง่ายเสียทีเดียว ความยุ่งยากอยู่ตรงที่ไม่รู้ว่าจะเริ่มต้นจากตรงไหนก่อน การสืบค้นข้อมูลบนเน็ตบางครั้งก็จำเป็นต้องใช้ความทักษะพอสมควร บางครั้งก็อาศัยความเฮง ผสมกับศิลปะอีกเล็กน้อย แต่ก็ยังดีที่ทุกวันนี้มีเครื่องมือดี ๆ และที่สำคัญเป็นของฟรีด้วย มาช่วยให้การค้นหาข้อมูลทำได้ง่ายขึ้นกว่าเมื่อหลายปีก่อน คุณอาจจะเคยได้ยินชื่อของ Yahoo!, Excite, AltaVista หรือ เครื่องมือสืบค้นข้อมูล ตัวอื่น ๆ บนอินเทอร์เน็ตอีกนับสิบตัวที่จะช่วยให้คุณค้นหาข้อมูลที่ต้องการได้ง่ายขึ้น เคล็ดลับอยู่ตรงที่คุณควรจะทำความรู้จักคุ้นเคยกับวิธีการทำงานของมัน เพื่อจะได้เลือกใช้ให้ตรงตามความต้องการของงาน เราสามารถจัดแบ่ง Search engines ได้เป็น 2 กลุ่มหลัก ๆ ได้แก่ ประเภท directories และ ประเภทดัชนี indexes ประเภท Directories เช่น Yahoo! นั้น มักจะอยู่ในรูปแบบของการแยกแยะกลุ่มข้อมูลทั่วไป โดยจัดแบ่งตามหมวดเว็บไซต์ที่มีลักษณะคล้าย ๆ กัน อาทิเช่น การให้ความรู้เกี่ยวกับอินเทอร์เน็ต มหาวิทยาลัยที่สอนภาษาอังกฤษ พิพิธภัณฑ์ในกรุงปารีส เมื่อเราใส่คีย์เวิร์ดลงไปใน Search Engine ผลการค้นหาที่ได้จะเป็นรายชื่อเว็บไซต์ที่เกี่ยวข้องกับเรื่องที่คุณกำลังค้นหาทั้งสิ้น เพราะฉะนั้น ถ้าสมมติคุณกำลังค้นหาเว็บไซต์เกี่ยวกับพิพิธภัณฑ์ในอังกฤษล่ะก้อ ลองใช้ Search Engine ประเภท Directory แบบนี้ดู แต่ถ้าคุณต้องการข้อมูลจำเพาะแบบเจาะลึก เป็นต้นว่า อัตชีวประวัติของ ลีโอนาร์โด ดาวินชี ก็ควรจะใช้ Search Engine ประเภท Web Index เนื่องจากตัวค้นหาประเภทนี้ จะใช้ซอฟต์แวร์ ที่เรียกว่า แมงมุม (Spider) หรือ หุ่นยนต์ (Robot) เข้าไปตรวจเช็คเนื้อหาที่มีอยู่ในเว็บไซต์ ทำการวิเคราะห์เว็บเพจและ Newsgroup ที่มีอยุ๋นับล้าน ๆ แห่ง จากนั้น ก็จะทำการแบ่งข้อมูลทั้งหมดออกมาในรูปแบบของสารบัญดัชนี ตัวกลไกแบบดัชนี อย่างเช่น AltaVista และ Lycos จะทำงานได้ละเอียดกว่านั้น โดยจะเข้าไปค้นดูในแต่ละหน้าของเว็บไซต์ซึ่งตรงกับการค้นหาให้ได้มากที่สุด ดังนั้น บ่อยครั้งที่คุณอาจได้รับข้อมูลจากเว็บไซต์ที่เกินความคาดหมาย แต่ในขณะเดียวกัน คุณก็อาจได้รับข้อมูลที่ไม่เกี่ยวกับเรื่องที่คุณค้นหาเลยก็ได้ โดยปกติ กลไกสืบค้นข้อมูล มักจะแสดงผลการค้นหาตามลำดับของ ความเกี่ยวเนื่องกับหัวข้อที่ต้องการ โดยพิจารณาจากจำนวนครั้งที่พบ ข้อความที่เรา ใส่เข้าไปนั้นจาก ในหน้าเว็บไซต์นั้นว่ามีมากน้อยเพียงไร เราจะลองมาเริ่มต้นค้นหาข้อมูลโดยใช้ search engines ชั้นนำ ได้แก่ Yahoo!, AltaVista และ Ask Jeeves เพื่อศึกษาวิธีการทำงาน ของ เครื่อง มือสืบค้นแต่ละตัวไว้เป็น แนวทางในการ กำหนดกลยุทธ์ การสืบค้นที่มีประสิทธิภาพยิ่งขึ้น สมมติว่าคุณมีแผน การจะเดินทางไป ซานฟรานซิสโก และตั้งใจว่า จะไปขับเคเบิ้ลคาร์ แต่ไม่แน่ใจว่าในช่วงเดือนมกราคมนี้จะมีให้บริการหรือไม่ คุณจะหาข้อมูลได้อย่างไร? สิ่งแรกที่ต้องถามตัวเองก่อน ก็คือ "เราจะหาข้อมูล เหล่านี้ จากแหล่งข้อมูลภายนอก ที่ไม่ใช่อินเทอร์เน็ตได้อย่างไร?" บางทีคุณอาจจะได้ข้อมูลเหล่านี้จากหนังสือคู่มือแนะนำการท่องเที่ยวก็เป็นได้ ถ้าเช่นนั้น เราลองใช้วิธ๊เดียวกันนี้ในเครื่องมือสืบค้น Yahoo! โดยกรอกข้อความ San Francisco travel guide ใส่ลงไปในช่องค้นหา แต่ควรใช้ข้อความที่จำเพาะเจาะจงมากที่สุดเท่าที่จะทำได้ เพื่อให้กรอบในการค้นหาแคบเข้ามา ถ้าคุณกรอกเฉพาะข้อความว่า "San Francisco" ลงไปล่ะก้อ รับรองว่าผลที่ได้จะออกมาเป็นพัน ๆ เว็บที่ไม่เกี่ยวกับเรื่องที่เราต้อง การเลยทีเดียว ในขณะที่ถ้าเพียงแค่เราเพิ่มข้อความ "travel guide" เข้าไป ผลที่ได้จะลดจำนวนลง และตรงกับความต้องการมากกว่า การค้นหาจะแสดงผลทั้งหมด 12 ประเภท หนึ่งในนั้น ได้แก่ San Francisco: Travel ซึ่งดูแล้วใกล้เคียงที่สุด หลังจากคลิ้กลงไปในกลุ่มนี้ เราก็ได้รายชื่อประมาณ 20 เว็บไซต์ที่เกี่ยวข้อง พร้อมทั้งรายละเอียดคร่าว ๆ ของแต่ละแห่ง ทีนี้ ก็ไห้คุณคลิ้กเข้าไปอ่านทีละแห่งดูว่ามีที่ไหนที่ให้ข้อมูลเกี่ยวกับเคเบิ้ลคาร์บ้าง ทีนี้ สมมติว่าถ้าคุณกรอกข้อความ "cable cars" ลงไป จะเกิดอะไรขึ้น Yahoo! จะแสดงรายชื่อที่เกี่ยวข้องออกมา แต่อาจจะมีอยู่ไม่กี่แห่งที่จะเกี่ยวกับซานฟรานซิสโกที่คุณกำลังจะเดินทางไป คราวนี้ มาลองใช้ AltaVista ซึ่งเป็นเครื่องมือสืบค้นในแบบดัชนีดูบ้าง เหมือนเช่นเคย ให้กรอกข้อความ San Francisco travel guide ใส่ลงไปในช่องค้นหา AltaVista จะแสดงผลการค้นหาออกมามากกว่า 8 ล้านรายการที่ใกล้เคียงกับคำที่พิมพ์ลงไป คุณคงไม่มีเวลามากพอจะดูได้ทั้งหมดเป็นแน่ สาเหตุที่หาข้อมูลได้มากมายขนาดนี้ เป็นเพราะว่ากลไกของ AltaVista จะเข้าไปเปิดพลิกเอกสารข้อมูลทุก ๆ หน้าที่มีคำว่า "San" "Francisco" "travel" และ "guide" เพราะฉะนั้น ถ้าต้องการหาข้อมูลของข้อความที่มีหลาย ๆ คำเช่นนี้ ให้ใส่เครื่องหมาย " ... " เข้าไปด้วย เช่น "San Francisco travel guide" เป็นต้น ซึ่งในลักษณะนี้ จะได้ผลออกมาไม่ถึง 50 รายการเท่านั้น แถมยังตรงกับสิ่งที่ต้องการมากกว่าเสียด้วย ทีนี้ ลองใช้ AltaVista ให้ค้นหาเกี่ยวกับเคเบิ้ลคาร์ดูบ้าง ถ้าคุณพิมพ์เฉพาะคำว่า cable cars ลงไป จะแสดงออกมาผลออกมามากกว่า 4,000 รายการที่มีคำว่า cable และ cars มาให้ แต่ใช้เครื่องหมาย "..." ที่หัวและท้ายข้อความ จะช่วยจำกัดการค้นหาให้กระชับ และตรงเป้ามากขึ้น หลังจากนั้น ก็ให้ลองเปิดดูเนื่ฃ้อหาที่ได้ว่ามีสิ่งที่ต้องการค้นหาหรือไม่ คราวนี้ มาลองใช้ AltaVista ซึ่งเป็นเครื่องมือสืบค้นในแบบดัชนีดูบ้าง เหมือนเช่นเคย ให้กรอกข้อความ San Francisco travel guide ใส่ลงไปในช่องค้นหา AltaVista จะแสดงผลการค้นหาออกมามากกว่า 8 ล้านรายการที่ใกล้เคียงกับคำที่พิมพ์ลงไป คุณคงไม่มีเวลามากพอจะดูได้ทั้งหมดเป็นแน่ สาเหตุที่หาข้อมูลได้มากมายขนาดนี้ เป็นเพราะว่ากลไกของ AltaVista จะเข้าไปเปิดพลิกเอกสารข้อมูลทุก ๆ หน้าที่มีคำว่า "San" "Francisco" "travel" และ "guide" เพราะฉะนั้น ถ้าต้องการหาข้อมูลของข้อความที่มีหลาย ๆ คำเช่นนี้ ให้ใส่เครื่องหมาย " ... " เข้าไปด้วย เช่น "San Francisco travel guide" เป็นต้น ซึ่งในลักษณะนี้ จะได้ผลออกมาไม่ถึง 50 รายการเท่านั้น แถมยังตรงกับสิ่งที่ต้องการมากกว่าเสียด้วย ทีนี้ ลองใช้ AltaVista ให้ค้นหาเกี่ยวกับเคเบิ้ลคาร์ดูบ้าง ถ้าคุณพิมพ์เฉพาะคำว่า cable cars ลงไป จะแสดงออกมาผลออกมามากกว่า 4,000 รายการที่มีคำว่า cable และ cars มาให้ แต่ใช้เครื่องหมาย "..." ที่หัวและท้ายข้อความ จะช่วยจำกัดการค้นหาให้กระชับ และตรงเป้ามากขึ้น หลังจากนั้น ก็ให้ลองเปิดดูเนื่ฃ้อหาที่ได้ว่ามีสิ่งที่ต้องการค้นหาหรือไม่ Ask Jeeves เป็นเครื่องสืบค้นข้อมูลที่ยอมให้ใช้ภาษาธรรมชาติได้ ซึ่งเป็นวิธีที่น่าสนใจมากทีเดียว เพราะคุณสามารถจะกรอกข้อความที่เป็นภาษาพูดทั่วไปลงไปได้เลย เช่น พิมพ์คำถามว่า "What is the San Francisco cable car schedule?" และคุณอาจจะได้รับตัวเลือกที่เกี่ยวข้อง เป็นต้นว่า "Where can I find a city guide for San Francisco?" และ "Where can I find tourist information for San Francisco?" และเมื่อคุณคลิ้กลงไปบนคำถามเหล่านี้ มันก็จะพาคุณไปยังเว็บไซต์ที่อาจจะมีข้อมูลที่ต้องการก็ได้ AltaVista เองก็ใช้เทคโนโลยีที่พัฒนาโดย Ask Jeeves ดังนั้น คุณสามารถจะใช้ AltaVista ด้วยวิธีระบุคีย์เวิร์ด รวมทั้งวิธีป้อนเป็นคำถามได้เช่นเดียวกัน โปรดระลืกไว้เสมอว่า เว็บไซต์นั้นมีการเปลี่ยนแปลงอยู่เสมอ ซึ่งการเปลี่ยนแปลงนี้ไม่แน่เสมอไปว่า Search Engine เหล่านี้จะรับรู้ด้วย โดยเฉพาะกับเครื่องมือสืบค้นในกลุ่ม Directories นั่นเป็นเพราะว่าผู้พัฒนาเว็บไซต์ส่วนใหญ่มักจะเข้าลงทะเบียนใน Search Engine เฉพาะในครั้งแรกที่เริ่มออนไลน์เท่านั้น แต่หลังจากนั้น เมื่อมีการอัปเดตเว็บไซต์แล้ว ก็ไม่ได้แจ้งให้ Search Engine เหล่านี้ทราบ เพราะฉะนั้น ทางที่ดีที่สุดควรเลือกใช้ Search Engine ประเภทดัชนี ซึ่งซอฟต์แวร์ของมันจะเข้าไปตรวจค้นข้อมูล และจะทำการบันทึกการเปลี่ยนแปลงให้ด้วย Directory Assistance ไม่ว่าคุณจะต้องการค้นหาข้อมูลเกี่ยวกับเคเบิ้ลคาร์ หรือเกี่ยวกับการลงทุน หรือเรื่องอะไรก็ตามแต่ พึงระลึกไว้ว่า เครื่องมือสืบค้นข้อมูลบนเว็บเหล่านี้มีวิธีการทำงานที่ไม่เหมือนกัน ซึ่งแน่นอน มันก็จะให้ผลการค้นหาที่แตกต่างกันด้วย AltaVista จะสร้างระบบสารบัญให้กับทุก ๆ ข้อความที่พบในเว็บเพจและกลุ่มข่าวและนำมาเก็บไว้ มันจะทำการค้นหาจากคีย์เวิร์ด ซึ่งได้มาจากข้อความและบทความที่อยู่ในเว็บเพจและกลุ่มข่าว นำมาเรียบเรียงทำเป็นดัชนี ตัว AltaVista เองจะทำการอัปเดตข้อมูลอย่างสม่ำเสมอ และในแต่ละหน้าที่ได้มา จะมีวันเวลาล่าสุดกำกับไว้ด้วย คุณสมบัติที่น่าสนใจประการหนึ่งของ Excite คือ การให้คะแนนผลลัพธ์แต่ละรายการ เรียกว่า "Confidence Rating" คะแนนที่สูงกว่า แสดงว่าผลที่ได้นั้น ใกล้เคียงกับข้อความที่ระบุไว้มากที่สุดเรียงตามลำดับ นอกจากนี้ Excite ยังมีตัวเลือกให้คุณเลือกดูเอกสารอื่น ๆ ที่ใกล้เคียงกับผลที่ได้รับอีกทางหนึ่ง ในปัจจุบันนี้ Excite มีให้เลือกใช้ได้หลายภาษาอีกด้วย HotBot มีระบบค้นหาคีย์เวิร์ดจากในเว็บไซต์และกลุ่มข่าวที่รวดเร็วและทรงประสิทธิภาพ ผลการสืบค้นจะเรียงตามลำดับความใกล้เคียง คุณสามารถจะค้นหารูปภาพ วิดีโอ และ เพลงประเภท MP3 ได้ถึง 9 ภาษาด้วยกัน InfoSeek ซึ่งเป็นส่วนหนึ่งของ Go Network จะใช้วิธีการค้นหาคีย์เวิร์ดจากในฐานข้อมูลของมันเอง ซึ่งคุณสามารถค้นหาฐานข้อมูลนานาชนิด รวมไปถึงเว็บและกลุ่มข่าว InfoSeek จะจัดลำดับผลที่ได้และแสดงผลที่ใกล้เคียงกับสิ่งที่คุณต้องการมากที่สุด Lycos เป็นกลไกค้นหาแบบดัชนี ซึ่งหมายความว่าซอฟต์แวร์หุ่นยนต์ของ Lycos จะตระเวณไปในอินเทอร์เน็ต และค้นหาเว็บไซต์ ไซต์โกเฟอร์ และ ไซต์ FTP ที่เกิดขึ้นใหม่ตลอดเวลา สามารถค้นหาจากคีย์เวิร์ด และจัดเรียบผลตามความใกล้เคียงของเนื้อความ คุณสมบัติที่โดดเด่น อยู่ตรงที่มันสามารถจะค้นหาไฟล์รูปภาพแลไฟล์เสียงบนเว็บได้ด้วย Yahoo! เป็นเครื่องสืบค้นข้อมูล ยอดนิยมในแบบ Directories ที่สามารถค้นหาจากหัวเรื่องก็ได้ หรือคีย์เวิร์ดเช่นเดียวกับกลไกตัวอื่น ๆ ก็ได้ Yahoo! จะทำงานได้ดีกับการค้นหาข้อมูลทั่วไปของแต่ละหัวข้อ แต่อาจทำให้ข้อมูลที่ได้รับไม่ดีมากนัก หากสิ่งที่คุณต้องการเป้นสิ่งจำเพาะเจาะจงหรือใหม่เกินไป เนื่องจากระบบการจัดเรียงข้อมูลของ Yahoo! เอง Metasearches นอกเหนือจากการค้นหาด้วยระบบไดเร็กทอรี่ หรือ ระบบดัชนีแล้ว คุณอาจจะใช้วิธีค้นหาจากหลาย ๆ Search Engine พร้อมกันโดยใช้วิธีหาจากข้อความในเมตาก็ได้ เทคนิคการค้นหาข้อมูล ไม่ว่าคุณจะเลือกใช้เครื่องมือสืบค้นข้อมูลตัวใดก็ตาม คุณก็ควรที่จะเรียนรู้วิธีการทำงานของมันไว้บ้าง ลองเข้าไปอ่านเคล็ดลับการสืบค้นในแต่ละไซต์ เป็นต้นว่า เครื่องมือนั้น ๆ มีวิธีจัดการกับข้อความที่มีมากกว่า 1 คำได้อย่างไร ส่วนมากแล้ว เครื่องมือเหล่านี้จะแสดงผลการค้นหาจากคำเดี่ยวที่อยู่ในกลุ่มคำนั้นๆ มาให้ด้วย โดยปกติ คุณอาจต้องการจำกัดขอบเขตการค้นหาไว้ เพราะข้อมูลออนไลน์มีปริมาณมากเกินไป แต่คุณจะทำได้อย่างไร ลองมาทำความรู้จักกับหลักตรรกะของบูลีนกันหน่อย จอร์จ บูล นักคณิตศาสตร์ชาวอังกฤษ เป็นผู้พัฒนาหลักตรรกะพีชคณิต ซึ่งต่อมาได้กลายมาเป็นพื้นฐานในการค้นหาฐานข้อมูลคอมพิวเตอร์ หลักตรรกะของบูลีนนี้ จะใช้คำที่เรียกว่า "โอเปอเรเตอร์" ช่วยในการพิจารณาว่าข้อความประโยคใดเป็นเท็จหรือจริง โอเปอเรอเตอร์ที่ธรรมดาที่สุด ได้แก่ AND, OR และ NOT ทั้ง 3 คำนี้ อำนวยประโยชน์ในการค้นหาข้อมูลออนไลน์เป็นอย่างยิ่ง ตัวอย่างต่อไปนี้จะแสดงให้คุณได้ประจักษ์ Searching... Results in... cable AND car Documents with both words cable OR car The greatest amount of matches; documents with either word cable NOT car Documents about cable, but not about cable cars; a good way to limit the search. เนื่องจากเครื่องมือสืบค้นแต่ละตัวมีวิธีการทำงานที่แตกต่างกัน ดังนั้น คุณจึงควรทำความคุ้นเคยกับคุณลักษณะของมันด้วย ข้อแนะนำข้อสุดท้ายนี้ เราอยากจะบอกว่า อินเทอร์เน็ตอาจจะไม่ใช่เป็นแหล่งข้อมูลที่ดีที่สุดก็ได้ ในบางครั้ง บรรณารักษ์ห้องสมุดหรือการใช้โทรศัพท์อาจเป็นทางเลือกที่ดีกว่าสำหรับคุณก็ได้