Thứ Tư, 11 tháng 10, 2017

Nghiên cứu công nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải quyết bài toán tìm kiếm trong hệ thống Văn bản

Về lý thuyết, luận văn tìm hiểu về các thành phần cơ bản của một hệ thống tìm kiếm thông tin bao gồm: Thành phần Thu thập dữ liệu: thực hiện thu thập toàn bộ dữ liệu sẽ tìm kiếm đưa về một nguồn tập trung để phục vụ quá trình phân tích và đánh chỉ mục dữ liệu. Thành phần Đánh chỉ mục dữ liệu: thực hiện phân tích, tiền xử lý nội dung dữ liệu, sau đó tiến hành đánh chỉ mục dữ liệu theo cách thức, cơ chế và yêu cầu của từng máy tìm kiếm cụ thể. Thành phần Tìm kiếm dữ liệu: thực hiện phân tích câu truy vấn và tìm kiếm tài liệu trên các file index, sau đó kết hợp với thông tin xếp hạng để trả lại kết quả tìm kiếm cho người dùng. Luận văn cũng tìm hiểu một cách hệ thống các tính năng và hoạt động của mã nguồn mở Lucene như: Lucene cung cấp khả năng phân tích dữ liệu, tạo chỉ mục cho các tài liệu để xây dựng nên hệ thống chỉ mục, cung cấp khả năng tiếp nhận các xâu truy vấn của người dùng, thực hiện tìm kiếm dựa trên hệ thống chỉ mục đã có và trả về kết quả. Thực nghiệm, từ cơ sở lý thuyết, luận văn đã xây dựng và cài đặt thành công ứng dụng thực nghiệm Lucene vào trong hệ thống tìm kiếm Văn bản. Trong đó, ứng dụng thư viện Lucene.NET để xây dựng hệ thống tìm kiếm với hai thành phần chính là: Tạo chỉ mục và Tìm kiếm văn bản. Hệ thống được kết thừa toàn bộ thư viện mã nguồn mở Lucene.NET nên tính hiệu quả rất lớn và không mất chi phí bản quyền sử dụng.

Không có nhận xét nào:

Đăng nhận xét