正向索引可以簡稱為索引。
索引就是關鍵詞與網(wǎng)頁文件之間的一種對應關系。所以就存在兩種索引:正向索引和倒排索引。我們知道搜索引擎中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。這里先來介紹—下正向索引。當用戶進行査詢時,如果對本地文件全面掃描用戶所提交的關鍵詞,"查詢"的工作量就太大了,而且也是很消耗服務器資源的,所以搜索引攀會把已經(jīng)處理過的網(wǎng)頁先進行索引,放到數(shù)據(jù)庫中等待網(wǎng)民的搜索査詢請求。
一個網(wǎng)頁被搜索引擎經(jīng)過以上處理后,就只剩下能夠體現(xiàn)網(wǎng)頁主體內(nèi)容的文本了,此時就可以對該網(wǎng)頁進行索引了。正向索引指的是文件對應關鍵詞的形式
正向索引是以關鍵字為主碼,查詢時需要遍歷每一個文件。每個文件都對應一個文件ID,文件內(nèi)容被表示為一串關鍵詞的集合。實際上在搜索引擎索引庫中,關鍵詞也已經(jīng)轉換為關鍵詞ID。這樣的數(shù)據(jù)結構就稱為正向索引。