亚洲欧美精品沙发,日韩在线精品视频,亚洲Av每日更新在线观看,亚洲国产另类一区在线5

<pre id="hdphd"></pre>

  • <div id="hdphd"><small id="hdphd"></small></div>
      學(xué)習(xí)啦>論文大全>技術(shù)論文>

      網(wǎng)絡(luò)前沿技術(shù)論文

      時(shí)間: 家文952 分享

        網(wǎng)絡(luò)時(shí)代,改變了人們的思想和行為,也使我們的生活變得更方便。下面是由學(xué)習(xí)啦小編整理的網(wǎng)絡(luò)前沿技術(shù)論文,謝謝你的閱讀。

        網(wǎng)絡(luò)前沿技術(shù)論文篇一

        搜索引擎的前沿技術(shù)

        摘要:

        人工智能中的機(jī)器學(xué)習(xí)技術(shù)在基于語(yǔ)料的文本信息處理中獲得了快速發(fā)展,同時(shí)基于統(tǒng)計(jì)和經(jīng)驗(yàn)的方法在超出傳統(tǒng)機(jī)器學(xué)習(xí)的范疇之外也發(fā)展出一些獨(dú)特的方法和技術(shù),這些應(yīng)用將會(huì)使下一代搜索引擎在技術(shù)上取得突破。

        搜索引擎并非只是一個(gè)網(wǎng)絡(luò)上的應(yīng)用程序,它要用到信息檢索、人工智能、自然語(yǔ)言處理、分布式網(wǎng)絡(luò)并行計(jì)算技術(shù)、多媒體技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)挖掘技術(shù)、數(shù)字圖書(shū)館等多領(lǐng)域的理論和技術(shù),具有很強(qiáng)的綜合性和挑戰(zhàn)性。

        從技術(shù)發(fā)展角度講,隨著計(jì)算機(jī)的發(fā)展和互聯(lián)網(wǎng)的普及,對(duì)海量文本信息處理的需求越來(lái)越迫切,這使得人工智能中機(jī)器學(xué)習(xí)技術(shù)在基于語(yǔ)料的文本信息處理中獲得了快速發(fā)展。同時(shí),基于統(tǒng)計(jì)和經(jīng)驗(yàn)的方法在超出傳統(tǒng)機(jī)器學(xué)習(xí)的范疇之外發(fā)展出一些獨(dú)特的方法和技術(shù)。但是,自然語(yǔ)言處理中仍然存在許多尚未解決的問(wèn)題,甚至是影響到自然語(yǔ)言處理的基礎(chǔ)性的核心問(wèn)題。檢索專家Bruce R.Schatz預(yù)測(cè),在自然語(yǔ)言理解沒(méi)有取得突破性進(jìn)展之前,基于概念語(yǔ)義空間的文本信息組織與檢索,將在本世紀(jì)前10年起主要的作用。

        語(yǔ)義索引

        如何處理海量文本信息,特別是隨著網(wǎng)絡(luò)的飛速發(fā)展,如何快速為海量文本信息建立分類目錄有效地組織網(wǎng)上海量信息,以及如何建立具有某種程度語(yǔ)義的索引機(jī)制就是當(dāng)前乃至今后相當(dāng)一段時(shí)間的研究熱點(diǎn)。

        美國(guó)Arizona大學(xué)的陳火斤鈞(Hsinchun Chen)教授首先提出基于概念的文本自動(dòng)分類與語(yǔ)義檢索。概念語(yǔ)義空間實(shí)際上是基于概念空間的語(yǔ)義索引。這是為克服關(guān)鍵詞檢索過(guò)程中由于檢索詞的差異導(dǎo)致檢索結(jié)果差異而建立的支持相關(guān)概念的索引機(jī)制。該項(xiàng)技術(shù)成功地采用機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)了大量文本的自動(dòng)分類、標(biāo)注與檢索。他采用此項(xiàng)技術(shù)成功地承接并完成了美國(guó)涉及多個(gè)領(lǐng)域的文本信息處理項(xiàng)目。

        所謂概念語(yǔ)義空間,就是對(duì)文本集建立的能反映文本集中概念之間語(yǔ)義關(guān)系的一個(gè)索引。概念語(yǔ)義空間與文本檢索、搜索引擎、知識(shí)管理密切相關(guān),它是基于目前自然語(yǔ)言處理技術(shù)的進(jìn)展?fàn)顩r而產(chǎn)生的。

        這里所說(shuō)的概念在形式上的表現(xiàn)是詞,但并不是所有的詞都是概念。概念是從語(yǔ)料中抽取出來(lái)的用于表明一類文檔特征的標(biāo)識(shí)詞,一類文檔可能有不同的概念來(lái)標(biāo)識(shí)。上面所說(shuō)的語(yǔ)義詞典包括同義詞、近義詞。

        采用語(yǔ)義詞典是建立語(yǔ)義索引的一種機(jī)制。語(yǔ)義詞典往往是手工建立的,但這樣建立的詞典不能針對(duì)要處理的語(yǔ)料提取語(yǔ)義關(guān)系,會(huì)降低檢索性能。例如,當(dāng)我們提到“錢(qián)鐘書(shū)”時(shí)就會(huì)自然聯(lián)想到“圍城”,提到“非典”自然就想起了“SARS”,如果語(yǔ)義詞典沒(méi)有建立這種語(yǔ)義關(guān)系(事先手工編輯的語(yǔ)義詞典很難提取這類“聯(lián)想”的語(yǔ)義)。當(dāng)我們用“非典”檢索時(shí),就不能返回僅包含“SARS”的文本; 同樣僅用“錢(qián)鐘書(shū)”檢索,未必能檢索到錢(qián)鐘書(shū)所有著作的信息。解決這一問(wèn)題的一個(gè)重要途徑是共現(xiàn)分析。通過(guò)統(tǒng)計(jì)同一類文本中兩個(gè)詞在同一篇文本中的共現(xiàn)率,可以發(fā)現(xiàn)類似的語(yǔ)義關(guān)聯(lián)。這種語(yǔ)義聯(lián)想的激活可以通過(guò)Hopfield網(wǎng)絡(luò)實(shí)現(xiàn),網(wǎng)絡(luò)的權(quán)值則由共現(xiàn)率確定。隨著技術(shù)的進(jìn)展,還有許多其他自動(dòng)形成語(yǔ)義詞典的方法不斷提出,其中很多都和機(jī)器學(xué)習(xí)有關(guān)。

        查準(zhǔn)與查全的平衡

        評(píng)價(jià)文本檢索系統(tǒng)性能的一個(gè)關(guān)鍵概念是“相關(guān)性”(relevance)。它是用來(lái)判斷獲取的文檔集合對(duì)于用戶需求滿足的程度。相關(guān)性是一個(gè)主觀的概念。相關(guān)性的度量不僅僅依賴于用戶的查詢和所搜索的文檔的集合,還與用戶的個(gè)人需求、偏好、知識(shí)、語(yǔ)言等有關(guān)系。

        作者簡(jiǎn)介:何清

        中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室副研究員,中國(guó)人工智能學(xué)會(huì)副秘書(shū)長(zhǎng)。

        通常將“查準(zhǔn)率”和“查全率”這兩個(gè)指標(biāo)共同用來(lái)衡量檢索系統(tǒng)的性能。查準(zhǔn)率表明系統(tǒng)的精確性。查全率反映了系統(tǒng)的覆蓋性。這兩個(gè)量不是獨(dú)立的,其中一個(gè)指標(biāo)的提高往往以另一個(gè)指標(biāo)的降低為代價(jià)。

        查準(zhǔn)率(Precision)是信息檢索的性能指標(biāo),定義為被檢索到的相關(guān)文檔數(shù)除以所有要檢索的文檔數(shù)。

        查全率(Recall)是信息檢索的另一個(gè)性能指標(biāo)。定義為查找到的相關(guān)文檔數(shù)除以集合中全部相關(guān)文檔數(shù)的值。

        在實(shí)際應(yīng)用中,有些用戶更加注重查準(zhǔn)率,而另外一些用戶則更加注重查全率。也有專家引入一個(gè)綜合了查全率與查準(zhǔn)率的指標(biāo)來(lái)衡量系統(tǒng)的性能。查準(zhǔn)率比較易于度量。對(duì)于所獲取的文檔集合,只要判斷每一篇文檔是否和給定查詢相關(guān)就可以了,其計(jì)算是比較直接的。而對(duì)于查全率的計(jì)算就相對(duì)困難一些,因?yàn)檫@意味著對(duì)于給定查詢,必須計(jì)算整個(gè)文檔集合中相關(guān)文檔的數(shù)目。當(dāng)文檔集合過(guò)大時(shí),這是不可行的。

        檢索返回結(jié)果過(guò)多,對(duì)于用戶來(lái)說(shuō)冗余信息過(guò)多。解決這一問(wèn)題的途徑之一是對(duì)檢索結(jié)果進(jìn)行分類,目前主要是人工選擇有用信息,這樣的人工工作量太大,另外就是對(duì)檢索結(jié)果進(jìn)行實(shí)時(shí)聚類,但這樣做處理速度跟不上,等待時(shí)間過(guò)長(zhǎng),用戶難以忍受。還有一種方式是事先分類并分類檢索,返回的結(jié)果也分類顯示,但對(duì)海量數(shù)據(jù)及時(shí)分類其粒度不可能太小。值得嘗試的辦法是基于事例的學(xué)習(xí),就是對(duì)搜索到的好的結(jié)果作為樣本,讓機(jī)器再次搜索。

        機(jī)器學(xué)習(xí)技術(shù)與自然語(yǔ)言處理

        統(tǒng)計(jì)方法在語(yǔ)音識(shí)別方面的成功,促進(jìn)了類似方法在自然語(yǔ)言處理其他方面的應(yīng)用?,F(xiàn)在各種機(jī)器學(xué)習(xí)方法幾乎都應(yīng)用到了自然語(yǔ)言處理的不同方面,包括詞法、句法分析、歧義消除和理解、會(huì)話過(guò)程和信息抽取以及機(jī)器翻譯。然而,傳統(tǒng)的人工智能中的機(jī)器學(xué)習(xí)對(duì)計(jì)算語(yǔ)言學(xué)的研究貢獻(xiàn)有限。這是因?yàn)榛跈C(jī)器學(xué)習(xí)和基于經(jīng)驗(yàn)的自然語(yǔ)言處理需要通過(guò)相互交流、相互促進(jìn)才能發(fā)展。

        現(xiàn)在自然語(yǔ)言處理中大多數(shù)機(jī)器學(xué)習(xí)的研究都借助了語(yǔ)音識(shí)別中特定的統(tǒng)計(jì)技術(shù),如隱馬爾科夫模型(Hidden Markov Models, HMMs)、概率上下文相關(guān)語(yǔ)法(Probabilistic Context Free Grammars, PCFGs)。其他各種學(xué)習(xí)算法包括決策樹(shù)、規(guī)則歸納、神經(jīng)網(wǎng)絡(luò)、基于示例的方法、貝葉斯(Bayesian)網(wǎng)絡(luò)方法、歸納邏輯程序、基于理解的學(xué)習(xí)。

        遺傳算法也能用于自然語(yǔ)言處理,并且在特定的應(yīng)用中有其優(yōu)勢(shì)。另外,一些特別的機(jī)器學(xué)習(xí)算法如主動(dòng)學(xué)習(xí)、推進(jìn)(Boosting)算法、修正學(xué)習(xí)、有知識(shí)背景的構(gòu)造歸納學(xué)習(xí)、理論修正、經(jīng)驗(yàn)評(píng)價(jià)法、PAC (Probably Approximately Correct)學(xué)習(xí)等對(duì)處理自然語(yǔ)言問(wèn)題是非常有用的。事實(shí)上已經(jīng)有一些文獻(xiàn)提出了利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語(yǔ)言處理的特定方法。這表明目前的研究已經(jīng)不局限于研究UCI(University of California,Irvine)數(shù)據(jù)庫(kù)中由標(biāo)準(zhǔn)數(shù)據(jù)集提供的特征向量的分類問(wèn)題。計(jì)算語(yǔ)言研究組織和機(jī)構(gòu)已經(jīng)收集了很多有趣的涉及許多自然語(yǔ)言問(wèn)題的文本數(shù)據(jù)集。其中有些問(wèn)題通過(guò)選取合適的特征可以退化為標(biāo)準(zhǔn)的分類問(wèn)題,但是其他一些問(wèn)題需要采用或建立復(fù)雜的數(shù)據(jù)結(jié)構(gòu),如完備的句子或解析樹(shù)來(lái)解決。

        以上表明,機(jī)器學(xué)習(xí)能為自然語(yǔ)言處理提供一系列非傳統(tǒng)的學(xué)習(xí)方法的同時(shí),還能提供一般的方法論的指導(dǎo)。反過(guò)來(lái),自然語(yǔ)言處理為機(jī)器學(xué)習(xí)提出了各種有趣的和富有挑戰(zhàn)性的問(wèn)題。這些問(wèn)題常常具有一些特定的特征,如: 非常大的特征空間和極度稀疏的數(shù)據(jù)。另外,統(tǒng)計(jì)語(yǔ)言學(xué)對(duì)機(jī)器學(xué)習(xí)的一個(gè)不太明顯的潛在貢獻(xiàn)是引入了一些新的機(jī)器學(xué)習(xí)算法,如最大熵方法、指數(shù)模型方法。這些方法在傳統(tǒng)機(jī)器學(xué)習(xí)的文獻(xiàn)中沒(méi)有很好地論述。它們可能會(huì)像HMMs和PCFGs在分子生物學(xué)中的成功應(yīng)用一樣有效地被用于其他機(jī)器學(xué)習(xí)問(wèn)題。

        機(jī)器學(xué)習(xí)技術(shù)與自然語(yǔ)言處理任務(wù)有著密切的聯(lián)系,表中列出了他們之間的關(guān)聯(lián)關(guān)系。1999年Claire Cardie和Raymond J. Mooney編輯出版了機(jī)器學(xué)習(xí)雜志的一本專緝,該專輯收集了當(dāng)時(shí)在自然語(yǔ)言處理領(lǐng)域機(jī)器學(xué)習(xí)技術(shù)的典型應(yīng)用。其中還介紹了一些端到端的自然語(yǔ)言應(yīng)用,如Golding & Roth 的感知上下文的拼讀修正系統(tǒng),以及完整的信息抽取系統(tǒng)。該專輯特別提到Soderland的概念抽取模式和Bikel的能夠準(zhǔn)確識(shí)別姓名、日期、時(shí)間、數(shù)字的系統(tǒng)。

        目前,自然語(yǔ)言處理和信息檢索在技術(shù)上沒(méi)能很好地融合。在文本檢索過(guò)程中如果只使用關(guān)鍵詞匹配技術(shù)往往會(huì)遇到詞匯不匹配,這是因?yàn)榇嬖诒磉_(dá)差異。關(guān)鍵詞匹配檢索模式通常基于這樣一種基本假設(shè): 僅在一個(gè)文檔含有與查詢完全相同的詞匯時(shí),它們才相關(guān)。這種相關(guān)性匹配實(shí)際上是基于表層的匹配(Surface-Based Matching)。然而,人類的自然語(yǔ)言中,隨著時(shí)間、地域、領(lǐng)域等因素的改變,同一概念可以用不同的語(yǔ)言表現(xiàn)形式來(lái)表達(dá)。因此即使對(duì)于同一概念的檢索,不同的用戶可能使用不同的關(guān)鍵詞來(lái)查詢,而基于表層的匹配不可能檢索到同一概念的多種語(yǔ)言表達(dá)形式。因此,詞匯不匹配將導(dǎo)致系統(tǒng)的查全率降低。從根本上說(shuō)是目前機(jī)器對(duì)自然語(yǔ)言不能完全理解,缺乏對(duì)概念的語(yǔ)義表達(dá)支持。從目前技術(shù)狀況來(lái)看,盡管我們付出了大量努力,但是要達(dá)到使計(jì)算機(jī)對(duì)自然語(yǔ)言完全理解這一目標(biāo)還差得很遠(yuǎn)。對(duì)于解決上述問(wèn)題在目前可能達(dá)到的目標(biāo)是通過(guò)機(jī)器學(xué)習(xí)對(duì)原始語(yǔ)料中的概念之間的語(yǔ)義關(guān)聯(lián)進(jìn)行挖掘,對(duì)這些語(yǔ)義關(guān)聯(lián)給出合理的表示,從而產(chǎn)生一些常識(shí)性的概念語(yǔ)義。

        概念語(yǔ)義空間技術(shù)能很好移植到中文自然語(yǔ)言處理方面。中科院王永成教授領(lǐng)導(dǎo)的課題組開(kāi)發(fā)出了一個(gè)中文概念檢索系統(tǒng),該系統(tǒng)支持具有一定模式的自然語(yǔ)言查詢和基于概念的檢索,并具有概念表達(dá)擴(kuò)充功能; 用戶可以添加系統(tǒng)原來(lái)不熟悉的概念,而且可以在用戶的幫助下排除差錯(cuò); 可以提供200字的精確摘要; 能進(jìn)行新聞去重,并且改進(jìn)了國(guó)際著名網(wǎng)站Google的排序算法; 系統(tǒng)的 Crawler(自動(dòng)搜索軟件)對(duì)各大新聞網(wǎng)站自行跟蹤、更新,并且根據(jù)查詢動(dòng)態(tài)調(diào)整。

        中科院計(jì)算所在國(guó)家自然科學(xué)基金資助下,采用概念語(yǔ)義空間的思想,實(shí)現(xiàn)了一個(gè)概念語(yǔ)義檢索系統(tǒng)GHunt。該系統(tǒng)采用網(wǎng)絡(luò)蜘蛛采集網(wǎng)頁(yè),以概念語(yǔ)義空間組織網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)建立語(yǔ)義索引,實(shí)現(xiàn)基于概念的智能互動(dòng)語(yǔ)義查詢,以不同粒度摘要或全文方式展現(xiàn); 對(duì)專題事件展現(xiàn)其來(lái)龍去脈; 對(duì)多媒體信息實(shí)現(xiàn)基于內(nèi)容的圖文聯(lián)合檢索。

        建立概念語(yǔ)義空間涉及多方面的文本信息處理技術(shù),包括海量文本自動(dòng)分類聚類技術(shù)、自動(dòng)標(biāo)注技術(shù)、語(yǔ)義索引、語(yǔ)義聯(lián)想檢索技術(shù)。在這一系統(tǒng)中集成了網(wǎng)頁(yè)采集多模式定向采集技術(shù)、基于粗糙集的文本分類技術(shù)、基于群體智能的螞蟻聚類法、基于直接模糊聚類的概念聚類、專題自組織等自有研究成果。聯(lián)索科技開(kāi)發(fā)的IFACE專業(yè)搜索技術(shù)聚焦于適用和實(shí)用的更小搜索單位,利用基于內(nèi)容的語(yǔ)義計(jì)算模型,發(fā)現(xiàn)精深的信息內(nèi)容,識(shí)別信息并將信息整理好,拼裝出表格化信息庫(kù),返回給用戶更加準(zhǔn)確而簡(jiǎn)化的內(nèi)容,而不僅僅是得到包含關(guān)鍵字的網(wǎng)頁(yè)。

        搜索引擎其他新技術(shù)

        1. P2P方式的搜索引擎

        搜索引擎的實(shí)現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu)。當(dāng)系統(tǒng)規(guī)模達(dá)到一定程度(如網(wǎng)頁(yè)數(shù)達(dá)到億級(jí))時(shí),必然要采用某種分布式方法以提高系統(tǒng)性能。P2P方式的搜索引擎就是基于此目的誕生的。搜索引擎的各個(gè)組成部分除了用戶接口之外都可以進(jìn)行分布: 搜索器可以在多臺(tái)機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度; 索引器可以將索引分布在不同的機(jī)器上,以減小索引對(duì)機(jī)器的要求; 檢索器可以在不同的機(jī)器上進(jìn)行文檔的并行檢索,以提高檢索的速度和性能。

        P2P是peer-to-peer的縮寫(xiě)。peer在英語(yǔ)里有“(地位、能力等)同等者”、“同事”和“伙伴”等意義。因此,P2P也就可以理解為“伙伴對(duì)伙伴”的意思,或稱為對(duì)等網(wǎng)。目前人們認(rèn)為其在加強(qiáng)網(wǎng)絡(luò)上人的交流、文件交換、分布計(jì)算、協(xié)同、深度檢索等方面大有前途。

        P2P軟件能在互聯(lián)網(wǎng)中迅速地普及,其中起到主導(dǎo)作用的是一款P2P文件共享軟件Napster。Napster技術(shù)在1999年由當(dāng)時(shí)在美國(guó)東北大學(xué)就讀的Shawn Fanning開(kāi)發(fā)成功,并迅速在眾多MP3數(shù)字音樂(lè)愛(ài)好者中傳播開(kāi)來(lái)。人們可以通過(guò)Napster在網(wǎng)絡(luò)上搜索自己需要的MP3音樂(lè),并從任一臺(tái)聯(lián)網(wǎng)使用Napster的計(jì)算機(jī)中下載。P2P使得參與網(wǎng)絡(luò)的各個(gè)主機(jī)都能夠提供服務(wù),同時(shí)也可以享受到來(lái)自所有其他主機(jī)所提供的服務(wù)。

        P2P網(wǎng)絡(luò)具有集中式服務(wù)網(wǎng)絡(luò)所缺乏的優(yōu)勢(shì): 可擴(kuò)展性強(qiáng)、容錯(cuò)性好、成本低、充分利用分布資源。這些特點(diǎn)使得P2P架構(gòu)在文件共享、分布式存儲(chǔ)、搜索引擎、分布式計(jì)算、傳感器網(wǎng)絡(luò)、協(xié)作軟件中有寬廣的應(yīng)用前景。同時(shí)其所強(qiáng)調(diào)的“以人為本”的理念,將深刻地體現(xiàn)于下一代互聯(lián)網(wǎng)運(yùn)營(yíng)模式。

        2.跨粒度檢索

        信息呈現(xiàn)個(gè)性化、可視化、綜合化的特征,但現(xiàn)有信息檢索結(jié)果一般沒(méi)有粒度區(qū)別,只是若干檢索結(jié)果的羅列,沒(méi)有對(duì)檢索結(jié)果的分析綜合,沒(méi)有形成統(tǒng)一的綜合摘要提供給用戶。另外很少對(duì)用戶關(guān)心的領(lǐng)域信息進(jìn)行處理。信息呈現(xiàn)方式單一,很少以可變粒度的可視化的圖形方式呈現(xiàn),特別是多篇摘要技術(shù)用于大量文檔的綜述。

        概念語(yǔ)義空間的可視化

        概念語(yǔ)義空間是在網(wǎng)絡(luò)信息急劇增長(zhǎng)的條件下產(chǎn)生的,它為快速、有效地組織海量、動(dòng)態(tài)變化、半結(jié)構(gòu)化的網(wǎng)絡(luò)文本信息提供了機(jī)器學(xué)習(xí)手段。在自然語(yǔ)言理解沒(méi)有取得突破性進(jìn)展之前,基于概念語(yǔ)義空間的文本信息組織與檢索,將在本世紀(jì)前10年起主要的作用。概念語(yǔ)義空間的可視化是近來(lái)發(fā)展的一個(gè)方向。采用概念語(yǔ)義空間技術(shù)將文本組織起來(lái)以后,如何向用戶個(gè)性化地展現(xiàn)檢索結(jié)果就成為一個(gè)關(guān)鍵問(wèn)題?,F(xiàn)有的逐個(gè)瀏覽網(wǎng)頁(yè)的方式顯然不能滿足用戶個(gè)性化的需求,因此最近有關(guān)主題探測(cè)與專題組織方面的研究在美國(guó)成為研究熱點(diǎn)。這項(xiàng)研究將涉及自然語(yǔ)言處理的幾乎所有方面。自然語(yǔ)言處理的研究成果將促進(jìn)該項(xiàng)研究的深入開(kāi)展。

        鏈接:搜索引擎核心技術(shù)的演進(jìn)

        ● 上個(gè)世紀(jì)70年代,著名的信息檢索專家Gerald Salton提出了向量空間模型(Vector Space Model),從此,文本檢索引入了倒排索引(Inverted index)以及向量空間模型。另外,他還創(chuàng)立了基于貝葉斯統(tǒng)計(jì)(Bayesian statistics)的布爾方法(Boolean retrieval method)和簡(jiǎn)單概率獲取模型(Simple probabilistic retrieval models)。雖然已經(jīng)經(jīng)過(guò)了近30年的歷史,這些技術(shù)至今仍然構(gòu)成當(dāng)今信息檢索系統(tǒng)以及互聯(lián)網(wǎng)搜索引擎的理論基礎(chǔ)。

        ● 上個(gè)世紀(jì)80年代,在新的人工智能技術(shù)的發(fā)展同時(shí),產(chǎn)生了一些模擬專業(yè)文獻(xiàn)搜集者和領(lǐng)域?qū)<业膶<蚁到y(tǒng)。使用了對(duì)用戶建模以及自然語(yǔ)言處理等技術(shù)來(lái)輔助對(duì)于用戶和文檔的表示。并且產(chǎn)生了一些供研究用的原型系統(tǒng)。

        ● 上個(gè)世紀(jì)90年代初期,當(dāng)研究者們認(rèn)識(shí)到了創(chuàng)建領(lǐng)域知識(shí)庫(kù)的困難之后,試圖采用新的機(jī)器學(xué)習(xí)技術(shù)用于信息分析。這些技術(shù)包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、符號(hào)學(xué)習(xí)等。概念語(yǔ)義空間技術(shù)就是在這個(gè)年代提出的,但當(dāng)時(shí)處于初步研究探索階段。

        ● 上個(gè)世紀(jì)90年代中期之后,隨著搜索引擎的普及以及網(wǎng)絡(luò)Spider(蜘蛛程序)超鏈分析等技術(shù)的發(fā)展,文本檢索系統(tǒng)已經(jīng)成為更新的并且更強(qiáng)大的用于網(wǎng)絡(luò)內(nèi)容的搜索工具。概念語(yǔ)義空間技術(shù)的研究取得突破,并在美國(guó)的數(shù)字圖書(shū)館領(lǐng)域得到應(yīng)用。

        ● 在過(guò)去10來(lái)年,統(tǒng)計(jì)學(xué)習(xí)方法改變了手工建立語(yǔ)法和知識(shí)庫(kù)以及文本目錄索引的狀況,通過(guò)對(duì)大量已標(biāo)注的和未標(biāo)注的自然語(yǔ)料的訓(xùn)練可以部分或全部自動(dòng)地完成上述過(guò)程。

      點(diǎn)擊下頁(yè)還有更多>>>網(wǎng)絡(luò)前沿技術(shù)論文

      網(wǎng)絡(luò)前沿技術(shù)論文

      網(wǎng)絡(luò)時(shí)代,改變了人們的思想和行為,也使我們的生活變得更方便。下面是由學(xué)習(xí)啦小編整理的網(wǎng)絡(luò)前沿技術(shù)論文,謝謝你的閱讀。 網(wǎng)絡(luò)前沿技術(shù)論文篇一 搜索引擎的前沿技術(shù) 摘要: 人工智能中的機(jī)器學(xué)習(xí)技術(shù)在基于語(yǔ)料的文本信息處理中獲得
      推薦度:
      點(diǎn)擊下載文檔文檔為doc格式

      精選文章

      • 網(wǎng)絡(luò)交換技術(shù)論文
        網(wǎng)絡(luò)交換技術(shù)論文

        信息技術(shù)高速發(fā)展的今天,人們對(duì)計(jì)算機(jī)的要求越來(lái)越高,研究計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)交換技術(shù),能夠促進(jìn)計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)交換技術(shù)的發(fā)展,以滿足用戶對(duì)計(jì)算機(jī)

      • 網(wǎng)絡(luò)計(jì)劃技術(shù)論文
        網(wǎng)絡(luò)計(jì)劃技術(shù)論文

        網(wǎng)絡(luò)計(jì)劃技術(shù)在上世紀(jì)六十年代引入中國(guó),成為項(xiàng)目進(jìn)度管理中的重要手段之一,下面是由學(xué)習(xí)啦小編整理的網(wǎng)絡(luò)計(jì)劃技術(shù)論文,謝謝你的閱讀。 網(wǎng)絡(luò)計(jì)劃

      • 網(wǎng)絡(luò)集成技術(shù)論文
        網(wǎng)絡(luò)集成技術(shù)論文

        對(duì)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)集成技術(shù)方法的掌握可以為相關(guān)實(shí)踐提供有益指導(dǎo),目前,這種方法在煤化工等領(lǐng)域已經(jīng)得到了非常廣泛的應(yīng)用。下面是由學(xué)習(xí)啦小編整

      • 網(wǎng)絡(luò)互聯(lián)技術(shù)論文
        網(wǎng)絡(luò)互聯(lián)技術(shù)論文

        網(wǎng)絡(luò)互聯(lián)技術(shù)是網(wǎng)絡(luò)的最有希望的方面的性能在顯著增加。下面是由學(xué)習(xí)啦小編整理的網(wǎng)絡(luò)互聯(lián)技術(shù)論文,謝謝你的閱讀。 網(wǎng)絡(luò)互聯(lián)技術(shù)論文篇一 計(jì)算機(jī)

      2794627