一、內容安全技術(shù)概述
互聯(lián)網(wǎng)破壞行為增加了互聯(lián)網(wǎng)用戶(hù)進(jìn)行業(yè)務(wù)活動(dòng)的風(fēng)險,也降低了互聯(lián)網(wǎng)信息服務(wù)的管理水平和服務(wù)質(zhì)量。
要阻止這些網(wǎng)絡(luò )破壞行為,營(yíng)造良好的網(wǎng)絡(luò )活動(dòng)氛圍,就需要建立一套功能完善、性能較好且易于維護和擴展的移動(dòng)互聯(lián)網(wǎng)信息內容安全技術(shù)體系。
通過(guò)可靠的檢測技術(shù)保護信息內容安全,這種技術(shù)被稱(chēng)為互聯(lián)網(wǎng)信息內容安全技術(shù)。
二、內容采集、過(guò)濾、審計技術(shù)
用戶(hù)要實(shí)現互聯(lián)網(wǎng)信息內容安全,就必須依靠先進(jìn)的技術(shù)體系來(lái)保障。目前,整個(gè)技術(shù)流程可以分為對信息的采集、過(guò)濾和內容審計3個(gè)步驟。
1、內容采集技術(shù)
數據采集主要是指從本地數據庫、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等數據源導入數據,包括數據的提取、轉換和加載。由于數據源不一樣,數據采集的技術(shù)體系也不盡相同。
互聯(lián)網(wǎng)內容采集主要采用的技術(shù)包括內容協(xié)商、身份認證、Web 信息采集和搜索引擎等。
(1)內容協(xié)商機制
由于客戶(hù)端設備性能以及用戶(hù)喜好的不同,對同一個(gè)網(wǎng)絡(luò )對象質(zhì)量及形式的要求也會(huì )有所不同。
因此,在網(wǎng)絡(luò )中,一個(gè)網(wǎng)絡(luò )對象可能會(huì )有多種不同的表現形式,比如,同一個(gè)網(wǎng)絡(luò )資源會(huì )有不同的媒體類(lèi)型的版本,也可能有不同語(yǔ)言的版本等。
在向Web服務(wù)器發(fā)送請求的時(shí)候,用戶(hù)將其對網(wǎng)絡(luò )資源的要求包含在請求中,Web服務(wù)器在接收到這樣的請求后,會(huì )根據自身的情況對請求做出適當響應。
雙方在確定了請求資源的版本后再進(jìn)行資源的獲取。這種客戶(hù)端和服務(wù)器之間通過(guò)協(xié)商的方式來(lái)獲得內容的過(guò)程被稱(chēng)為內容協(xié)商,內容協(xié)商機制已經(jīng)得到了HTTP的支持。
(2)基于Cookie的身份認證
Web服務(wù)主要通過(guò)HTTP來(lái)實(shí)現瀏覽器和服務(wù)器之間的信息交互,由于HTTP是一種無(wú)狀態(tài)協(xié)議,它并不能在同一用戶(hù)不同時(shí)刻訪(fǎng)問(wèn)相同Web網(wǎng)站時(shí)進(jìn)行用戶(hù)信息的記憶與繼承,即HTTP協(xié)議無(wú)法對各個(gè)不同的用戶(hù)進(jìn)行區分,Cookie就是為了彌補HTTP這一缺陷而誕生的。
利用Cookie實(shí)現身份認證是在傳統Cookie機制的基礎上,Web服務(wù)器使用自行定義的認證方式,向通過(guò)認證的客戶(hù)端傳遞一個(gè)代表客戶(hù)端身份的Cookie信息。
若客戶(hù)端后續發(fā)送的請求中包含此Cookie,服務(wù)器就通過(guò)這個(gè)Cookie來(lái)識別特定的客戶(hù)端,返回客戶(hù)端請求的頁(yè)面。
若客戶(hù)端后續發(fā)送的請求中不包含 Cookie,或者包含了一個(gè)服務(wù)器無(wú)法識別的Cookie,則服務(wù)器認為這是一個(gè)新用戶(hù)的請求,如果用戶(hù)請求的是一個(gè)需要用戶(hù)認證后才可以訪(fǎng)問(wèn)的頁(yè)面,則服務(wù)器會(huì )返回一個(gè)認證失敗的頁(yè)面,并要求用戶(hù)進(jìn)行身份認證。
(3)Web信息采集技術(shù)
Web信息采集技術(shù)通過(guò)分析網(wǎng)頁(yè)的HTML代碼,獲取網(wǎng)內的超級鏈接信息,使用廣度優(yōu)先搜索算法和增量存儲算法,實(shí)現自動(dòng)地連續分析鏈接、抓取文件、處理和保存數據的過(guò)程。
系統在再次運行中通過(guò)應用屬性對比技術(shù),在一定程度上避免了對網(wǎng)頁(yè)的重復分析和采集,提高了信息的更新速度和全部搜索率。
由于網(wǎng)站內的資源常常分布在網(wǎng)內不同的機器上,信息采集系統從某個(gè)給定的網(wǎng)址出發(fā),根據網(wǎng)頁(yè)中提供的超鏈接信息,連續地抓取網(wǎng)頁(yè)(既可以是靜態(tài)的,也可以是動(dòng)態(tài)的)和網(wǎng)絡(luò )中的文件,將網(wǎng)內的信息進(jìn)行全部提取。
(4)搜索引擎
搜索引擎是指互聯(lián)網(wǎng)上專(zhuān)門(mén)提供檢索服務(wù)的一類(lèi)網(wǎng)站,這些站點(diǎn)的服務(wù)器通過(guò)網(wǎng)絡(luò )搜索軟件或網(wǎng)絡(luò )登錄等方式,將Internet上大量網(wǎng)站的頁(yè)面信息收集到本地,
經(jīng)過(guò)加工處理建立信息數據庫和索引數據庫,從而對用戶(hù)提出的各種檢索做出響應,提供用戶(hù)所需的信息或相關(guān)指針。
用戶(hù)的檢索途徑主要包括自由詞全文檢索、關(guān)鍵詞檢索、分類(lèi)檢索及其他特殊信息的檢索等。
(5)其他采集技術(shù)
①爬蟲(chóng)技術(shù)。網(wǎng)絡(luò )爬蟲(chóng)(Web Crawler),又稱(chēng)為網(wǎng)絡(luò )蜘蛛(Web Spider)或Web信息采集器,是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的計算機程序或自動(dòng)化腳本,是搜索引擎的重要組成部分。
網(wǎng)絡(luò )爬蟲(chóng)通常從一個(gè)稱(chēng)為種子集的URL集合開(kāi)始運行,它首先將這些URL全部放到一個(gè)有序的待爬行隊列里,按照一定的順序從中取出URL并下載所指向的頁(yè)面,
分析頁(yè)面內容,提取新的URL并存入待爬行URL隊列中,如此重復上面的過(guò)程,直到URL隊列為空或滿(mǎn)足某個(gè)爬行終止條件,從而遍歷Web,該過(guò)程稱(chēng)為網(wǎng)絡(luò )爬行(Web Crawling)。
②網(wǎng)絡(luò )信息挖掘技術(shù)。由于網(wǎng)絡(luò )可利用信息指數級地增長(cháng),信息需求者從海量的Web信息站點(diǎn)中檢索到有效信息并不容易。
網(wǎng)絡(luò )信息挖掘技術(shù)是數據挖掘技術(shù)、人工智能信息檢索、自然語(yǔ)言理解技術(shù)在網(wǎng)絡(luò )信息處理中的應用。網(wǎng)絡(luò )信息挖掘有別于傳統的信息檢索,能夠在異構數據組成的數據庫中,
從概念及相關(guān)因素的延伸比較上抽取出用戶(hù)需要的深層次的信息,幫助信息檢索者在茫茫數據海洋中快速獲取網(wǎng)絡(luò )信息。
2、內容過(guò)濾技術(shù)
內容過(guò)濾技術(shù)主要分為基于網(wǎng)關(guān)和基于代理兩類(lèi),一般來(lái)說(shuō),包括名單過(guò)濾技術(shù)、關(guān)鍵詞過(guò)濾技術(shù)、圖像過(guò)濾技術(shù)、模板過(guò)濾技術(shù)和智能過(guò)濾技術(shù)等。
(1)基于網(wǎng)關(guān)的內容過(guò)濾
一般嵌入專(zhuān)門(mén)的安全網(wǎng)關(guān)或者防火墻等網(wǎng)關(guān)設備中,此種網(wǎng)絡(luò )設備一般通過(guò)靜態(tài)和動(dòng)態(tài)內容過(guò)濾來(lái)進(jìn)行。
所謂靜態(tài)過(guò)濾,就是可自定義可信站點(diǎn)和禁止站點(diǎn)。比如,靜態(tài)過(guò)濾可以阻塞對“交友社區”的訪(fǎng)問(wèn),以拒絕訪(fǎng)問(wèn)“交友社區”的網(wǎng)站內容。動(dòng)態(tài)過(guò)濾也很重要,因為Internet和Web都不是靜態(tài)的。
相反,新的網(wǎng)頁(yè)正以每年數以?xún)|計的速度添加到Web,每分鐘都有新的站點(diǎn)和頁(yè)面出現。此外,Web頁(yè)也不是一個(gè)單一的實(shí)體,而是由眾多獨立的組件組成,每個(gè)組件都有它們自己的URL,瀏覽器可以單獨和獨立地獲取它們。
其中,每個(gè)組件都可以通過(guò)其URL直接訪(fǎng)問(wèn),因此也可能是過(guò)濾對象。動(dòng)態(tài)內容過(guò)濾可以通過(guò)設定URL中的關(guān)鍵詞來(lái)過(guò)濾含此關(guān)鍵詞的站點(diǎn)以確定用戶(hù)是否應獲取某一請求的URL,即便該URL沒(méi)有明確定義。
比如,動(dòng)態(tài)過(guò)濾可以拒絕訪(fǎng)問(wèn)URL中有“Porn”字樣的所有站點(diǎn)。理想的防火墻不僅應支持靜態(tài)內容過(guò)濾,還應能讓用戶(hù)選擇一個(gè)可以自行決定阻塞的廣泛類(lèi)別列表。
這種功能可使互聯(lián)網(wǎng)管理者允許或阻止對任何站點(diǎn)類(lèi)別的訪(fǎng)問(wèn)。而且,由于Internet始終都在變化,因此,應當定期用被歸入站點(diǎn)類(lèi)型的新URL更新類(lèi)別列表。
(2)基于代理的內容過(guò)濾
主要通過(guò)專(zhuān)用的硬件代理上網(wǎng)設備實(shí)現,一般是將設備配置成代理緩存服務(wù)器,并部署在企業(yè)用戶(hù)和Internet之間,這些優(yōu)化的專(zhuān)用設備就能夠智能地管理用戶(hù)的內容請求。
當用戶(hù)請求一個(gè)URL時(shí),請求首先到達設備相應端口安全專(zhuān)用設備進(jìn)行認證和授權。
如果請求的頁(yè)面中的對象已經(jīng)在該專(zhuān)用設備的本地緩存中,它們就從本地直接訪(fǎng)問(wèn)給用戶(hù);如果不在本地緩存中,安全專(zhuān)用設備就作為用戶(hù)的代理,通過(guò)Internet和源服務(wù)器通信。
當對象從源服務(wù)器返回時(shí),就保存在本地緩存中為后續的訪(fǎng)問(wèn)請求服務(wù),同時(shí)傳送一個(gè)拷貝給訪(fǎng)問(wèn)的用戶(hù)。整個(gè)過(guò)程被全程監控,并作記錄,供訪(fǎng)問(wèn)報告統計提供依據。
3、內容審計技術(shù)
網(wǎng)絡(luò )信息內容審計是指通過(guò)采取一定的技術(shù)手段,監管網(wǎng)絡(luò )中不良文字、圖片、視頻等各類(lèi)信息的傳播行為,以保證網(wǎng)絡(luò )所傳播的各類(lèi)信息內容的健康性、合法性,提供干凈的網(wǎng)絡(luò )信息環(huán)境。
它側重于理解網(wǎng)絡(luò )所傳播的信息內容,判斷信息內容的性質(zhì),并根據相關(guān)的安全策略對非法、不良等各類(lèi)網(wǎng)絡(luò )信息進(jìn)行有效控制和管理,是網(wǎng)絡(luò )安全中保障信息資源安全性的重要組成部分。
內容審計技術(shù),是從網(wǎng)絡(luò )數據分組中提取出內容,從而對信息內容進(jìn)行監控與監管的技術(shù)。
主要應用領(lǐng)域包括對郵件信息的審計、對上網(wǎng)外發(fā)信息(如發(fā)帖內容)的審計、對聊天信息的審計。
內容審計技術(shù)如應用得當,可以作為網(wǎng)絡(luò )管理的有效工具,如被黑客等非法分子應用,則可作為信息竊取的工具。
網(wǎng)絡(luò )信息內容安全審計系統所需的相關(guān)技術(shù)支撐如下。
(1)數據分組捕獲技術(shù)
網(wǎng)絡(luò )數據分組是網(wǎng)絡(luò )信息內容審計系統主要處理的對象,高效的數據分組獲取技術(shù)是內容審計中不可或缺的關(guān)鍵技術(shù)。
目前,從網(wǎng)絡(luò )中捕獲數據分組有2種方式:一種是采用硬件方式,在網(wǎng)絡(luò )端采用專(zhuān)用的硬件對數據分組進(jìn)行捕獲;另一種是采用軟件方式,利用軟件通過(guò)計算機與網(wǎng)絡(luò )連接使用的網(wǎng)絡(luò )適配器來(lái)捕獲網(wǎng)絡(luò )數據分組。
(2)負載均衡技術(shù)
目前,網(wǎng)絡(luò )流量的增長(cháng)速度遠遠超過(guò)了處理器處理能力的增長(cháng)速度,無(wú)論使用何種數據分組獲取技術(shù),利用單臺基于普通處理器的平臺無(wú)法進(jìn)行百兆流量的實(shí)時(shí)內容分析。
利用負載均衡處理技術(shù)可以解決這個(gè)問(wèn)題,即將流量分成幾個(gè)部分,這些部分可以由多臺設備并行處理,從而可以降低單臺設備的負載,提高整個(gè)內容審計系統的性能。
(3)模式匹配技術(shù)
網(wǎng)絡(luò )信息內容審計系統在網(wǎng)絡(luò )關(guān)鍵點(diǎn)捕獲到數據分組后,需要利用模式匹配算法搜索該數據分組內是否出現設定的敏感模式串,以發(fā)現可疑數據分組。
現有模式匹配按照不同的分類(lèi)方法可分為不同的類(lèi)別。按一次在待匹配文本中需要查找的模式串個(gè)數可分為單模式匹配和多模式匹配。
單模式匹配是指從文本串中一次只需要查找一個(gè)模式串,多模式匹配一次需要查找多個(gè)模式串。
若按匹配過(guò)程中是否允許誤差存在分類(lèi),則可分為精確模式匹配和相似模式匹配。
精確模式匹配算法要求從待匹配文本串中找出與模式串完全相同的字符串,相似模式匹配要求找出的字符串可以與模式串存在一定的誤差。
其實(shí),精確模式匹配也可以認為是相似模式匹配的一個(gè)特例,即設定相似模式匹配的誤差為零。