當前位置:首頁 >> 新聞資訊 >> 行業(yè)關(guān)注
發(fā)布時間:2022-11-18      文章分類:行業(yè)關(guān)注      瀏覽量:1137      文章來源:國家檔案局
在大數(shù)據(jù)技術(shù)和人工智能技術(shù)已經(jīng)把我國社會推向智慧社會或智能化社會的今天,在大多數(shù)檔案館(室)正在大力開展檔案數(shù)字化,一部分檔案館(室)已被認證為數(shù)字檔案館(室)的新形勢下,我國檔案館(室)建設(shè)的新方向或新目標是什么?我認為是智慧檔案館(室)。 | |
一、什么是智慧檔案館(室) | |
我這里所說的智慧檔案館(室),同之前很多人所說的智慧檔案館(室),在概念上、內(nèi)涵上及側(cè)重點上,都是不同的。 2019年7月和8月,我不止一次地在有關(guān)學(xué)術(shù)會議上提出我對智慧檔案館(室)的新理解,并同時也提出了與之密切相關(guān)的“檔案數(shù)據(jù)化”這一新概念。在此之前,關(guān)于智慧檔案館(室)的概念,業(yè)界已經(jīng)使用了一段時間,但主要還是聚焦于怎樣用自動化、智能化技術(shù)去實現(xiàn)檔案保管環(huán)境的自動控制、檔案實體的自動跟蹤、檔案裝具的自動移動、檔案信息系統(tǒng)的自動集成與升級、檔案工作業(yè)務(wù)流程的自動整合與再造等??傊?,其側(cè)重的是檔案館(室)的外在管理或物理管理,即:溫濕度及有毒有害氣體的管理、自動報警、自動滅火;案卷和資料的自動跟蹤、自動調(diào)取、自動歸還;人流與物流的自動監(jiān)控;信息流的順暢便捷等。但是,我所提出的智慧檔案館(室),卻不是這樣的。 我所說的智慧檔案館(室),首先應(yīng)該把檔案或檔案數(shù)字化圖像的內(nèi)容全文輸入電腦,即把檔案全部“數(shù)據(jù)化”,讓檔案內(nèi)容全都變成可被電腦全文檢索、任意組合、全部關(guān)聯(lián)、重新生成、主動推送的數(shù)據(jù),使檔案里所包含的智慧,經(jīng)過電腦處理,成為人類智慧的一部分,成為人的外腦;其次,它也能對檔案實體、檔案裝具、檔案環(huán)境、檔案人流、檔案工作各環(huán)節(jié)等進行智能化、自動化、聯(lián)動化的管理。它所側(cè)重的是檔案內(nèi)容的智慧性攝取或智慧管理、知識管理。智慧檔案館是繼傳統(tǒng)檔案館(室)及數(shù)字檔案館(室)之后的第三代檔案館(室),是檔案館(室)的3.0版。它可以說是目前已建設(shè)了20多年的數(shù)字檔案館(室)的升級版,也可以說是已開展了30多年的檔案信息化的升級版。 為什么說智慧檔案館(室)是對數(shù)字檔案館(室)的升級呢?根本原因在于數(shù)字檔案館(室)對傳統(tǒng)的紙質(zhì)檔案進行圖像掃描,每頁檔案只是一張可供閱讀的圖像,每件檔案只有題名、形成者、形成時間、主題詞或關(guān)鍵詞等信息是可由電腦編輯處理的數(shù)據(jù),而大量的掃描圖像都是不可編輯的,檔案的全文內(nèi)容仍要人工來閱讀、檢索、組合、分析、挖掘。而智慧檔案館(室)的所有文字記錄的檔案甚至聲像檔案,都已經(jīng)經(jīng)過識別或轉(zhuǎn)換成了電腦可檢索的電子文檔,所有文字都已經(jīng)被輸入電腦,成為電腦可用大數(shù)據(jù)挖掘技術(shù)任意處理的信息或數(shù)據(jù)。這是數(shù)字檔案館(室)和智慧檔案館(室)的根本區(qū)別所在,也是智慧檔案館(室)比之數(shù)字檔案館(室)堪稱升級換代的原因所在。 為什么說智慧檔案館(室)也是對檔案信息化的升級呢?我們先看看信息和智慧兩個詞的含義。在現(xiàn)代科學(xué)中,信息指事物發(fā)出的消息、指令、數(shù)據(jù)、符號等所包含的內(nèi)容。而智慧則主要指人辨析判斷、發(fā)明創(chuàng)造的能力,它是一種高級的綜合能力,包含感知、記憶、理解、聯(lián)想、邏輯、辨別、計算、分析、判斷、決定等多種能力。從這兩個詞的含義當中我們可以看出:信息是比較低層次的東西,只表示事物的客觀狀態(tài);而智慧則是比信息層次更高的東西,它包含了對事物狀態(tài)的理解、聯(lián)想、邏輯、分析、判斷、決定等更深刻、更高一級的認知。或者說,信息只是未經(jīng)處理的數(shù)據(jù),智慧則是對數(shù)據(jù)進行加工處理,具有了邏輯性、關(guān)聯(lián)性、推理性、創(chuàng)造性等,已經(jīng)不等于原來的信息了。智慧是綜合處理后的信息,是互相關(guān)聯(lián)的信息,是重新生成的信息,是處理了的、加工過的、升級了的信息。如果打個比方,信息是面粉,而智慧則是面粉做成的饅頭、包子、餃子、面包等面粉加工品;信息是大米,而智慧則是大米做成的米飯、米線、年糕、發(fā)糕等大米加工品。這就是信息和智慧的區(qū)別所在,是檔案信息化和智慧檔案館(室)的根本區(qū)別所在,也是智慧檔案館(室)比之檔案信息化堪稱升級換代的原因所在。 從智慧和信息的區(qū)別來看,信息基本相當于數(shù)據(jù)。數(shù)據(jù)的含義是進行各種統(tǒng)計、計算、科學(xué)研究和技術(shù)設(shè)計所依據(jù)的數(shù)值,是事實或觀察的結(jié)果,是用于表示客觀事物的未經(jīng)加工的原始素材,并被認為是信息的表現(xiàn)形式和載體。所以,數(shù)據(jù)基本上跟信息是一樣的東西。隨著大數(shù)據(jù)技術(shù)的出現(xiàn),現(xiàn)在數(shù)據(jù)一詞很流行,幾乎和信息一詞在20世紀80年代的流行程度一樣。彼時是無事物無信息,現(xiàn)今則是無事物無數(shù)據(jù);彼時是信息一詞泛化,而現(xiàn)今又是數(shù)據(jù)一詞泛化。 智慧檔案館(室)首先要把檔案數(shù)據(jù)化或信息化。檔案數(shù)據(jù)化是相對于之前的檔案數(shù)字化而言的,是我在2019年的一次講話中為了區(qū)別于此前人們常說的檔案數(shù)字化而提出來的。其實,它的意思就是把紙質(zhì)檔案或紙質(zhì)檔案數(shù)字化圖像中的每個字都轉(zhuǎn)換成電腦可以處理的數(shù)據(jù)或信息,并輸入電腦,進入數(shù)據(jù)庫,供人們通過大數(shù)據(jù)技術(shù)進行挖掘和處理。數(shù)據(jù)是智慧檔案館(室)的基礎(chǔ)。沒有數(shù)據(jù),特別是沒有檔案內(nèi)容的所有數(shù)據(jù),就不能把數(shù)據(jù)或信息變成智慧。也可以說,智慧檔案館(室)是基于數(shù)據(jù)的,有了數(shù)據(jù)和各種數(shù)據(jù)處理技術(shù),才有智慧檔案館(室)。所以,沒有數(shù)據(jù)就談不上建設(shè)智慧檔案館(室)。 智慧檔案館(室)的數(shù)據(jù)應(yīng)包括電腦可檢索的檔案全文數(shù)據(jù),即:信息流數(shù)據(jù);檔案實體、檔案裝具、檔案設(shè)備等方面的數(shù)據(jù),即物流數(shù)據(jù);檔案工作者、檔案利用者、檔案參觀者等方面的數(shù)據(jù),即人流數(shù)據(jù);檔案庫房溫度、濕度及各種有毒有害氣體濃度,水、火、菌、蟲、鼠等各種環(huán)境或條件的數(shù)據(jù),即環(huán)境數(shù)據(jù)。也就是說,“智慧檔案館(室)的數(shù)據(jù)=檔案全文數(shù)據(jù)+物流數(shù)據(jù)+人流數(shù)據(jù)+環(huán)境數(shù)據(jù)”。在這些數(shù)據(jù)中,檔案全文數(shù)據(jù)是最關(guān)鍵、最重要、最根本、具有決定性的部分。建設(shè)智慧檔案館(室),最重要的是運用各種手段盡快地把紙質(zhì)檔案和紙質(zhì)檔案數(shù)字化圖像及錄音錄像檔案等全部轉(zhuǎn)化為電腦可以檢索的電子文檔,把檔案里的前人智慧挖掘出來,轉(zhuǎn)化為今人的智慧,這就是檔案數(shù)據(jù)化,即檔案的數(shù)據(jù)轉(zhuǎn)化工作。檔案數(shù)據(jù)化是智慧檔案館(室)建設(shè)的要義和核心。 目前,檔案數(shù)據(jù)化或是把檔案由文字、聲音轉(zhuǎn)化為數(shù)據(jù)的途徑至少有以下幾種:第一種,對原件上文字為鉛排、打印的紙質(zhì)檔案以及原件上文字雖然手寫但又十分工整的檔案,用?OCR?識別技術(shù)進行轉(zhuǎn)化,其準確率可在99%以上;第二種,對原件上文字為手寫且?OCR?技術(shù)不易識別的檔案,用特殊的手寫字識別技術(shù)進行轉(zhuǎn)化,其準確率目前最高可達95%左右;第三種,用人工錄入電腦的辦法轉(zhuǎn)化;第四種,用人工朗讀文字并通過音頻技術(shù)把聲音轉(zhuǎn)換成文字,其準確率也可達95%左右。需要指出的是,目前這4種轉(zhuǎn)化方式都需要人工進行校核,都不能100%準確。在轉(zhuǎn)化過程中,文字能全部準確轉(zhuǎn)化出來最好,如不能也不要緊。因為檔案中并不是每個字都具有數(shù)據(jù)意義或檢索價值的,有的虛詞、連接詞、形容詞、裝飾詞、重復(fù)強調(diào)語等,即使這些字轉(zhuǎn)化不出來或不準確,也并不會太大影響整份檔案的實際應(yīng)用。對全文數(shù)據(jù)來說,當然是越多越好,但也不是每個字都不能少,或少一個字就不行。舉一個例子:“張建國,他出生于一九四九年,也就是新中國成立的那一年。”這句話共24個字,但真正具有實際檢索意義的,只有“張建國,一九四九年出生”這10個字。只要把這10個關(guān)鍵的字轉(zhuǎn)化出來了,這句話的基本意思或基本要素、主要信息、核心要義就有了,其他14個字,也就是一半以上的部分,能轉(zhuǎn)化出來當然更好,即使不能轉(zhuǎn)化出來也不太影響全句主要意思和基本信息的表達。因此,現(xiàn)有的各種數(shù)據(jù)轉(zhuǎn)化技術(shù)都可以先進行應(yīng)用,并在應(yīng)用中不斷提高其轉(zhuǎn)化準確率,而不必等到某種技術(shù)完全成熟了再去用。 智慧檔案館(室),光有數(shù)據(jù)還不行,還必須有數(shù)據(jù)挖掘和主動推送技術(shù)。數(shù)據(jù)挖掘就是通過算法從數(shù)據(jù)庫的大量數(shù)據(jù)中展開搜索,找出隱含的、先前未知的、有潛在價值的信息。為實現(xiàn)上述目標,需要利用統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別、人工智能、可視化等多種技術(shù)手段。數(shù)據(jù)挖掘是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中找出規(guī)律、找出相互聯(lián)系、找出因果關(guān)系的技術(shù)。它有3個步驟:第一步是數(shù)據(jù)準備;第二步是對規(guī)律和關(guān)系的尋找;第三步是規(guī)律和關(guān)系的表示。數(shù)據(jù)挖掘的主要任務(wù)是分析,比如關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析、演變分析等。由此看來,數(shù)據(jù)挖掘技術(shù)實際上就是對大數(shù)據(jù)進行智慧性處理的技術(shù),是把信息變成智慧的技術(shù),是讓蘊含在檔案里的智慧更加顯性、更加集中、更加智慧的技術(shù)。通過數(shù)據(jù)挖掘技術(shù),能夠挖掘出檔案的潛在價值和潛在用戶,挖掘出用戶的潛在需求,從而大大提高檔案的價值。更為重要的是還能對挖掘出來的數(shù)據(jù)進行關(guān)聯(lián)性推送、自主推送、定向推送,這就是主動推送技術(shù)。如果說檔案全文數(shù)據(jù)是建立智慧檔案館(室)的基礎(chǔ)和前提,那么,數(shù)據(jù)挖掘與主動推送技術(shù)就是建立智慧檔案館(室)的核心和關(guān)鍵。如果說,智慧檔案館(室)的全部要素要是100分的話,那么在我看來,檔案全文數(shù)據(jù)和數(shù)據(jù)挖掘、主動推送技術(shù),二者要各占40分,其他各種要素加起來也就只占20分。因為其他要素大多在數(shù)字檔案館(室)中已經(jīng)具備了,有的甚至還會成為冗余,需要增加的新技術(shù)既不太多也不太難,而且更不是關(guān)鍵。 為什么說在智慧檔案館(室)中檔案全文數(shù)據(jù)和數(shù)據(jù)挖掘及主動推送技術(shù)缺一不可呢?因為只有數(shù)據(jù)的檔案館(室)還不能稱為智慧檔案館(室),也還不是真正的智慧檔案館(室)。數(shù)據(jù)只 是信息,沒有數(shù)據(jù)挖掘技術(shù)去處理它,它仍然成不了智慧,或者說稱不上是真正的智慧。必須依靠數(shù)據(jù)挖掘技術(shù),通過各種具有針對性的算法,對數(shù)據(jù)進行關(guān)聯(lián)分析、聚類或分類分析、異?;虍愵惙治?、演變分析、對比分析等,才能讓數(shù)據(jù)產(chǎn)生關(guān)聯(lián),形成聯(lián)系和連接,形成趨勢和走向,看出規(guī)律和變異,從而生成經(jīng)過加工、集合、升華的新信息,甚至作出判斷和備選方案,變成智慧。沒有數(shù)據(jù)挖掘與自主推送技術(shù),數(shù)據(jù)就只是孤島,只是孤零零的數(shù)字或文字。打個比方,數(shù)據(jù)是米,數(shù)據(jù)挖掘與主動推送技術(shù)是廚師,只有米而沒有廚師,就做不出香噴噴的米飯;再打個比方,數(shù)據(jù)是線,數(shù)據(jù)挖掘與自主推送技術(shù)是繡娘,沒有繡娘,就繡不出好看的繡品。離開數(shù)據(jù)挖掘與主動推送技術(shù),數(shù)據(jù)永遠是一;而有了數(shù)據(jù)挖掘與主動推送技術(shù),它就能夠問一知十、問一知百,甚至知千知萬,而且還主動告訴你,自動推送給你,有針對性地推薦給你。因為它已將相關(guān)的數(shù)據(jù)和你以往的利用喜好、利用需求聯(lián)接起來了。比如,我們從網(wǎng)上查一個人的簡歷,不但可以找到這個人的簡歷,這個人所有在網(wǎng)絡(luò)中的文章、講話內(nèi)容、活動、照片、音頻、視頻等,也會一同被顯示出來,甚至包括跟他同名的人、同職務(wù)的人、有關(guān)聯(lián)的人的信息也可以被呈現(xiàn)出來。這和數(shù)字檔案館(室)是有很大不同的。數(shù)字檔案館(室)是不查不知、查一知一的,而智慧檔案館(室)則是一查就全知,查一而知道所有或很多的。而這個差異,主要就是由數(shù)據(jù)挖掘與主動推送技術(shù)造成的。當然,除了數(shù)據(jù)和數(shù)據(jù)挖掘與推送技術(shù)外,智慧檔案館(室)還應(yīng)該有數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)傳輸?shù)刃滦图夹g(shù)和設(shè)備作為支撐。 綜上所述,我們就可以知道“智慧檔案館(室)=檔案全文數(shù)據(jù)+數(shù)據(jù)挖掘與推送技術(shù)+數(shù)據(jù)采集系統(tǒng)+數(shù)據(jù)存儲系統(tǒng)+數(shù)據(jù)傳輸系統(tǒng)”。智慧檔案館(室)必須有3個要素:一是以檔案全文數(shù)據(jù)為核心,包括其他各種檔案業(yè)務(wù)和檔案工作數(shù)據(jù)的大數(shù)據(jù);二是以數(shù)據(jù)挖掘與主動推送技術(shù)為核心,包括數(shù)據(jù)采集、數(shù)據(jù)感知、數(shù)據(jù)存儲、數(shù)據(jù)傳輸?shù)鹊臄?shù)據(jù)處理及主動推送技術(shù);三是可以將檔案實體、檔案裝具、檔案環(huán)境、檔案業(yè)務(wù)系統(tǒng)、檔案人員、檔案利用者連接起來的物聯(lián)網(wǎng)系統(tǒng)。所以,也可以說“智慧檔案館=檔案數(shù)據(jù)+數(shù)據(jù)挖掘與推送技術(shù)+物聯(lián)網(wǎng)”。這就是我所理解的智慧檔案館(室),它和現(xiàn)在其他人所提出、所理解、所認為、所定義的智慧檔案館(室)不同之處有3點:一是強調(diào)了檔案的全文數(shù)據(jù)化,而別人沒提到。二是強調(diào)了數(shù)據(jù)挖掘與主動推送技術(shù),別人也沒提到。這兩點我認為是智慧檔案館(室)的主要標志和主要內(nèi)容,是智慧檔案館(室)的靈魂和核心,沒有這兩點,智慧檔案館(室)是不充分的、名不符實的。三是別人強調(diào)了對檔案實體的自動調(diào)取、跟蹤監(jiān)控,對檔案柜架的自主移動、自動開閉,對檔案保管環(huán)境的自動監(jiān)控、自主調(diào)節(jié)等,而我認為在智慧檔案館(室)中,這些并不是必要的,有些甚至還是冗余的。
| |
二、為什么現(xiàn)在要建設(shè)智慧檔案館(室) | |
我們?yōu)槭裁船F(xiàn)在要迫切地提出建設(shè)智慧檔案館(室)呢?因為現(xiàn)在有著5個方面的有利條件和現(xiàn)實基礎(chǔ)。 1.智慧社會的到來,為智慧檔案館(室)建設(shè)營造了外部環(huán)境 “智慧社會”的提法,源于IBM在2008年11月提出的“智慧地球”的概念,2009年時任美國總統(tǒng)奧巴馬運用了這個提法后,這個概念迅速躥紅。它包括三個要素,即物聯(lián)化、互聯(lián)化、智能化。這個概念提出后,很多城市又提出了“智慧城市”的概念,并開始了智慧城市的建設(shè)和評選,我國的許多城市就在積極地建設(shè)智慧型城市。2019年我在雄安看到了無人駕駛汽車、無人酒店、無人超市等,切切實實地感受到了智慧城市的雛形。伴隨著智慧城市的還有智慧小區(qū)、智慧樓宇、智慧家居等。此外,智慧教育、智慧交通、智慧醫(yī)療、智慧司法、智慧旅游、智慧人文、智慧物流等也已經(jīng)撲面而來,各行各業(yè)、方方面面都在以智慧為引領(lǐng),推進智能化建設(shè)。正是在此基礎(chǔ)上,黨的十九大提出了“智慧社會”這一新的理念,智慧社會的到來為智慧檔案館(室)建設(shè)營造了很好的社會環(huán)境,同時也增添了現(xiàn)實的迫切性。 2.人工智能和數(shù)據(jù)挖掘推送為智慧檔案館(室)提供了關(guān)鍵技術(shù) (1)先看人工智能技術(shù) 最近幾年我們先后看到,“阿爾法狗”這款智能人工軟件,先是在2017年以4:1戰(zhàn)勝了前世界圍棋第一人李世石九段。這是人工智能研究的一個標志性成就和里程碑式事件。之后,它又在2018年擊敗了史上最年輕的“五冠王”、中國圍棋九段職業(yè)棋手柯潔,再次顯示了人工智能的威力。緊接著,在中央電視臺“中國詩詞大會”節(jié)目中出現(xiàn)了一款輸入了幾萬首詩詞的機器人,與詩詞高手們同臺競賽,主持人任意出一個詩題,機器人都能根據(jù)題意寫出詩來,而且水平不亞于人類,與同臺選手的寫詩水平難分伯仲。同樣在2018年,我國應(yīng)用了機器人播音。它能模仿任何人進行播音,只要把某人的聲音和影像資料輸進去,它就能模仿這個人進行播音,其動作、表情、聲音都惟妙惟肖?,F(xiàn)在,科大訊飛可以根據(jù)聲紋來讓機器人模仿任何人的聲音,只要輸入不到一分鐘的真人聲音,機器人即可模仿出可以亂真的模擬聲音。 2019年11月,司法部在南京召開有關(guān)“智慧司法”的會議,重慶市司法局展示了法律服務(wù)智能機器人“大?!?,它的服務(wù)速度和準確度已多次戰(zhàn)勝人類律師。最近我在參觀科大訊飛時得知,他們研制的智能機器人參加律師資格考試,竟然勝過90%以上的人類考生;智能機器人教師能夠批改考試卷,并且比人類教師批改得更加客觀公正,其評分一致率在中考試卷評分中普遍高于人類教師5%左右,在高考試卷評分中普遍高于人類教師10%左右;智能機器人醫(yī)生的診斷水平也高于很多人類醫(yī)生,因而被推薦到全國很多基層醫(yī)院做醫(yī)生助手使用。 由上可見,人工智能技術(shù)的發(fā)展,已使得機器人不但具有“智慧”,而且具有高于人類平均水平或高于普通人的“智慧”。以前,我們以為機器人只能干體力活,不能干智力活,但現(xiàn)在人工智能技術(shù)的發(fā)展,已經(jīng)打破我們的這個認識。 (2)再看數(shù)據(jù)挖掘推送技術(shù) 近年來,我切實感受到數(shù)據(jù)挖掘推送技術(shù)的發(fā)展。它不但挖掘出很多新信息,而且還定向地、主動地向人進行推送。比如,我用手機和電腦錄入文字,剛輸入一個字,輸入法軟件就會彈出由這個字組成的所有詞或詞組供我選擇;我用搜索引擎查某個詞,也會出來一連串與之相關(guān)聯(lián)的自動推送。為什么在新聞類App上會有很多我想看的消息?那是App?根據(jù)我過去的閱讀內(nèi)容、閱讀習慣而主動推送給我的。這些都是運用算法等數(shù)據(jù)挖掘推送技術(shù)來完成的。 定向推送技術(shù)最知名的應(yīng)用是所謂“俄羅斯干預(yù)美國大選”。據(jù)說俄羅斯運用定向推送技術(shù),向美國各種不同的人群,定向地、主動地推送美國總統(tǒng)候選人有關(guān)信息,對選民進行“洗腦”和引導(dǎo),影響選民對候選人的好惡。 由上可見,數(shù)據(jù)挖掘與推送技術(shù)發(fā)展得也出乎想象地快,應(yīng)用得也出乎意料地普遍。今天,可能我們一不小心就會被別人“定向推送”,并加以左右甚至成功“洗腦”了。 人工智能技術(shù)也好,數(shù)據(jù)挖掘推送技術(shù)也好,都是把數(shù)據(jù)變成智慧的技術(shù)。這些技術(shù)的應(yīng)用和發(fā)展,為建設(shè)智慧檔案館(室)提供了關(guān)鍵性的技術(shù),讓智慧檔案館(室)不再是一個空話或標簽,而是能夠變成現(xiàn)實、得以實現(xiàn)、成為實際。在它們沒有出現(xiàn)的時候,人們講智慧檔案館(室),只能是表面的、淺層次的、名義上的,甚至是誤讀的,而當它們出現(xiàn)以后,建設(shè)智慧檔案館(室)就可以名副其實了,可以建成實質(zhì)意義上的智慧檔案館(室)。這些技術(shù)的出現(xiàn),是我這兩年開始提出建設(shè)智慧檔案館(室)的一個重要主因。 3.信息識別轉(zhuǎn)化為智慧檔案館(室)建設(shè)提供了技術(shù)手段 以前,傳統(tǒng)的紙質(zhì)和聲像檔案要轉(zhuǎn)化為電腦可檢索的數(shù)據(jù),實現(xiàn)手段只有一個—?人工輸入電腦。盡管有漢語拼音輸入、筆畫輸入、手寫輸入等方法,但輸入速度都比較慢。之后,又不斷地發(fā)展出一些新的信息識別轉(zhuǎn)化技術(shù)。 (1)OCR識別技術(shù) 目前只能用于印刷體或手寫特別工整的文字,其識別率可達99%以上。一頁印刷的或手寫工整的檔案掃描進電腦,通過軟件即可把它轉(zhuǎn)化成電腦可以檢索的文字。前提是檔案頁面要整潔,沒有凌亂的筆畫,否則識別率就會降低。 (2)手寫字掃描識別技術(shù) 為了解決?OCR?技術(shù)識別不了手寫檔案的問題,人們又專門研究出手寫字的掃描識別技術(shù)。據(jù)我所知,科大訊飛的掃描識別技術(shù)在識別民國檔案上的繁體手寫字時,準確率已可達80%以上。銀雁科技的簡體手寫字識別技術(shù)的準確率也能達90%左右。前幾年,中國科學(xué)院自動化研究所的掃描識別技術(shù)在掃描識別快遞上的簡體手寫字時,準確率已可達95%以上。隨著掃描識別的不斷積累,識別率肯定還會繼續(xù)地不斷提高,將來一定能達到目前??OCR??對印刷體字的識別水平。 (3)聲音轉(zhuǎn)化文字技術(shù) 也就是通過人來讀檔案,機器再把人的聲音轉(zhuǎn)化成文字。只要讀音準確,機器基本能“聽聲出字”,準確率也很高,它的速度是電腦手工輸入的一倍以上。前不久,我在科大訊飛目睹了一場“嘴”和“手”的比賽:國內(nèi)一些數(shù)字化公司的錄入快手之間先進行比賽,產(chǎn)生的冠軍再與訊飛的聲音錄入員比賽,結(jié)果“人嘴”完勝了“人手”,聲音轉(zhuǎn)化文字的速度大大快于計算機手工錄入文字的速度。 (4)人臉識別技術(shù) 主要是根據(jù)人的面部特征,把照片、錄像中的人物識別出是誰來。 智慧檔案館(室)建設(shè),關(guān)鍵在于建立檔案全文數(shù)據(jù);建立檔案全文數(shù)據(jù),關(guān)鍵又在于把檔案里電腦不能檢索的文字、聲音、圖像,轉(zhuǎn)化成可檢索的數(shù)據(jù)。當有了以上這些途徑的識別轉(zhuǎn)化技術(shù)以后,檔案數(shù)據(jù)化就不再是不可能的了,而是變成完全可能了。這些技術(shù)的應(yīng)用和發(fā)展,也是我在今天提出建設(shè)智慧檔案館(室)的又一個主要原因。 4.檔案行業(yè)對建設(shè)智慧檔案館(室)有了更高的積極性,使智慧檔案館(室)建設(shè)有了實現(xiàn)主體 從檔案部門來說,有些檔案室十幾年前就通過手工錄入的方法,對檔案進行了“數(shù)據(jù)化”,把檔案中的所有文字轉(zhuǎn)化成了電腦可以檢索的數(shù)據(jù)。只可惜那時尚無數(shù)據(jù)挖掘技術(shù),因而未對這些數(shù)據(jù)進行智慧性開發(fā)、關(guān)聯(lián)性挖掘和自主式推送。2014年以來,浙江省和其他一些地方的檔案館(室)在數(shù)字檔案館(室)的基礎(chǔ)上,對檔案實體、檔案保管條件等方面進行智能化、自動化管理,進行了他們所自定義的智慧檔案館(室)建設(shè)。 從檔案服務(wù)企業(yè)來說,科大訊飛2018年以來分別同國家檔案局、浙江省檔案館等單位簽署了包括人工智能應(yīng)用等“智慧檔案”建設(shè)在內(nèi)的戰(zhàn)略合作協(xié)議,并在相關(guān)檔案館進行了紙質(zhì)檔案數(shù)據(jù)化建設(shè)的試驗。還有一些檔案服務(wù)企業(yè),最近幾年也提出了基于檔案實體自動化跟蹤和管理、檔案裝具自動性移動、檔案溫濕度自動控制、檔案安全自動報警等的所謂“智慧服務(wù)”。 檔案館(室)的積極性會帶動起檔案服務(wù)企業(yè)的積極性和創(chuàng)造性。因為檔案館(室)有建設(shè)智慧檔案的積極性,則會產(chǎn)生智慧檔案的需求;智慧檔案的需求,則會引發(fā)檔案服務(wù)企業(yè)產(chǎn)生積極性,引導(dǎo)企業(yè)的技術(shù)和人力向這個方面發(fā)展、向這個方向投入。檔案館(室)是需方,他們有需求,但缺技術(shù)、缺人力;檔案服務(wù)企業(yè)是供方,他們有技術(shù)、有人力,但缺市場、缺用武之地?,F(xiàn)在,需方和供方這雙方都產(chǎn)生了并且雙方都有積極性,就可以自然結(jié)合、互利共贏。他們的結(jié)合,可以很快讓智慧檔案變成現(xiàn)實,讓智慧檔案館(室)建設(shè)起步、起飛。他們的積極性,讓我看到了智慧檔案館(室)建設(shè)的可行性和現(xiàn)實性。 5.在推進紙質(zhì)檔案數(shù)字化的過程中,不厘清思路將造成人力和財力的浪費 檔案數(shù)據(jù)化之于檔案數(shù)字化,智慧檔案館(室)之于數(shù)字檔案館(室),是迭代式的更新和發(fā)展,是覆蓋性的提高和增強,是管理方式的根本性變化、轉(zhuǎn)向性發(fā)展。不少工作在數(shù)字檔案館(室)建設(shè)中是必要項,而在智慧檔案館(室)中則會成為非必要項,成為閑置的、冗余的、無用的東西。如果我們盡早開展檔案數(shù)據(jù)化,則可以不做這些不久將會無用的工作,避免不必要的人力、物力和時間的浪費。比如,我在2019年年底到一個省級檔案館參觀時,看到他們正在大規(guī)模地開展檔案數(shù)字化,其中有幾十個人都在搞檔案題名的著錄。但是在智慧檔案條件下,檔案已經(jīng)全文數(shù)據(jù)化,每個字都可以供電腦任意檢索了,現(xiàn)在著錄的題名、責任者、文種、形成時間等,就沒有單獨存在的意義了,因為它已經(jīng)包含在全文數(shù)據(jù)當中了。一份檔案的每句話、每個詞、每個字,都可被檢索出來,無需人工再去重新擬寫標題并著錄各項主要內(nèi)容。前不久,在一次觀看人工著錄標題與錄音轉(zhuǎn)化著錄標題的比賽時,主持人曾問我,這種人工著錄標題將來的前景怎樣?我就回答了3個字:“會消失!”因為檔案全文數(shù)據(jù)化后,就無需再做現(xiàn)在這些費時費力的標題著錄工作了。還有一些檔案館(室)熱衷于搞檔案實體的自動跟蹤、監(jiān)控和管理,在這方面花人力、花時間、花經(jīng)費,其實也大可不必。因為檔案數(shù)字化或數(shù)據(jù)化以后,紙質(zhì)檔案實體應(yīng)全部進入封存狀態(tài),一般情況下,在庫房內(nèi)不會再移動,無需再去自動跟蹤、監(jiān)視、管理它。所以,人們今天正在費人、費力、費錢去做的一些事,將在檔案數(shù)據(jù)化后失去意義。因此,各個檔案館(室)越早開展檔案數(shù)據(jù)化工作,就越能避免更多重復(fù)勞動或無效勞動,越能避免花更多冤枉錢,越能更好地提高我們的工作水平。 以上這些,都為智慧檔案館(室)建設(shè)提供了各方面的條件,使智慧檔案館(室)建設(shè)具有了現(xiàn)實的可行性,也有了實際的可操作性,甚至還有了緊迫性。因為“智慧化”是目前的大勢所趨,已不得不行。因此,智慧檔案應(yīng)該是我國檔案館(室)建設(shè)和檔案事業(yè)發(fā)展的新方向、新目標、新任務(wù)、新出路。 | |
三、怎樣建設(shè)智慧檔案館(室) | |
1.切實轉(zhuǎn)變思想觀念 轉(zhuǎn)變思想觀念是建設(shè)智慧檔案館(室)的第一步,沒有這一步就不可能建設(shè)智慧檔案館(室)。轉(zhuǎn)變思想觀念主要是要樹立以下幾種新觀念: (1)樹立數(shù)據(jù)越多越智慧的觀念 這是一種全新的思想觀念,是和我們過去的傳統(tǒng)觀念完全不同的新觀念。因為在有了數(shù)據(jù)處理技術(shù)后,數(shù)據(jù)越多就越接近事物的原貌和全貌,智能機器人就越智慧、越聰明,回答的問題和給出的方案就越準確、越精確。比如,擁有1億個用戶的導(dǎo)航系統(tǒng),肯定比只有1000萬個用戶的導(dǎo)航系統(tǒng)更準確;存有10萬首詩的機器人,肯定比只存有1萬首詩的機器人更會作詩;存有100年氣象檔案的機器人,肯定比只存有10年氣象檔案的機器人預(yù)報天氣更準確。這就說明,數(shù)據(jù)越多越智慧。 (2)樹立數(shù)據(jù)就是財富的觀念 早在2014年,我參觀阿里巴巴公司時,相關(guān)負責人就告訴我:“對我們來說,數(shù)據(jù)不是包袱,而是財富?!蔽艺J為,在大數(shù)據(jù)時代,數(shù)據(jù)對任何單位都是正資產(chǎn)而不是負資產(chǎn),都是一筆財富而不是一個包袱。數(shù)據(jù)越多就越智慧、越有價值、越是真正的財富。為什么現(xiàn)在有很多公司免費讓你用它的軟件,實際上就是為了“攢數(shù)據(jù)”。擁有的數(shù)據(jù)越多,這家公司就越值錢,上市后的市值就越高,越有人向它投資。將來決定同類智能機器人誰更精確、誰更智慧、誰更值錢,主要是看誰輸入的數(shù)據(jù)更多。所以,數(shù)據(jù)就是財富,在今天不但是理念和口號,而且是活生生的現(xiàn)實,是我們過去所從未見過、從未認識到的。 (3)樹立數(shù)據(jù)都是檔案的觀念 由于數(shù)據(jù)都是記錄,而記錄就是檔案,所以,數(shù)據(jù)也是檔案。檔案工作者必須盡早地認識到數(shù)據(jù)都是檔案,盡早地把數(shù)據(jù)看作檔案,并把數(shù)據(jù)當作檔案去收集、去管理、去服務(wù)。這樣,檔案館(室)才能不喪失數(shù)據(jù)并擁有數(shù)據(jù),檔案部門才能不被數(shù)據(jù)部門所取代。否則,檔案館(室)將失去最大量、最重要的檔案資源—數(shù)據(jù),檔案工作和檔案部門也將逐步被數(shù)據(jù)工作、數(shù)據(jù)部門所覆蓋并取代。 (4)樹立“數(shù)據(jù)=檔案=財富”的觀念 既然上面我已說到兩個等式:“數(shù)據(jù)=財富”“數(shù)據(jù)=檔案”,那么我們也可以推導(dǎo)出第三個等式:“檔案=財富”,并可以把這三者畫等號,得出“數(shù)據(jù)=檔案=財富”的結(jié)論。在大數(shù)據(jù)時代、智能化時代、智慧時代,檔案工作者一定要樹立“數(shù)據(jù)=檔案=財富”的新觀念,不要再認為數(shù)據(jù)不是檔案,也不要認為數(shù)據(jù)和檔案不是財富。否則,檔案數(shù)據(jù)化和智慧檔案館(室)建設(shè)就缺少了理論依據(jù)和精神動力,就會增加認識上和行動上的阻力。 (5)樹立合作開展檔案數(shù)據(jù)化和數(shù)據(jù)挖掘的觀念 有些檔案部門的同志,一想到檔案數(shù)據(jù)化工程那么巨大,一想到數(shù)據(jù)挖掘和主動推送技術(shù)那么高深艱難,檔案部門又缺少這方面的人才,就會打退堂鼓,不敢去想,更不敢去干。實際上,這些工作大都可以外包出去,讓科技服務(wù)企業(yè)幫你去干,讓專家?guī)湍闳ジ?,甚至花錢買相關(guān)的軟件和設(shè)備,組織人去干。這樣你還覺得難嗎?過去,檔案數(shù)字化或者說是數(shù)字檔案館(室)的建設(shè),不就是這么干起來、干出來的嗎?下一步的檔案數(shù)據(jù)化和數(shù)據(jù)挖掘推送,或者說是智慧檔案館(室)建設(shè),也完全可以這么干,甚至可以說也必然會這么去干。目前,有的公司有這樣的積極性,有的公司有這樣的現(xiàn)成技術(shù)和現(xiàn)成設(shè)備,只要有檔案館(室)愿意去做,馬上就會有人同你合作、幫你去干,直到幫你干成、幫你干好。 2.及時收集新形成的檔案數(shù)據(jù) 目前,在各個檔案形成單位,文字方面的檔案都是電子檔案,都可自動成為電腦任意處理的數(shù)據(jù),但還有不少活動還完全沒有記錄,或者雖有錄音、錄像等記錄,但沒有轉(zhuǎn)化為文字,沒有成為電腦可處理的數(shù)據(jù)。這就造成了新數(shù)據(jù)的缺失。不久前,我在科大訊飛看到了他們的一些設(shè)備,很適合于幫助各個檔案形成單位及時地收集今后所有新形成的檔案數(shù)據(jù)。比如,過去領(lǐng)導(dǎo)外出視察、調(diào)研活動中的即席談話,無人錄音或錄像,這些談話的原始數(shù)據(jù)就隨即消失了,只能靠后人零星的回憶。而現(xiàn)在科大訊飛的錄音設(shè)備,讓領(lǐng)導(dǎo)裝在衣袋里或夾在衣服上,所有講話都錄下聲音來,形成錄音檔案,同時又由設(shè)備轉(zhuǎn)化成文字記錄,形成電子檔案。又比如,過去開會,大多數(shù)靠人工記錄,每個人的講話都記錄不全,甚至記錄不準。少數(shù)的有錄音甚至錄像,但錄音、錄像都沒有及時整理成文字,仍然不能成為電腦可以處理的數(shù)據(jù)。而現(xiàn)在科大訊飛的設(shè)備可以把錄音、錄像中的講話內(nèi)容,全部都轉(zhuǎn)化為文字,讓它成為電腦可處理的數(shù)據(jù)。再比如,一些檔案館搞口述史記錄,對相關(guān)人員進行錄音、錄像,但這些聲音也沒有及時轉(zhuǎn)化成文字即電腦可處理的數(shù)據(jù)。他們也可借助科大訊飛的相關(guān)設(shè)備和技術(shù),及時把這些聲音全部轉(zhuǎn)化為文字記錄,轉(zhuǎn)化為數(shù)據(jù)。這也可以叫“智慧建立檔案”或“智慧收集檔案”吧!它可以幫助人們把檔案建立得更豐富,把數(shù)據(jù)搜集得更廣泛。 3.積極開展非電子檔案的數(shù)據(jù)化工作 目前,在絕大多數(shù)檔案館(室)中,紙質(zhì)檔案和音像檔案這些非電子檔案普遍都沒有開展數(shù)據(jù)化工作,即電腦可處理文字的轉(zhuǎn)化工作。而這是建設(shè)智慧檔案館(室)的前提和關(guān)鍵,也是工作量最大的一項工作,是最實的一招。各個檔案館(室)都要以最堅定的信心、最大的力量去完成這項工作。 (1)紙質(zhì)檔案或其數(shù)字化圖像數(shù)據(jù)化 已開放檔案可以先搞數(shù)據(jù)化,因為它可以外包給檔案數(shù)據(jù)化企業(yè)去做。涉密檔案可以先不搞數(shù)據(jù)化,有特殊需要的可采購設(shè)備,用自己人去搞。紙質(zhì)檔案數(shù)據(jù)化,可以各種技術(shù)并用,可用?OCR?識別技術(shù)轉(zhuǎn)化的,則用?OCR?識別技術(shù)轉(zhuǎn)化成數(shù)據(jù),因為它速度最快,成本也最低。不能用?OCR?識別的,還可用其他技術(shù)和方法去轉(zhuǎn)化,一種是手寫字識別技術(shù),即把手寫檔案掃描進電腦,電腦通過軟件識別成它可處理的文字;另一種是聲音轉(zhuǎn)化技術(shù),即由人把手寫檔案中的每個字讀出準確的讀音來,設(shè)備通過聲音轉(zhuǎn)化成文字即電腦可處理的數(shù)據(jù);再一種是電腦手工錄入技術(shù),即由錄入員把檔案上的文字通過拼音或字碼錄入電腦,轉(zhuǎn)化成文字。以上這4種方法,檔案館(室)可以根據(jù)自己的檔案情況和經(jīng)費情況等,或單獨運用,或聯(lián)合使用,或多種并用。只要咬定青山不放松,用釘釘子的精神,一年接著一年干,堅持數(shù)年,必有大成。 (2)音像檔案數(shù)據(jù)化 就是把錄音、錄像檔案中的聲音通過聲音識別轉(zhuǎn)化技術(shù)或軟件,全部自動地轉(zhuǎn)化成文字即電腦可處理的數(shù)據(jù),并把它導(dǎo)入數(shù)據(jù)庫。這樣,音像檔案中的所有聲音內(nèi)容就可以全部數(shù)據(jù)化了。這項技術(shù)不但可以把音像檔案中的文字全部轉(zhuǎn)化為數(shù)據(jù),讓它成為人類智慧的一部分,而且還可以通過聲音識別并找出數(shù)據(jù)庫中某個人的所有聲音?,F(xiàn)在,很多年代久遠的音像檔案中有些聲音已不知道發(fā)言者是誰了,但只要有一份音像檔案知道是誰的,設(shè)備就可以根據(jù)這個已知人的聲音,把他的其他音像檔案都識別出來,讓人們知道那些也是這個人講的。并且設(shè)備還可以根據(jù)文字找到聲音在檔案中的位置,利用者通過文字即數(shù)據(jù)內(nèi)容可隨即聽到某段聲音或看到某段錄像。 (3)照片、錄像檔案中的人物數(shù)據(jù)化 這是通過人臉識別技術(shù)來完成的。在很多過去的照片和影像中,有的人對得上名字,有的人則對不上名字,人物數(shù)據(jù)沒被挖掘出來。現(xiàn)在,通過相關(guān)的人臉識別軟件,輸入電腦的所有照片和影像中的人物,只要有一處被對上過名字,那么該人物在其他所有場景中都可以被準確地識別出來,并對上名字。這樣,照片檔案和影像檔案中的很多人物就被自動識別出來了,“無名氏”就變成了“有名氏”,人物的數(shù)據(jù)就會大大地擴充,變得更為廣泛。 通過這幾方面工作,紙質(zhì)檔案、音像檔案、照片檔案中的信息就可以完成數(shù)據(jù)化,并進入相應(yīng)的大數(shù)據(jù)庫,成為被電腦所挖掘和推送的數(shù)據(jù),成為智慧檔案館(室)的源頭和儲備。數(shù)據(jù)儲備越多,檔案館(室)就越智慧、越有價值。 4.廣泛收集數(shù)據(jù) 建設(shè)智慧檔案館(室),數(shù)據(jù)是基礎(chǔ)。各個檔案館(室)要運用各種數(shù)據(jù)自動收集技術(shù),廣泛收集各種數(shù)據(jù)。 (1)收集檔案內(nèi)容數(shù)據(jù) 也就是檔案的全文數(shù)據(jù)。要運用各種技術(shù),把紙質(zhì)檔案、照片檔案、音像檔案中能夠轉(zhuǎn)化的,全部轉(zhuǎn)化為電腦可處理的數(shù)據(jù),并把它們同電子檔案數(shù)據(jù)匯合在一起,建立起檔案全文數(shù)據(jù)庫。這是基礎(chǔ),是重點,是最要緊、最關(guān)鍵的數(shù)據(jù)。收集得越早越好,收集得越廣泛、越齊全越好。除檔案外,報紙、雜志、內(nèi)部出版物等資料的數(shù)據(jù)將來也可收集進來,它們對檔案數(shù)據(jù)也是重要的補充。 (2)檔案實體數(shù)據(jù) 即檔案的編號、數(shù)量、位置、被移動情況、被利用情況、損壞或修復(fù)情況等方面的數(shù)據(jù)。在智慧檔案館(室)里,檔案實體是基本不動的,對它的監(jiān)控不需要太復(fù)雜,主要記錄它的位置、數(shù)量、動用等就可以了。 (3)檔案環(huán)境數(shù)據(jù) 即檔案庫房的溫濕度、有毒有害氣體濃度、灰塵濃度、煙霧濃度等數(shù)據(jù)。這些數(shù)據(jù),各地可以因地制宜,主要收集有損檔案安全的主要數(shù)據(jù)。比如,一些溫濕度變化不足以影響檔案安全的地區(qū),就無需建立溫度和濕度的數(shù)據(jù)。 (4)人流數(shù)據(jù) 包括檔案工作者人數(shù)、檔案利用者人數(shù)、檔案參觀者人數(shù)、工作交流者人數(shù),以及他們的位置等。 (5)其他數(shù)據(jù) 比如,檔案裝具的數(shù)量及位置,庫房的數(shù)量及位置,工作用房和技術(shù)用房的數(shù)量及位置,檔案設(shè)施設(shè)備的數(shù)量、位置、年限等。 檔案館(室)只有把各方面數(shù)據(jù)都收集齊全,才能根據(jù)這些數(shù)據(jù)進行智慧性管理。擁有以上這些數(shù)據(jù)后,通過利用大數(shù)據(jù)技術(shù)和物聯(lián)網(wǎng)系統(tǒng)就可以實現(xiàn)檔案館(室)中的信息與電腦、人與電腦、物品或設(shè)備與電腦,以及信息與信息、人與人、物與物、人與信息、人與物、信息與物等等之間的互聯(lián)互通、互感互知。 5.千方百計確保數(shù)據(jù)安全 有了數(shù)據(jù),還要用各種方法保證數(shù)據(jù)的安全。因為,數(shù)據(jù)是智慧檔案館(室)的靈魂,數(shù)據(jù)一旦丟失,檔案館(室)就只剩下外殼。 (1)對全部數(shù)據(jù)在異地備份一套以上 數(shù)據(jù)都是電子的,電子數(shù)據(jù)的最大弱點是不安全因素很多,安全系數(shù)比較低,安全風險比較大。為了確保它的安全,就要對它全部進行異地備份,在幾百公里以外的多處地方備份保存一套以上,從而確保特殊情況導(dǎo)致數(shù)據(jù)丟失后,能有備份數(shù)據(jù)頂上來,不會造成數(shù)據(jù)的“全軍覆沒”。 (2)應(yīng)用自動報警設(shè)備 要普遍應(yīng)用防火、防水、防盜、防遠程攻擊等的自動報警設(shè)備。在高溫、高濕地區(qū)還要有高溫、高濕的自動報警與調(diào)控設(shè)備。 (3)應(yīng)用自動滅火裝置 數(shù)據(jù)庫房要用防火、防水材料進行隔離,而且一定要有自動滅火裝置,以確保即使庫房發(fā)生火災(zāi)也能自動撲滅,不致?lián)p毀數(shù)據(jù)。 (4)設(shè)置防遠程攻擊的“防火墻” 電子數(shù)據(jù)的一個軟肋是黑客可以通過網(wǎng)絡(luò)發(fā)起遠程攻擊,竊取、篡改、調(diào)換、鎖住或銷毀數(shù)據(jù)。所以,數(shù)據(jù)庫房必須采用最先進的信息安保技術(shù)和設(shè)備,為數(shù)據(jù)建立“防火墻”“安全盾”“生命線”。 6.積極采用數(shù)據(jù)挖掘推送技術(shù) 對智慧檔案館(室)來說,數(shù)據(jù)是它的硬件,數(shù)據(jù)挖掘推送技術(shù)則是其軟件。離開這個軟件,智慧檔案不能真正實現(xiàn)。各級檔案館(室)要開始重視這方面的技術(shù)、人才和企業(yè)。各級檔案館(室)要眼睛向外,尋找具有數(shù)據(jù)挖掘推送技術(shù)背景的人才和企業(yè),同他們開展合作,先對目前已有現(xiàn)成數(shù)據(jù)的電子檔案運用算法進行挖掘和推送。以此為基礎(chǔ),先建立智慧檔案館(室)的框架和基礎(chǔ)。既可以在簽訂保密協(xié)議、確保數(shù)據(jù)不外泄的基礎(chǔ)上,把數(shù)據(jù)挖掘與推送外包給有關(guān)企業(yè),就像過去搞檔案數(shù)字化和信息化一樣。當然,各級檔案館(室)也可以引進相關(guān)人才,自己來搞,特別在招收新錄用人才時,要招收一些數(shù)據(jù)挖掘推送方面的人才,就像過去招收計算機人才一樣。 檔案服務(wù)企業(yè)更要注重數(shù)據(jù)挖掘推送技術(shù),盡早地研究這項技術(shù),并開展這項工作。這一技術(shù)將來的應(yīng)用前景會很大,因為它將像以往的計算機技術(shù)一樣,全面地覆蓋全國所有的檔案館(室),將來真正風行全國、風行世界的,將是這項技術(shù)和人才。 高等學(xué)校要盡早開設(shè)數(shù)據(jù)挖掘推送技術(shù)方面課程,培養(yǎng)這方面的人才。因為這方面人才現(xiàn)在社會上很急需。未來幾年、十幾年中,數(shù)據(jù)工程師必然會像十幾年前的網(wǎng)絡(luò)工程師一樣稀缺和緊俏。檔案服務(wù)企業(yè)和檔案館(室)可以和高校聯(lián)合培養(yǎng)或在高校定向培養(yǎng)這方面人才,并優(yōu)先錄用這方面人才。 7.盡快地主動推送檔案信息 智慧檔案館(室)在有了一些基礎(chǔ)后就要積極地投入應(yīng)用,主動地向領(lǐng)導(dǎo)、向各方面利用者推送現(xiàn)有的檔案數(shù)據(jù)。比如,領(lǐng)導(dǎo)要本地某一年糧食方面的數(shù)據(jù),你不但迅速給他提供出這一年的糧食數(shù)據(jù),而且還給他主動推送出本地歷年的糧食數(shù)據(jù)及增減趨勢,今年糧食數(shù)據(jù)在歷年中的位置和比較,再推送出跟糧食有關(guān)的本地歷年油料、棉花、水果、蔬菜、氣象、災(zāi)害等數(shù)據(jù),外地這一年和歷年的糧食數(shù)據(jù),本地這一年和歷年同外地的比較等。再比如,某利用者要用張三的參軍證,你不但給他提供出張三的參軍證,而且還主動推送出張三在部隊的立功證、受獎證、培訓(xùn)證、學(xué)歷證、成果證明以及他參軍前的畢業(yè)證、參軍后的轉(zhuǎn)業(yè)證、退伍證,和他同一批參軍的其他人的參軍證等。這就發(fā)揮出智慧檔案館(室)的優(yōu)勢和作用來了,這就顯示出智慧檔案館(室)同以前兩代檔案館(室)的不同和高級來了。以前的館或室只是要什么給什么,要一只給一,而智慧檔案館(室),則是要什么都不只是給出什么,還給出其他相關(guān)的一切,即“1+N”,這個“N”,就是根據(jù)他以前的利用經(jīng)歷以及這次利用的主要內(nèi)容而主動推送、自動推送、無償推送的。在智慧檔案館(室)建設(shè)中,不要等全部建好了才推送,而要邊建邊推送,建多少數(shù)據(jù)推送多少數(shù)據(jù)。這樣,一方面是讓智慧檔案館(室)建設(shè)早日見成效,并爭取到更大的支持;另一方面也是通過較少數(shù)據(jù)的推送,來發(fā)現(xiàn)問題、吸取教訓(xùn),堵塞漏洞、取得經(jīng)驗,讓數(shù)據(jù)挖掘推送軟件更好用,讓智慧檔案館(室)更智慧。 8.積極采用物聯(lián)網(wǎng)技術(shù) 物聯(lián)網(wǎng)技術(shù)可以把檔案館(室)的人、物、信息、環(huán)境等方面全部連接起來,實現(xiàn)自動感知和自動調(diào)控。檔案工作者不管身在何處,都可用手機掌控一切。 建設(shè)智慧檔案館(室)除了以上這些工作之外,肯定還有其他事情要做,我不再一一列舉了。 在建設(shè)智慧檔案館(室)過程中,檔案工作者要敢于想、善于想,想我們的各方面需求,并向合作方提出我們的需求。甚至可以說,在智慧檔案館(室)建設(shè)中,檔案人的主要任務(wù)就是提需求。在這個時代,只有想不到而沒有做不到的。只要我們提出需求,就會有人幫助我們實現(xiàn)需求。檔案服務(wù)企業(yè)也要幫助檔案人想,主動地針對他們的需要點、實用點、興奮點、難點和痛點提出解決方案。只要檔案部門與檔案服務(wù)企業(yè)同心協(xié)力,共同聯(lián)手,智慧檔案館(室)就一定能早日地、大批地并最終全部地建成。 那將是我國檔案工作、檔案事業(yè)一個新階段的開始! 那將是我這個“老”檔案人“新”夢想的實現(xiàn)!
| |
來源:國家檔案局 聲明:版權(quán)歸原創(chuàng)所有,轉(zhuǎn)載此文是出于傳遞更多信息之目的。若有來源標注錯誤或侵犯了您的合法權(quán)益,請與本網(wǎng)聯(lián)系我們將及時更正、刪除 |