前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)類型范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
變體型是一種特殊的數(shù)據(jù)類型,除了定長字符串?dāng)?shù)據(jù)及用戶定義類型外,可以包含任何種類的數(shù)據(jù)。變體型數(shù)據(jù),是一種可變的數(shù)據(jù)類型,它能夠表示所有系統(tǒng)定義類型的數(shù)據(jù)。變體型變量可以在程序執(zhí)行期間存放不同類型的數(shù)據(jù),VB會自動完成任何必要的轉(zhuǎn)換。
VB的基本數(shù)據(jù)類型有:數(shù)值型數(shù)據(jù)、日期型、字節(jié)型、貨幣型、邏輯型、字符串型、對象型、變體型。
(來源:文章屋網(wǎng) )
關(guān)鍵詞:C語言教材;格式轉(zhuǎn)換;printf()函數(shù);指針
How to print a pointer properly
HUANG Ying
(School of Computer and Software Engineering, Nanjing Institute of Industry Technology, Nanjing, Jiangsu, 210046)
Abstract:We discussed the output issue of the pointer type data in C Language.According to the national standard , we pointed out errors of the pointer output commonly existing in the textbooks about the C language programming.And we elucidated the proper method of the point output.
Key words:the textbooks of the C language;conversion specifacation;printf() function;pointer
1 引言
指針是C語言中的一種數(shù)據(jù)類型。國內(nèi)許多C語言教材在講解這種類型數(shù)據(jù)的輸出時,都存在著若干錯誤。例如,[4]第248頁:
int a[3][4]={1,3,5,7,9,11,13,15,17,19,21,23};
printf("%d,%d\n",a,*a);
這里,作者用了“%d”格式轉(zhuǎn)換輸出a和*a這兩個指針類型表達(dá)式的值。
實際上,這種做法是錯誤的。但是由于這種錯誤相對于代碼語法錯誤來說不是那么直截了當(dāng)而是比較隱晦,所以往往容易被視而不見,甚至被誤以為是正確的寫法。
2 為什么用“%d”輸出指針是錯誤的
除了使用“%d”這種錯誤的格式輸出指針類型數(shù)據(jù),使用“%o”、 “%x”(或“%X”)及“%u”等幾種錯誤轉(zhuǎn)換格式的情況也很常見。例如,[4]第224頁:
printf("%o",p);
作者認(rèn)為這條語句的“作用是以八進制形式輸出指針變量p的值”。
由于這幾種錯誤的性質(zhì)類似,所以這里也一并討論。
首先,根據(jù)[1]、[2]、[3],“%d”這種格式只用于輸出int類型的數(shù)據(jù),輸出的結(jié)果為十進制整數(shù)形式的字符序列――“[-]dd…d”,因此,在一定條件下將輸出一個負(fù)的十進制整數(shù)。僅此一點就足以斷定用“%d”格式輸出指針是錯誤的。因為指針數(shù)據(jù)類型并不等同于int數(shù)據(jù)類型;指針數(shù)據(jù)類型的值表示地址,然而地址不可能是負(fù)值。
既然地址不可能是負(fù)值,而“%o”、“%x”(或“%X”)、“%u”這幾種格式的輸出結(jié)果都不是負(fù)值,那么用這幾種格式輸出指針類型的值是否可以呢?同樣不可以。
根據(jù)[2]、[3],“%o”、“%x”(或“%X”)、“%u”這三種格式都只用于輸出unsigned類型的數(shù)據(jù)。unsigned數(shù)據(jù)類型和指針數(shù)據(jù)類型是截然不同的數(shù)據(jù)類型。C語言并沒有規(guī)定指針類型數(shù)據(jù)的內(nèi)部表示應(yīng)該和unsigned類型一致,甚至沒有規(guī)定這兩種類型數(shù)據(jù)在機器內(nèi)部應(yīng)該如何表示,而且這兩種數(shù)據(jù)的尺寸也未必相同。事實上,C語言自C89開始,就要求編譯器應(yīng)提供“stddef.h”并在其中提供“ptrdiff_t”類型的定義?!皃trdiff_t”類型這種類型是兩個指針做減法運算得到的結(jié)果的類型,這間接地說明了指針數(shù)據(jù)類型并不必然等同于整數(shù)類型的尺寸。因此使用“%o”、 “%x”(或“%X”)及“%u”輸出指針毫無依據(jù)可言,因而是錯誤的用法。
[3](§7.19.6.1,p280)為此特意指出,“If any argument is not the correct type for the corresponding conversion specification, the behavior is undefined.”。這表明使用“%d”、“%o”、“%x”(或“%X”)、“%u”輸出指針數(shù)據(jù)是一種未定義行為(undefined behavior)。未定義行為本質(zhì)上就是程序的一種錯誤。因為編譯器此時有任意的處理方式,都不違背語言標(biāo)準(zhǔn)。從代碼的角度來說,使用“%d”、“%o”、“%x”(或“%X”)、“%u”都是沒有明確意義的代碼,沒有明確意義的代碼當(dāng)然是錯誤的代碼。
許多使用“%d”、“%o”、 “%x”(或“%X”)及“%u”這幾種格式輸出指針的人往往有一個誤區(qū),這個誤區(qū)來自于經(jīng)驗,那就是使用這種格式輸出指針并沒有出現(xiàn)錯誤,因而他們認(rèn)為可以使用這些格式輸出指針。
然而,這種想法是根本站不住腳的。仔細(xì)推敲一下就不難發(fā)現(xiàn),這種推理的基礎(chǔ)是基于使用個別編譯器的經(jīng)驗而已。個別編譯器當(dāng)然不代表所有編譯器。這個道理就如同在某個編譯器上int類型的尺寸是2B,但絕不能說C語言的int數(shù)據(jù)類型的大小就是2B一樣。
因此,在個別編譯器上,指針尺寸的大小和表示方法可能確實與某種整數(shù)類型相同,但這絕不能說明在所有的編譯器上指針的大小和表示方法都和某種整數(shù)類型相同。
如果考察的范圍廣些,不難發(fā)現(xiàn),指針就其一般而言,和整數(shù)類型大小不同的例子很多。在這種情況下,[4]第248頁中的程序就會產(chǎn)生錯誤。例如,在針對DOS操作系統(tǒng)的編譯器MSC 6和TC在以大內(nèi)存模式編譯時,這段程序就會得到錯誤的行為;此外,在不少64位機器環(huán)境下的編譯器中,以“%d”、“%o”、 “%x”(或“%X”)及“%u”這幾種格式輸出指針類型的值也顯然會發(fā)生錯誤。原因就在于,錯誤地假設(shè)了整數(shù)類型與指針類型具有相同的表示和尺寸。
3輸出指針正確的轉(zhuǎn)換說明
由于由于在各種不同環(huán)境下,指針的尺寸未必和任何整數(shù)類型相同,因為實現(xiàn)可能支持多種尺寸的指針。所以無論是K&R的經(jīng)典名著[1],還是國家標(biāo)準(zhǔn)C90[2],以至于目前最新的國際標(biāo)準(zhǔn)C99[3],都明確指出調(diào)用格式化函數(shù)(如printf()、fprintf()等)輸出指針類型數(shù)據(jù)的值應(yīng)該使用轉(zhuǎn)換說明符p,此時,對應(yīng)的“實參應(yīng)為指向void的指針。該指針的值將以實現(xiàn)定義的方式轉(zhuǎn)換為一系列可印刷字符”。具體的輸出的結(jié)果顯然和具體實現(xiàn)有關(guān)。
雖然格式化輸出函數(shù)只能輸出void *類型的指針,但由于printf()函數(shù)的函數(shù)原型為:
int printf ( const char* , ... ) ;
C語言規(guī)定,與“...”部分相對應(yīng)的指針類型的實參,在調(diào)用時都將被按照隱式類型轉(zhuǎn)換的規(guī)則一律轉(zhuǎn)換為“void *”類型的指針,因此,%p這種轉(zhuǎn)換輸出格式實際上同樣適合于輸出其他類型指針的值。
由此,不難得出結(jié)論,調(diào)用printf()函數(shù)輸出指針類型的值,應(yīng)該使用%p格式轉(zhuǎn)換聲明。所以,[4]第248頁的代碼,正確的寫法分別應(yīng)該是:
printf("%p,%p\n",a,*a);
當(dāng)然,由于輸出的結(jié)果是“實現(xiàn)定義的”,所以在不同的實現(xiàn)中的輸出結(jié)果的形式可能并不相同。
4 結(jié)束語
根據(jù)前面的分析和討論,可以得到如下的結(jié)論:
1. 指針數(shù)據(jù)類型并不等同于任何整數(shù)類型。
2. 用“%d”、“%o”、 “%x”(或“%X”)及“%u”這幾種格式輸出指針類型的值是錯誤的未定義行為。
3. 應(yīng)該用“%p”轉(zhuǎn)換格式輸出指針類型數(shù)據(jù)的值。
本文指出的錯誤并非是今天才出現(xiàn)的,事實上二十年時間前出版的C語言教材[5]就已經(jīng)存在這兩種錯誤。作為教材,應(yīng)該遵循標(biāo)準(zhǔn),教給學(xué)生具有一般性的通用性的知識。然而,近二十年間這個錯誤竟然沒有得到改正,這是非常令人震驚的事情。在此期間,不少以[4]、[5]為參考編寫的C語言教材或書籍中同樣也存在類似的錯誤,可見這兩個錯誤的影響之廣泛及深遠(yuǎn)。
為此本文正式指出這個錯誤并予以更正,希望這個錯誤不至于再以訛傳訛地流傳下去。
參考文獻(xiàn):
[1]. Brian W.Kernighan, Dennis M.Ritchie. C程序設(shè)計語言.清華大學(xué)出版社,1998
[2]. 國家技術(shù)監(jiān)督局,GB/T 15272-94 程序設(shè)計語言C,1994
[3]. International Organization for Standardization,ISO/IEC 9899:1999.[ISO]
關(guān)鍵詞: ; SQL Server; 二進制; 上傳與讀取
中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2013)03-29-03
0 引言
在開發(fā)系統(tǒng)軟件過程中,經(jīng)常會遇到需要存儲各種類型的數(shù)據(jù),如不同類型的文檔、圖片、音頻數(shù)據(jù)等。我們通常采用兩種方法來存儲這些不同類型數(shù)據(jù):把文件保存在服務(wù)器的文件系統(tǒng)中,而把文件名保存在數(shù)據(jù)庫字段中;或直接保存在數(shù)據(jù)庫的字段中。
如果把文件保存在服務(wù)器的文件系統(tǒng)中,而把文件名保存在數(shù)據(jù)庫字段中,這種方法比較簡單;如果把文件名保存在數(shù)據(jù)庫中則會需要編寫更多的代碼,這種方法修改數(shù)據(jù)不需要與數(shù)據(jù)庫打交道,可以直接更改文件。由于后者并沒有真正把數(shù)據(jù)保存在數(shù)據(jù)庫中字段中,使用中則會遇到很多問題:有悖于數(shù)據(jù)的完整性規(guī)則,直接保存在硬盤上的文件容易被誤操作而刪除;另外,使用文件系統(tǒng),一旦操作系統(tǒng)被非法用戶訪問就會不要授權(quán)而直接訪問數(shù)據(jù)文件。如果把數(shù)據(jù)保存在數(shù)據(jù)庫中,通常對數(shù)據(jù)庫的安全性要求較高,對數(shù)據(jù)的訪問和修改需要授權(quán)。
我們采用將數(shù)據(jù)保存在數(shù)據(jù)庫的字段中的方法。所采用的數(shù)據(jù)庫為SQL Server2000。SQL Server2000數(shù)據(jù)庫供了一種image的數(shù)據(jù)類型,可以用來存放大容量類型數(shù)據(jù),最大容量為2GB,能夠存放大量的不同類型數(shù)據(jù)。開發(fā)平臺為2005,開發(fā)工具使用,編程語言采用C#語言。本文介紹了基于和SQL Server2000情況下將數(shù)據(jù)直接存儲在數(shù)據(jù)庫內(nèi)的不同類型文件的上傳和讀取的具體實現(xiàn)過程。
1 數(shù)據(jù)庫設(shè)計
1.1 數(shù)據(jù)庫序列對象
為了實現(xiàn)ID的自動增加,建立數(shù)據(jù)庫序列對象如下:
標(biāo)識:是
標(biāo)識種子:1
標(biāo)識遞增量:1
1.2 表的設(shè)計
數(shù)據(jù)表的設(shè)計如表1所示。
2 文件的上傳
2.1 上傳界面
上傳界面如圖1所示。
2.2 文件的上傳
4 結(jié)束語
當(dāng)開發(fā)系統(tǒng)軟件需要上傳和讀取二進制數(shù)據(jù)時,我們需要考慮采用何種方法保存數(shù)據(jù)。如果我們把文件存儲在數(shù)據(jù)庫中,那么就需要懂得更多的數(shù)據(jù)知識。在本文中,我們分析了基于和SQL Server 2000情況下將不同類型數(shù)據(jù)保存到數(shù)據(jù)庫中,以及如何對其進行讀取。
參考文獻(xiàn):
[1] 曹錳.C#與程序設(shè)計[M].西安交通大學(xué)出版社,2005.
[2] 歐立奇.Visual C#.NET案例開發(fā)集錦[M].電子工業(yè)出版社,2005.
[3] 童愛紅.Visual C#.NET應(yīng)用教程[M].清華大學(xué)出版社,2004.
數(shù)據(jù)挖掘 數(shù)據(jù)解析 網(wǎng)絡(luò)業(yè)務(wù)類型劃分 聚類算法
1 引言
21世紀(jì)信息和通信技術(shù)高速發(fā)展,技術(shù)的進步給人們的日常生活帶來了諸多便利。通訊是社會交往中的重要紐帶,推動著數(shù)字信息的發(fā)展。通信行業(yè)的大數(shù)據(jù)應(yīng)用,能夠優(yōu)化移動通信網(wǎng)絡(luò),開拓更豐富的服務(wù)業(yè)務(wù),為移動用戶提供更精準(zhǔn)、更便捷的服務(wù)。
Gn數(shù)據(jù)是Gn口原始碼流解析得到的數(shù)據(jù),主要反映用戶使用各類數(shù)據(jù)業(yè)務(wù)的詳細(xì)情況。在傳統(tǒng)的Gn數(shù)據(jù)解析過程中,流量類型里“未識別TCP流量業(yè)務(wù)”、“未識別UDP流量業(yè)務(wù)”和“DNS解析流量業(yè)務(wù)”等類型均被劃為未知服務(wù)。這樣的計算模型會導(dǎo)致解析結(jié)果里未知服務(wù)的占比很高。
本文針對原始Gn數(shù)據(jù),提出了一種新的網(wǎng)絡(luò)業(yè)務(wù)分類方法:利用大數(shù)據(jù)并行計算模式解析DNS業(yè)務(wù)里的URL,解析結(jié)果通過挖掘算法(基于密度的聚類算法)模型處理,以確立新的網(wǎng)絡(luò)業(yè)務(wù)類型。
2 技術(shù)介紹
2.1 大數(shù)據(jù)處理步驟
大數(shù)據(jù)的飛速發(fā)展已經(jīng)影響到了各行各業(yè),其中信息、互聯(lián)網(wǎng)和通信行業(yè)受到的影響最大。大數(shù)據(jù)的到來恰逢通信行業(yè)的轉(zhuǎn)型過渡階段,給這個行業(yè)注入了新鮮的血液。
大數(shù)據(jù)處理方法通常為四步,分別是原始數(shù)據(jù)的采集、數(shù)據(jù)導(dǎo)入和預(yù)處理、數(shù)據(jù)的統(tǒng)計和分析以及數(shù)據(jù)挖掘。下面將按照這四個步驟的順序進行闡述。
(1)數(shù)據(jù)采集
數(shù)據(jù)的采集階段是指用數(shù)據(jù)庫來接收以Web、App等形式傳送的數(shù)據(jù),在大數(shù)據(jù)的采集過程中,最主要的問題是處理高并發(fā)數(shù),同一時間c可能會有上萬條申請操作。而采集階段通常采用的優(yōu)化方式是在這些數(shù)據(jù)庫之間進行分時分片管理和負(fù)載均衡。
(2)數(shù)據(jù)導(dǎo)入和預(yù)處理
數(shù)據(jù)導(dǎo)入指的是將原始數(shù)據(jù)導(dǎo)入到分布式存儲集群,并且在導(dǎo)入過程中,對數(shù)據(jù)做去除噪聲點、篩選特定條件等清洗工作。導(dǎo)入和預(yù)處理過程中面臨的主要效率瓶頸是網(wǎng)絡(luò)帶寬和磁盤IO。
(3)數(shù)據(jù)統(tǒng)計和分析
大數(shù)據(jù)場景下的統(tǒng)計與分析主要通過分布式計算集群來對數(shù)據(jù)進行分析和分類匯總等,在這一階段,最常用的兩個計算框架是Hadoop和Spark。統(tǒng)計與分析遇到的主要問題是,分析時所涉及的數(shù)據(jù)量通常很大,其對系統(tǒng)資源會造成極大的占用。
(4)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘階段是一個知識發(fā)現(xiàn)的過程,一般沒有預(yù)先設(shè)定好的主題。比較典型的算法有用于聚類分析的K-means算法、用于統(tǒng)計學(xué)習(xí)的SVM算法和用于分類的Na?ve-Bayes算法。該過程的特點主要是用于挖掘的算法一般比較復(fù)雜,考慮到系統(tǒng)資源的開銷,需要選擇合適的計算框架。
2.2 基于聚點密度和距離的高效聚類算法
把一個數(shù)據(jù)集分割成不同的類或簇,使得同簇內(nèi)數(shù)據(jù)對象的相似性盡可能大,不同簇中數(shù)據(jù)對象的差異性也盡可能地大,通常采用聚類算法。從傳統(tǒng)的聚類分析方法來看,在進行聚類之前都需要先確定要聚類的類別數(shù)目,然而在現(xiàn)實運營數(shù)據(jù)的分析過程中,聚類的類別結(jié)果通常是未知的,一般要經(jīng)過多次實驗來獲得相對合適的聚類數(shù)目??紤]到本文中要分析的數(shù)據(jù)是多維度的結(jié)構(gòu)化數(shù)據(jù),且聚類結(jié)果不需要人工干預(yù),可以參考Alex Rodriguez和Alessandro Laio提出的新的聚類算法,下面對此聚類算法做簡要介紹。
該算法假設(shè)所確定的類簇中心點是由一些局部密度相對其較低的點所環(huán)繞,并且這些點與其他高局部密度點(其他類簇中心點)的距離都比較大。首先定義兩個值:局部密度ρi以及到其他高局部密度點的距離δi。
ρi=Σj X(dij-dc) `(1)
(2)
公式中dc是一個臨界變量值,是一個預(yù)先設(shè)定的參數(shù)。從公式(1)和(2)可以得出,ρi相當(dāng)于和點i的距離差值小于dc的點的個數(shù)。由于該算法只對ρi的相對值敏感,所以面對大數(shù)據(jù)量時,為了算法的健壯性,對dc的選擇最好使得平均每個點的鄰居數(shù)為所有點數(shù)量的1%~2%。
δi=minj:ρj>ρi (dij) (3)
根據(jù)公式(3),δi用來表示點i和點j直接的距離,其中ρj>ρi。對于ρ值最大的點,設(shè)置其δi=maxj (dij)。
局部密度ρi和據(jù)其他中心點距離δi的值均很大的點被認(rèn)為是類簇的中心。局部密度較小但是δi較大的點則是異常點。在確定了類簇中心之后,非中心點屬于其距離最近的類簇中心所代表的類簇。
圖1是以ρ為橫坐標(biāo)、以δ為縱坐標(biāo)的決策圖??梢钥吹?,1號和10號兩個點的ρi和δi都比較大,可以作為聚類焦點。11、12、13三個點的δi比較大,但是ρi較小(周圍點密度太?。允钱惓|c,在聚類過程中將被清洗掉。
3 服務(wù)類型劃分系統(tǒng)模型設(shè)計
傳統(tǒng)的Gn數(shù)據(jù)解析過程中,在流量類型字段里,將“未識別TCP流量業(yè)務(wù)”、“未識別UDP流量業(yè)務(wù)”和“DNS解析流量業(yè)務(wù)”劃為未知服務(wù)。這樣的計算模型導(dǎo)致Gn數(shù)據(jù)解析后,業(yè)務(wù)類型里會有很高占比的未知服務(wù)。解決大量的“未知服務(wù)”的分類結(jié)果,既可以最大化地利用原始數(shù)據(jù),又可以在多維度的情況下,細(xì)分用戶的網(wǎng)絡(luò)業(yè)務(wù)。系統(tǒng)采用分布式集群架構(gòu),如圖2所示,分為數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)解析、數(shù)據(jù)云存儲、數(shù)據(jù)模型挖掘、挖掘結(jié)果分析幾個步驟。
數(shù)據(jù)獲取階段,將Gn接口數(shù)據(jù)通過FTP的方式將數(shù)據(jù)傳送給數(shù)據(jù)清洗模塊。
數(shù)據(jù)清洗主要是完成無效字段的替換,將RNC解析流量對應(yīng)URL為空的記錄刪除,并完成目標(biāo)數(shù)據(jù)的選取,將Gn原始數(shù)據(jù)類型中流量類型為RNC解析流量的記錄截取出來。
數(shù)據(jù)解析,如圖3所示,所映射的URL包括查詢的域名及查詢類型。解析URL需要解析協(xié)議(如http、https)、域名或IP、端口號(如7001、8080)、Web上下文、URI,請求資源地址等。此處需要解析出域名,并將其存儲為一個新的字段。做一個URL映射表,將訪問域名進行歸類映射,例如SINA映射為新聞咨詢?yōu)g覽,tianya映射為討論類論壇,weibo映射為社交網(wǎng)絡(luò)等。
數(shù)據(jù)云存儲階段,將解析后的數(shù)據(jù)以Parquet文件塊的形式存儲在HDFS上,作為數(shù)據(jù)挖掘接入口。
數(shù)據(jù)挖掘模型采用2.2節(jié)介紹的基于聚點密度和距離的高效聚類算法。將解析后的數(shù)據(jù)作為輸入端,通過挖掘模型計算,自動生成聚類結(jié)果。此處需要注意的是,由于算法中dc變量值(表示測量點臨界間距)需要事先設(shè)定好,所以為了得到合理的結(jié)果,需多次對數(shù)據(jù)進行訓(xùn)練,找到一個符合業(yè)務(wù)分析需求的特定值。另外,根據(jù)用戶實際使用情況,同一種業(yè)務(wù)在不同時間段會產(chǎn)生不同的用戶體驗需求,以及每個人會有不同的使用習(xí)慣等,將輸入?yún)?shù)定為業(yè)務(wù)發(fā)生時間、RNC解析URL域名、年齡這三個字段。
4 計算結(jié)果分析
經(jīng)過多次訓(xùn)練,得到聚類分析結(jié)果,分別為:
(1)深夜(22:00―24:00),年齡
(2)中午(11:00―13:00),26
傳統(tǒng)方式的Gn數(shù)據(jù)解析后,服務(wù)型分為流媒體業(yè)務(wù)、下載業(yè)務(wù)、即時通信、瀏覽業(yè)務(wù)和未知服務(wù)五類。結(jié)合聚類分析的結(jié)果可以初步判斷,在未知服務(wù)內(nèi)會有大部分人喜歡深夜使用社交網(wǎng)絡(luò)服務(wù),以及會有很多青年人會選擇在中午的時候瀏覽新聞咨詢??梢試L試在服務(wù)類型中將第五類未知服務(wù)新分出一類:社交網(wǎng)絡(luò)服務(wù),其確定的方法可以按照聚類的方式倒推,即匹配其解析后的URL。
5 結(jié)束語
本文對比傳統(tǒng)的Gn數(shù)據(jù)解析方式,提出了一種基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)業(yè)務(wù)類型劃分方法。在實際應(yīng)用中,該方法在處理大規(guī)模數(shù)據(jù)和高維數(shù)據(jù)時性能有待于提高。針對這種情況,有學(xué)者提出一種在高維空間挖掘映射聚類的方法PCKA,它能從多個維度中篩選出相關(guān)的維度,并根據(jù)相關(guān)維度進行聚類。另一方面,如需要對全國范圍的Gn數(shù)據(jù)業(yè)務(wù)分類,應(yīng)使用更全面的數(shù)據(jù)進行模型訓(xùn)練。
參考文獻(xiàn):
[1] 陳宇. 京廣高鐵GPRS業(yè)務(wù)Gn接口數(shù)據(jù)監(jiān)測的應(yīng)用[J]. 鄭鐵科技, 2013(1): 23.
[2] 韓宇. 基于數(shù)據(jù)挖掘的聯(lián)通運營監(jiān)控模塊的設(shè)計與實現(xiàn)[D]. 沈陽: 東北大學(xué), 2011.
[3] 陳平,郭蘭珂,方俊湘. 微信業(yè)務(wù)的識別方法研究[J]. 移動通信, 2013,37(18): 80-83.
[4] 鄭桂鳳. 移動互聯(lián)網(wǎng)的用戶行為分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 北京: 北京郵電大學(xué), 2010.
[5] 閆春榮,牟宏蕾,郝亞飛. 移動通信大數(shù)據(jù)信息在決策分析平臺中的應(yīng)用方案研究[J]. 移動通信, 2016,40(10): 24-28.
[6] 李玲俐. 數(shù)據(jù)挖掘中分類算法綜述[J]. 重慶師范大學(xué)學(xué)報: 自然科學(xué)版, 2011(4): 44-47.
[7] 劉明吉,王秀峰. 數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 計算機科學(xué), 2000,27(4): 54-57.
[8] 胡志風(fēng). 大數(shù)據(jù)在職務(wù)犯罪偵查模式轉(zhuǎn)型中的應(yīng)用[J]. 國家檢察官學(xué)院學(xué)報, 2016(4): 144-153.
[9] 鄭雅麗. 圖書館應(yīng)用大數(shù)據(jù)的策略研究[J]. 科技視界, 2015(12): 163-164.
關(guān)鍵詞:刑事訴訟法 證據(jù) 電子數(shù)據(jù)
中圖分類號:D9 文獻(xiàn)標(biāo)識碼:A 文章編號:1008-925X(2012)O9-0058-01
電子數(shù)據(jù)(electronic data),是指基于計算機應(yīng)用、通信和現(xiàn)代管理技術(shù)等電子化技術(shù)手段形成包括文字、圖形符號、數(shù)字、字母等的客觀資料。2012年第十一屆人大五次會議,修改并通過了《中華人民共和國刑事訴訟法》,其中將“電子數(shù)據(jù)”作為了司法證據(jù)的一個種類,本文就是淺析電子數(shù)據(jù)在作為電子證據(jù)使用的一些問題。
一、 電子數(shù)據(jù)在法律上的定位
電子數(shù)據(jù)作為一種新形式的證據(jù),其概念、范圍、采納、采信問題已引起理論界和實務(wù)界的普遍關(guān)注。從現(xiàn)有的有關(guān)電子數(shù)據(jù)的立法文件來看,“電子數(shù)據(jù)”有廣義和狹義之分。前者認(rèn)為“數(shù)據(jù)信息”是通過電子學(xué)手段、光學(xué)手段或其他類似手段生成、發(fā)送、接受或存儲的信息,它包括但不限于電子數(shù)據(jù)交換、電子郵件、電報、電傳或傳真。而后者則認(rèn)為“電子數(shù)據(jù)”專指電子網(wǎng)絡(luò)信息。
在我國,學(xué)界對電子數(shù)據(jù)的法律地位的探析雖然一直處于長期的爭論狀態(tài),但是對電子數(shù)據(jù)能否作為法定證據(jù)這一問題基本上能達(dá)成肯定的共識,電子數(shù)據(jù)作為證據(jù)在司法實踐中也開始以“模糊”形式被逐漸采用。因此,我國電子證據(jù)問題在立法上缺乏完整和切實的法律規(guī)制的現(xiàn)狀,迫切需要得到立法領(lǐng)域的回應(yīng)。已不可避免地要面臨對刑事證據(jù)的具體法律調(diào)整問題。此次新刑訴法第五章第四十八條就將電子數(shù)據(jù)作為證據(jù)的一種單列出來。
二、電子數(shù)據(jù)的范圍和特征
根據(jù)以往的司法實踐和計算機、網(wǎng)絡(luò)等技術(shù)的層面考慮,電子數(shù)據(jù)的范圍應(yīng)界定為能夠證明案件真實情況的,以物理方式存儲于計算機系統(tǒng)內(nèi)部及其各個層面(計算機網(wǎng)絡(luò)的應(yīng)用層、表示層、會話層、傳輸層、網(wǎng)絡(luò)層、數(shù)據(jù)鏈路層與物理層等)或電子設(shè)備、手機、等移動存儲或非移動存儲介質(zhì)(手機機身和SIM卡、電子芯片、內(nèi)存、光盤、硬盤、軟盤及輔助介質(zhì))當(dāng)中的指令和資料,包括計算機程序和程序運行過程中所處理的信息資料(文本資料、運算資料、圖形表格等)。其具有無形性、多樣性、易破壞性、反復(fù)重現(xiàn)性、較高的精密性、高科技性、易保管性、易利用性及更強的客觀真實性等特征。
三、電子數(shù)據(jù)的提取和勘驗
電子數(shù)據(jù)由于自身的特征,往往對案件的偵辦起到?jīng)Q定性的作用,但是又極易破壞和污染,所以司法機關(guān)的技術(shù)部門提取和勘驗電子數(shù)據(jù)就顯得至關(guān)緊要。其程序一般包括:現(xiàn)場勘驗、發(fā)現(xiàn)預(yù)檢載體、提取電子數(shù)據(jù)、排除無用信息和保存電子數(shù)據(jù)幾個過程。基本要求為及時發(fā)現(xiàn)、規(guī)范操作和安全實施。過程一定要遵循以下原則:1、電子數(shù)據(jù)的客觀性。電子數(shù)據(jù)是客觀存在于各種存儲介質(zhì)中,如果不是人為的損毀是不會憑空消失的,那么就要求提取人員不能憑空一遭隨意篡改。2、電子數(shù)據(jù)的關(guān)聯(lián)性??此齐娮訑?shù)據(jù)存在的介質(zhì)比較多,但是各種數(shù)據(jù)之間應(yīng)該存在許多內(nèi)部的關(guān)聯(lián),那就要求提取人員善于發(fā)現(xiàn)和總結(jié),不放過任何有用的電子數(shù)據(jù)。3、提取的合法性。電子數(shù)據(jù)要作為證據(jù),其收集的主體必須為具有國家司法機關(guān)認(rèn)可的專業(yè)技術(shù)人員。另外電子數(shù)據(jù)的提取操作必須具有合法性,才能確保電子數(shù)據(jù)的合法性。
四、電子數(shù)據(jù)提取的主要技術(shù)手段和工具
1、電子數(shù)據(jù)信息搜索和過濾技術(shù)
面對雜亂的犯罪證據(jù),技術(shù)人員往往感到無從下手,全盤提取電子證據(jù)又費時費力,這種情況下,信息搜索和過濾技術(shù)就顯得尤為重要,通過特殊文件和字段的查找和多項電子數(shù)據(jù)的綜合比對,可以快速找到關(guān)鍵的電子證據(jù),篩選、挖掘出指定目標(biāo)數(shù)據(jù)。
2、缺損電子設(shè)備存儲數(shù)據(jù)取證技術(shù)
面對缺損的電子數(shù)據(jù)存儲介質(zhì),則必須先修理存儲介質(zhì)再進行數(shù)據(jù)取證,那就必須用到光盤修復(fù)、閃存修復(fù)、硬盤修復(fù)、芯片讀取、數(shù)據(jù)恢復(fù)等技術(shù)。
3、解密加密技術(shù)及口令獲取技術(shù)
在司法鑒定取證的電子證據(jù)提取過程中,常常會遇到數(shù)據(jù)被加密等情況,讓取證工作一度陷入困境。那么就需要一整套高速的密碼分析和密碼破解技術(shù)。能夠深入分析Microsoft公司的windows操作系統(tǒng)和office辦公辦案軟件加密機制的特點,采用國際領(lǐng)先的“多態(tài)全域覆蓋”與“并行空間平衡”等技術(shù),從密碼數(shù)學(xué)層面大大縮短解密數(shù)值空間,同時進行算法以及工程實現(xiàn)方面進行優(yōu)化,加大解密的速度和準(zhǔn)確度。
4、源盤保護及電子證據(jù)固化技術(shù)
隨著硬盤技術(shù)的發(fā)展,硬盤的容量越來越大,取證花費的時間變長,給電子證據(jù)的固化帶來了新的挑戰(zhàn)。硬盤高速克隆機、單向只讀訪問接口等設(shè)備的出現(xiàn)就解決了這樣的難題,不光能支持多對多存儲介質(zhì)的克隆,且拷貝速度能達(dá)到18Gb/分鐘。以保證在電子證據(jù)的提取中也保證只讀不寫,不污染目標(biāo)證據(jù),最大程度的保護了源盤。
目前常用的取證工具和取證實驗室設(shè)備主要有:1、計算機取證類,包括現(xiàn)場勘察箱、快速取證機、硬盤克隆機、只讀接口等;2、網(wǎng)絡(luò)取證類,包括移動工作站、網(wǎng)絡(luò)取證儀和WLAN無線定位系統(tǒng)等;3、手機取證類,包括手機檢驗包、手機信息和話單分析系統(tǒng)、SIM卡克隆機、小型數(shù)碼翻拍儀等、手機數(shù)碼設(shè)備信號屏蔽袋等;4、實驗室類,主要包括預(yù)檢工作站、檢驗工作站、密碼破解工作站等;5、其他工具類設(shè)備,主要包括各類綜合分析軟件。
數(shù)據(jù)報告 數(shù)據(jù)采集論文 數(shù)據(jù)安全論文 數(shù)據(jù)采集 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計論文 數(shù)據(jù)挖掘 數(shù)據(jù)理論論文 數(shù)據(jù)通信論文 紀(jì)律教育問題 新時代教育價值觀