183.17.231.* 2020-09-10 13:11:55 |
大數(shù)據(jù)分析技術:改進已有數(shù)據(jù)挖掘和機器學習技術;開發(fā)數(shù)據(jù)網(wǎng)絡挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術;**基于對象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術;**用戶興趣分析、網(wǎng)絡行為分析、情感語義分析等面向領域的大數(shù)據(jù)挖掘技術。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數(shù)據(jù)挖掘涉及的技術方法很多,有多種分類法。根據(jù)挖掘任務可分為分類或預測模型發(fā)現(xiàn)、數(shù)據(jù)總結、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο罂煞譃殛P系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機器學習方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法。
機器學習中,可細分為歸納學習方法(決策樹、規(guī)則歸納等)、基于范例學習、遺傳算法等。統(tǒng)計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關分析法等)等。神經(jīng)網(wǎng)絡方法中,可細分為:前向神經(jīng)網(wǎng)絡(BP算法等)、自組織神經(jīng)網(wǎng)絡(自組織特征映射、競爭學習等)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
數(shù)據(jù)挖掘主要過程是:根據(jù)分析挖掘目標,從數(shù)據(jù)庫中把數(shù)據(jù)提取出來,然后經(jīng)過ETL組織成適合分析挖掘算法使用寬表,然后利用數(shù)據(jù)挖掘軟件進行挖掘。傳統(tǒng)的數(shù)據(jù)挖掘軟件,一般只能支持在單機上進行小規(guī)模數(shù)據(jù)處理,受此限制傳統(tǒng)數(shù)據(jù)分析挖掘一般會采用抽樣方式來減少數(shù)據(jù)分析規(guī)模。
數(shù)據(jù)挖掘的計算復雜度和靈活度遠遠超過前兩類需求。一是由于數(shù)據(jù)挖掘問題開放性,導致數(shù)據(jù)挖掘會涉及大量衍生變量計算,衍生變量多變導致數(shù)據(jù)預處理計算復雜性;二是很多數(shù)據(jù)挖掘算法本身就比較復雜,計算量就很大,特別是大量機器學習算法,都是迭代計算,需要通過多次迭代來求**解,例如K-means聚類算法、PageRank算法等。
從挖掘任務和挖掘方法的角度,著重**:
1)可視化分析。數(shù)據(jù)可視化無論對于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說話,讓用戶直觀的感受到結果。
2)數(shù)據(jù)挖掘算法。圖像化是將機器語言翻譯給人看,而數(shù)據(jù)挖掘就是機器的母語。分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),挖掘價值。這些算法一定要能夠應付大數(shù)據(jù)的量,同時還具有很高的處理速度。
3)預測性分析。預測性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結果做出一些前瞻性判斷。
4)語義引擎。語義引擎需要設計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統(tǒng)等。
5)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量與管理是管理的**實踐,透過標準化流程和機器對數(shù)據(jù)進行處理可以確保獲得一個預設質(zhì)量的分析結果。
什么是大數(shù)據(jù)分析及挖掘技術.中琛魔方大數(shù)據(jù)分析平臺(www.zcmorefun.com)表示大數(shù)據(jù)技術能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟活動提供依據(jù),從而提高各個領域的運行效率,大大提高整個社會經(jīng)濟的集約化程度。 |