數據挖掘股票市場
① 股票市場搞數據挖掘,數據分析來炒股有沒機會
有機會,而且機會不小,但是我等散戶靠數據分析,可能自身實力差的太懸殊了。
硬體設備就不達標哦。
② 數據股票有哪些
數據股票有:拓爾思、美亞柏科、國騰電子。
拓爾思(300229):公司提供網路公開數據、企業內部數據的聚合、分析和挖掘。
美亞柏科(300188):公司主營業務包括電子數據取證產品和網路信息安全產品兩大產品系列,電子數據鑒定服務和互聯網數字知識產權保護服務兩大服務體系。
國騰電子(300101):國騰集團創建於1995年,是一家以電子信息產業集群為基礎的民營企業,總部位於成都高新西區國騰科技園。
【拓展資料】
大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合。大數據技術,是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。
股價是指股票的交易價格,與股票的價值是相對的概念。股票價格的真實含義是企業資產的價值。而股價的價值就等於每股收益乘以市盈率。人們常說,股票市場是經濟的晴雨表。也就是說股價變動不僅隨經濟周期的變化而變化,同時也能預示經濟周期的變化。實證研究顯示,股價的波動超前於經濟波動。往往在經濟還沒有走出谷底時,股價已經開始回升,這主要是由於投資者對經濟周期的一致判斷所引起的。我們通常稱股市是虛擬經濟,稱與之相對的現實經濟為實物經濟,兩者的關系可以說是如影隨形",彼此都能對對方有所反映。由於受資源約束、人們預期和外部因素影響,經濟運行不會是一直處於均衡狀態。經常出現的情況是經濟處於不均衡狀態。相應地,股市也具有上下波動運行的特點。
當社會需求隨著人口增加、消費增加等因素而不斷上升的時候,產品價格、工人工資、資本所有者的投資沖動都會增加,連帶出現的情況是投資需求增加,市場資金價格(即利率)上漲。工資的增加又使得個人消費再度增加。企業投資的增加和個人可支配收入增加,使實物經濟質量不斷提高,企業效益不斷上升,經濟發展得到進一步刺激。當經濟上升到一定程度時,社會消費增長速度開始放緩,產品供過於求,企業開始縮小生產規模,社會上對資金需求減少,產品價格回落,經濟進入低迷狀態。當實物經濟按照上述周期在運行時,以證券市場表示的虛擬經濟也處干周期運行之中,只是證券市場運行周期比實物經濟周期更為提前。
③ 為什麼數據挖掘可以在股票中應用
放哨禿鄙阻截日嘏
④ 數據挖掘的國內外研究現狀
摘要:隨著網路、資料庫技術的迅速發畏以及資料庫管理系統的廣泛應用,人們積累的數據越來越多。數據挖掘(Data Mining)就是從大量的實際應用數據中提取隱含信息和知識,它利用了資料庫、人工智慧和數理統計等多方面的技術,是一類深層次的數據分析方法。
關鍵詞:數據挖掘;知識;分析;市場營銷;金融投資
隨著網路、資料庫技術的迅速發展以及資料庫管理系統的廣泛應用,人們積累的數據越來越多。由此,數據挖掘技術應運而生。下面,本文對數據技術及其應用作一簡單介紹。
一、數據挖掘定義
數據挖掘(Data Mining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一種新的商業信息處理技術,其主要特點是對商業資料庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。簡而言之,數據挖掘其實是一類深層次的數據分析方法。從這個角度數據挖掘也可以描述為:按企業制定的業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,並進一步將其模型化的先進有效的方法。
二、數據挖掘技術
數據挖掘技術是人們長期對資料庫技術進行研究和開發的結果,代寫論文其中數據倉庫技術的發展與數據挖掘有著密切的關系。大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中,因為數據倉庫會對數據進行清理,並會解決數據的不一致問題,這會給數據挖掘帶來很多好處。此外數據挖掘還利用了人工智慧(AI)和統計分析的進步所帶來的好處,這兩門學科都致力於模式發現和預測。資料庫、人工智慧和數理統計是數據挖掘技術的三大支柱。由於數據挖掘所發現的知識的不同,其所利用的技術也有所不同。
1.廣義知識。指類別特徵的概括性描述知識。根據數據的微觀特性發現其表徵的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物的共同性質,是對數據的概括、精煉和抽象。廣義知識的發現方法和實現技術有很多,如數據立方體、面向屙性的歸約等。數據立方體的基本思想是實現某些常用的代價較高的聚集函數的計算,諸如計數、求和、平均、最大值等,並將這些實現視圖儲存在多維資料庫中。而面向屬性的歸約是以類SQL語言來表示數據挖掘查詢,收集資料庫中的相關數據集,然後在相關數據集上應用一系列數據推廣技術進行數據推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計數及其他聚集函數傳播等。
2.關聯知識。它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那麼其中一項的屬性值就可以依據其他屬性值進行預測。最為著名的關聯規
則發現方法是Apriori演算法和FP—Growth演算法。關聯規則的發現可分為兩步:第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低於用戶設定的最低值;第二步是從頻繁項目集中構造可信度不低於用戶設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現演算法的核心,也是計算量最大的部分。
3.分類知識。它反映同類事物共同性質的特徵型知識和不同事物之間的差異型特徵知識。分類方法有決策樹、樸素貝葉斯、神經網路、遺傳演算法、粗糙集方法、模糊集方法、線性回歸和K—Means劃分等。其中最為典型的分類方法是決策樹。它是從實例集中構造決策樹,是一種有指導的學習方法。
該方法先根據訓練子集形成決策樹,如果該樹不能對所有對象給出正確的分類,那麼選擇一些例外加入到訓練子集中,重復該過程一直到形成正確的決策集。最終結果是一棵樹,其葉結點是類名,中間結點是帶有分枝的屙性,該分枝對應該屙性的某一可能值。
4.預測型知識。它根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為是以時間為關鍵屬性的關聯知識。目前,時間序列預測方法有經典的統計方法、神經網路和機器學習等。1968年BoX和Jenkins提出了一套比較完善的時間序列建模理論和分析方法,這些經典的數學方法通過建立隨機模型,進行時間序列的預測。由於大量的時間序列是非平穩的,其特徵參數和數據分布隨著時間的推移而發生變化。因此,僅僅通過對某段歷史數據的訓練,建立單一的神經網路預測模型,還無法完成准確的預測任務。為此,人們提出了基於統計學和基於精確性的再訓練方法,當發現現存預測模型不再適用於當前數據時,對模型重新訓練,獲得新的權重參數,建立新的模型。
5.偏差型知識。它是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標准類外的特例、數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現,並隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
三、數據挖掘流程
數據挖掘是指一個完整的過程,該過程從大型資料庫中挖掘先前未知的、有效的、可實用的信息,代寫畢業論文並使用這些信息做出決策或豐富知識。數據挖掘的基本過程和主要步驟如下:
過程中各步驟的大體內容如下:
1.確定業務對象,清晰地定義出業務問題。認清數據挖掘的目的是數據挖掘的重要一步,挖掘的最後結構不可預測,但要探索的問題應該是有預見的,為了數據挖掘而挖掘則帶有盲目性,是不會成功的。
2.數據准備。(1)數據選擇。搜索所有與業務對象有關的內部和外部數據信息,並從中選擇出適用於數據挖掘應用的數據。(2)數據預處理。研究數據的質量,進行數據的集成、變換、歸約、壓縮等.為進一步的分析作準備,並確定將要進行的挖掘操作的類型。(3)數據轉換。將數據轉換成一個分析模型,這個分析模型是針對挖掘演算法建立的,這是數據挖掘成功的關鍵。
3.數據挖掘。對所得到的經過轉換的數據進行挖掘。除了完善和選擇合適的挖掘演算法外,其餘一切工作都能自動地完成。
4.結果分析。解釋並評估結果。其使用的分析方法一般應視挖掘操作而定,通常會用到可視化技術。
5.知識同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
四、數據挖掘的應用
數據挖掘技術從一開始就是面向應用的。目前在很多領域,數據挖掘都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。
1.市場營銷。由於管理信息系統和P0S系統在商業尤其是零售業內的普遍使用,特別是條形碼技術的使用,從而可以收集到大量關於用戶購買情況的數據,並且數據量在不斷激增。對市場營銷來說,通過數據分析了解客戶購物行為的一些特徵,對提高競爭力及促進銷售是大有幫助的。利用數據挖掘技術通過對用戶數據的分析,可以得到關於顧客購買取向和興趣的信息,從而為商業決策提供了可靠的依據。數據挖掘在營銷業上的應用可分為兩類:資料庫營銷(database markerting)和貨籃分析(basket analysis)。資料庫營銷的任務是通過互動式查詢、數據分割和模型預測等方法來選擇潛在的顧客,以便向它們推銷產品。通過對已有的顧客數據的辱淅,可以將用戶分為不同級別,級別越高,其購買的可能性就越大。貨籃分析
是分析市場銷售數據以識別顧客的購買行為模式,例如:如果A商品被選購,那麼B商品被購買的可能性為95%,從而幫助確定商店貨架的布局排放以促銷某些商品,並且對進貨的選擇和搭配上也更有目的性。這方面的系統有:Opportunity Ex-plorer,它可用於超市商品銷售異常情況的因果分析等,另外IBM公司也開發了識別顧客購買行為模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2.金融投資。典型的金融分析領域有投資評估和股票交易市場預測,分析方法一般採用模型預測法(如神經網路或統計回歸技術)。代寫碩士論文由於金融投資的風險很大,在進行投資決策時,更需要通過對各種投資方向的有關數據進行分析,以選擇最佳的投資方向。無論是投資評估還是股票市場預測,都是對事物發展的一種預測,而且是建立在對數據的分析基礎之上的。數據挖掘可以通過對已有數據的處理,找到數據對象之間的關系,然後利用學習得到的模式進行合理的預測。這方面的系統有Fidelity Stock Selector和LBS Capital Management。前者的任務是使用神經網路模型選擇投資,後者則使用了專家系統、神經網路和基因演算法技術來輔助管理多達6億美元的有價證券。
3.欺詐甄別。銀行或商業上經常發生詐騙行為,如惡性透支等,這些給銀行和商業單位帶來了巨大的損失。對這類詐騙行為進行預測可以減少損失。進行詐騙甄別主要是通過總結正常行為和詐騙行為之間的關系,得到詐騙行為的一些特性,這樣當某項業務符合這些特徵時,可以向決策人員提出警告。
這方面應用非常成功的系統有:FALCON系統和FAIS系統。FALCON是HNC公司開發的信用卡欺詐估測系統,它已被相當數量的零售銀行用於探測可疑的信用卡交易;FAIS則是一個用於識別與洗錢有關的金融交易的系統,它使用的是一般的政府數據表單。此外數據挖掘還可用於天文學上的遙遠星體探測、基因工程的研究、web信息檢索等。
結束語
隨著資料庫、人工智慧、數理統計及計算機軟硬體技術的發展,數據挖掘技術必能在更多的領域內取得更廣泛的應用。
參考文獻:
[1]閆建紅《資料庫系統概論》的教學改革與探索[J].山西廣播電視大學學報,2006,(15):16—17.
⑤ 股票軟體真的有用嗎
1、炒股軟體要說有用,對已點不會炒股的人有一定幫助。比較有個參考的東西了。
2、炒股軟體要說沒用也沒用。如果炒股軟體那麼神,永遠是對的。1年能賺個十幾倍或是幾十倍的話,那麼我就不用賣軟體了。我融資來1千萬,一年都變成1個億了,2年就是10個億了。3年就是100個億了,對不對。
你有這樣的軟體,你會賣嗎????
⑥ 什麼和什麼是數據收集的兩大重要渠道引導了大數據時代的來臨
讓大數據區別於數據的,是其海量積累、高增長率和多樣性
什麼是數據?數據(data)在拉丁文里是「已知」的意思,在英文中的一個解釋是「一組事實的集合,從中可以分析出結論」。籠統地說,凡是用某種載體記錄下來的、能反映自然界和人類社會某種信息的,就可稱之為數據。古人「結繩記事」,打了結的繩子就是數據。步入現代社會,信息的種類和數量越來越豐富,載體也越來越多。數字是數據,文字是數據,圖像、音頻、視頻等都是數據。
什麼是大數據呢?量的增多,是人們對大數據的第一個認識。隨著科技發展,各個領域的數據量都在迅猛增長。有研究發現,近年來,數字數據的數量每3年多就會翻一番。
大數據區別於數據,還在於數據的多樣性。正如高德納咨詢公司研究報告指出的,數據的爆炸是三維的、立體的。所謂的三維,除了指數據量快速增大外,還指數據增長速度的加快,以及數據的多樣性,即數據的來源、種類不斷增加。
從數據到大數據,不僅是量的積累,更是質的飛躍。海量的、不同來源、不同形式、包含不同信息的數據可以容易地被整合、分析,原本孤立的數據變得互相聯通。這使得人們通過數據分析,能發現小數據時代很難發現的新知識,創造新的價值。
通過數據來研究規律、發現規律,貫穿了人類社會發展的始終。人類科學發展史上的不少進步都和數據採集分析直接相關,例如現代醫學流行病學的開端。倫敦1854年發生了大規模的霍亂,很長時間沒有辦法控制。一位醫師用標點地圖的方法研究了當地水井分布和霍亂患者分布之間的關系,發現有一口水井周圍,霍亂患病率明顯較高,藉此找到了霍亂暴發的原因:一口被污染的水井。關閉這口水井之後,霍亂的發病率明顯下降。這種方法,充分展示了數據的力量。
本質上說,許多科學活動都是數據挖掘,不是從預先設定好的理論或者原理出發,通過演繹來研究問題,而是從數據本身出發通過歸納來總結規律。近現代以來,隨著我們面臨的問題變得越來越復雜,通過演繹的方式來研究問題常常變得很困難。這就使得數據歸納的方法變得越來越重要,數據的重要性也越發凸顯出來。
大數據是非競爭性資源,有助於政府科學決策、商家精準營銷
大數據時代,數據的重要作用更加凸顯,許多國家都把大數據提升到國家戰略的高度。
政府合理利用大數據,引導決策的將是基於實證的事實,政府會更有預見性、更加負責、更加開放。中國古代治國就已經有重數據的思想,如商鞅提出,「強國知十三數……欲強國,不知國十三數,地雖利,民雖眾,國愈弱至削」。大數據時代,循「數」治國將更加有效。小數據時代,政府做決策更多依憑經驗和局部數據,難免頭痛醫頭、腳痛醫腳。比如,交通堵塞就多修路。大數據時代,政府做決策能夠從粗放型轉向集約型。路堵了,利用大數據分析,可以得知哪一時間、哪一地段最容易堵,或在這一地段附近多修路,或提前預警引導居民合理安排出行,實現對交通流的最佳配置和控制,改善交通。
對於商家來說,大數據使精準營銷成為可能。一個有趣的故事,是沃爾瑪超市的「啤酒、尿布」現象。沃爾瑪超市分析銷售數據時發現,顧客消費單上和尿布一起出現次數最多的商品,竟然是啤酒。跟蹤調查後發現,有不少年輕爸爸會在買尿布時,順便買些啤酒喝。沃爾瑪發現這一規律後,搭配促銷啤酒、尿布,銷量大幅增加。大數據時代,每個人都會「自發地」提供數據。我們的各種行為,如點擊網頁、使用手機、刷卡消費、觀看電視、坐地鐵出行、駕駛汽車,都會生成數據並被記錄下來,我們的性別、職業、喜好、消費能力等信息,都會被商家從中挖掘出來,以分析商機。
大數據也將使個人受益。從生物學、醫學上講,以前生物學家只是通過對單個或幾個基因的操控來觀察其對生物體的影響,很難發現整體的關聯。現在由於技術的發展,可以分析很多,如遺傳信息、全體基因的表達量信息、蛋白質族譜信息、全基因組甲基化信息、表觀遺傳信息等。同時還有個人健康指標、病歷、葯物反應等數據。如果真能達成生物學上多維多向數據的有機融合,就能夠把個人完整地描述出來,從而實現精準醫療的目的。
大數據時代,審核數據的真實性也有了更有效的手段。大數據的特徵之一是多樣性,不同來源、不同維度的數據之間存在一定的關聯度,可以交叉驗證。例如,某地的工業產值虛報了一倍,但用電量和能耗卻沒有達到相應的規模。這就是數據異常,很容易被系統識別出來。發現異常後,相關部門再進行復核,就能更有針對性地防止、打擊數據造假。
數據是一種資源,但數據又跟煤、石油等物質性資源不一樣。物質性資源不可再生,你用多了,別人就用少了,因而很難共享。數據可以重復使用、不斷產生新的價值。大數據資源的使用是非惡性競爭的,共享的前提下,更能夠製造雙贏。從另一個角度來說,數據如果不被融合、聯系在一起,也不能稱之為大數據。
大數據不能被直接拿來使用,統計學依然是數據分析的靈魂
現在社會上有一種流行的說法,認為在大數據時代,「樣本 = 全體」,人們得到的不是抽樣數據而是全數據,因而只需要簡單地數一數就可以下結論了,復雜的統計學方法可以不再需要了。
在我看來,這種觀點非常錯誤。首先,大數據告知信息但不解釋信息。打個比方說,大數據是「原油」而不是「汽油」,不能被直接拿來使用。就像股票市場,即使把所有的數據都公布出來,不懂的人依然不知道數據代表的信息。大數據時代,統計學依然是數據分析的靈魂。正如加州大學伯克利分校邁克爾·喬丹教授指出的:沒有系統的數據科學作為指導的大數據研究,就如同不利用工程科學的知識來建造橋梁,很多橋梁可能會坍塌,並帶來嚴重的後果。
其次,全數據的概念本身很難經得起推敲。全數據,顧名思義就是全部數據。這在某些特定的場合對於某些特定的問題確實可能實現。比如,要比較清華、北大兩校同學數學能力整體上哪個更強,可以收集到兩校同學高考時的數學成績作為研究的數據對象。從某種意義上說,這是全數據。但是,並不是說我們有了這個全數據就能很好地回答問題。
一方面,這個數據雖然是全數據,但仍然具有不確定性。入校時的數學成績並不一定完全代表學生的數學能力。假如讓所有同學重新參加一次高考,幾乎每個同學都會有一個新的成績。分別用這兩組全數據去做分析,結論就可能發生變化。另一方面,事物在不斷地發展和變化,同學入校時的成績並不能夠代表現在的能力。全體同學的高考成績數據,僅對於那次考試而言是全數據。「全」是有邊界的,超出了邊界就不再是全知全能了。事物的發展充滿了不確定性,而統計學,既研究如何從數據中把信息和規律提取出來,找出最優化的方案;也研究如何把數據當中的不確定性量化出來。
所以說,在大數據時代,數據分析的很多根本性問題和小數據時代並沒有本質區別。當然,大數據的特點,確實對數據分析提出了全新挑戰。例如,許多傳統統計方法應用到大數據上,巨大計算量和存儲量往往使其難以承受;對結構復雜、來源多樣的數據,如何建立有效的統計學模型也需要新的探索和嘗試。對於新時代的數據科學而言,這些挑戰也同時意味著巨大的機遇,有可能會產生新的思想、方法和技術。
⑦ 「基於數據挖掘的股票交易分析--模型分析」 這個題目,是什麼意思 哪位哥們,能給點具體解釋么
很難寫,主要牽涉到數據挖掘(軟體)和股票交易兩方面的專業。數據挖掘需要設計軟體進行建模,而股票交易需要進行實證(博士論文都可以寫了)。
建議:可以寫基於統計挖掘的股票交易分析--模型分析,這樣就簡單多了,只需要在股票軟體上得出一些統計數據,然後進行驗證就可以了,可操作性強。
⑧ 描述性挖掘和數據挖掘的核心區別
描述性挖掘和數據挖掘的核心區別是處理的方法不同。
方法是指:
1.根據挖掘的資料庫類型分類:數據挖掘系統可以根據挖掘的資料庫類型分類。資料庫系統本身可以根據不同的標准(如數據模型、數據類型或所涉及的應用)分類,每一類可能需要自己的數據挖掘技術。這樣,數據挖掘系統就可以相應分類。
2.根據挖掘的知識類型分類:數據挖掘系統可以根據所挖掘的知識類型分類,即根據數據挖掘的功能分類,如特徵化、區分、關聯和相關分析、分類、預測、聚類、離群點分析和演變分析,一個綜合的數據挖掘系統通常提供多種和/或集成的數據挖掘功能。
此外,數據挖掘系統還可以根據所挖掘的知識的粒度或抽象層進行區分,包括廣義知識(高抽象層)、原始層知識(原始數據層)或多層知識(考慮若干抽象層),一個高級數據挖掘系統應當支持多抽象層的知識發現。
數據挖掘系統還可以分類為挖掘數據的規則性(通常出現的模式)與挖掘數據的奇異性(如異常或離群點)。一般地概念描述、關聯和相關分析、分類、預測和聚類挖掘數據的規則性,將離群點作為雜訊排除。
3.根據所用的技術類型分類:數據挖掘系統也可以根據所用的數據挖掘技術分類。
這些技術可以根據用戶交互程度(例如自動系統、交互探查系統、查詢驅動系統),或所用的數據分析方法(例如面向資料庫或面向數據倉庫的技術、機器學習、統計學、可視化、模式識別、神經網路等)描述。
4.根據應用分類:數據挖掘系統也可以根據其應用分類。例如,可能有些數據挖掘系統特別適合金融、電信、DNA、股票市場、e-mail等,不同的應用通常需要集成對於該應用特別有效的方法。因此,泛化的全能的數據挖掘系統可能並不適合特定領域的挖掘任務。
⑨ 誰有金融數據挖掘,關聯規則分析與挖掘的一些介紹啊
雨林演算法的數據結構:
AVC-set:節點n包含的所有紀錄在某個屬性上的投影,其中該AVC-set包括了屬性的不同值在每個類別上的計數。
AVC-group:一個節點n上所有的AVC -set的集合
AVC-set的所佔內存的大小正比於對應屬性的不同值個數,AVC-group並不是資料庫信息的簡單的壓縮,它只是提供了建立決策樹需要的信息, AVC-group所佔用的內存空間遠遠小於資料庫所實際佔用的空間。
一般設計方案:
AVC_set
{
//存儲屬性的各個值
DistinctValue[]
//存儲屬性各個值在某個類上對應的計數
DistinctValueCountForClassA[]
DistinctValueCountForClassB[]
… …
}
AVC_group
{
//節點n中的每個屬性的avc_set
AVC_set[]
}
自頂向下決策樹演算法
BuildTree(Node m,datapatition D,algorithm decisionTree)
對D使用決策樹演算法decisionTree得到分裂指標crit(n)
令k為節點n的子節點個數
if(k>0)
建立n的k個子節點c1,…,ck
使用最佳分割將D分裂為D1,…,Dk
for(i=1;i<=k;i++)
BuildTree(ci,Di)
endfor
endif
RainForest 演算法框架重新定義的部分:
1a) for 每一個屬性的謂詞p,尋找最佳的分割
1b) decisionTree.find_best_partitioning(AVC-set of p)
1c) endfor
2a) k= decisionTree.decide_splitting_criterion();//決定最終的分割
雨林演算法的常規過程:
建立節點的AVC-group
(通過讀取整個原始資料庫或者某個分支的資料庫表或文件)
選擇分裂屬性和分裂標准:取決於使用雨林演算法框架的具體演算法,通過逐一檢查AVC-set來選擇。
將數據分解到各個子節點:必須讀取整個數據集(資料庫或文件),將各條數據分解到各個子節點中,此時如果有足夠的內存,我們將建立一個或多個子節點的AVC-group
參考資料:李岱 rainforest.ppt 什麼是數據挖掘
數據挖掘(Data Mining),又稱為資料庫中的知識發現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或「挖掘」知識。
並非所有的信息發現任務都被視為數據挖掘。例如,使用資料庫管理系統查找個別的記錄,或通過網際網路的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的演算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
編輯本段數據挖掘的起源
為迎接前一節中的這些挑戰,來自不同學科的研究者匯集到一起,開始著手開發可以處理不同數據類型的更有效的、可伸縮的工具。這些工作建立在研究者先前使用的方法學和演算法之上,在數據挖掘領域達到高潮。特別地是,數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2) 人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。
一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,並且當數據不能集中到一起處理時更是至關重要。
編輯本段數據挖掘能做什麼
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
· 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系 。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
編輯本段數據挖掘中的關聯規則上面演算法講的很清楚了,我來舉個例子:
Training data:
Id age income class
1 young 65 G
2 young 15 B
3 young 75 G
4 senior 40 B
5 senior 100 G
6 senior 60 G
AVC set „age「 for N1:
value class count
young B 1
young G 2
senior B 1
senior G 2
AVC set „income「 for N1:
value class count
15 B 1
40 B 1
60 G 1
65 G 1
75 G 1
100 G 1
AVC set „income「 for N2:
value class count
15 B 1
65 G 1
75 G 1
AVC set „age「 for N2:
value class count
young B 1
young G 2
最後推出雨林: N1
age=young / \ age=senior
/ \
N2 N3
最後提醒一點,對於雨林演算法,訓練樣本集不要大於3百萬。否則改用SPRINT。
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。
在一家超市裡,有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠准確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是:"跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式:在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維,尿布與啤酒風馬牛不相及,若不是藉助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題,以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化,如引入隨機采樣、並行的思想等,以提高演算法挖掘規則的效率;對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言,必須達到某一水平。一項目組出現的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式(1)求得包含{A,B}項目組的支持度,若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1,直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則,是利用前一步驟的高頻k-項目組來產生規則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。例如:經由高頻k-項目組{A,B}所產生的規則AB,其信賴度可經由公式(2)求得,若信賴度大於等於最小信賴度,則稱AB為關聯規則。
就沃爾馬案例而言,使用關聯規則挖掘技術,對交易資料庫中的紀錄進行資料挖掘,首先必須要設定最小支持度與最小信賴度兩個門檻值,在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關聯規則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因此,今後若有某消費者出現購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布,啤酒」關聯規則,因為就該超市過去的交易紀錄而言,支持了「大部份購買尿布的交易,會同時購買啤酒」的消費行為。
從上面的介紹還可以看出,關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據,則在關聯規則挖掘之前應該進行適當的數據離散化(實際上就是將某個區間的值對應於某個值),數據的離散化是數據挖掘前的重要環節,離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況,關聯規則可以進行分類如下:
1.基於規則中處理的變數的類別,關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的,它顯示了這些變數之間的關系;而數值型關聯規則可以和多維關聯或多層關聯規則結合起來,對數值型欄位進行處理,將其進行動態的分割,或者直接對原始的數據進行處理,當然數值型關聯規則中也可以包含種類變數。例如:性別=「女」=>職業=「秘書」 ,是布爾型關聯規則;性別=「女」=>avg(收入)=2300,涉及的收入是數值類型,所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中,所有的變數都沒有考慮到現實的數據是具有多個不同的層次的;而在多層的關聯規則中,對數據的多層性已經進行了充分的考慮。例如:IBM台式機=>Sony列印機,是一個細節數據上的單層關聯規則;台式機=>Sony列印機,是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數,關聯規則可以分為單維的和多維的。
在單維的關聯規則中,我們只涉及到數據的一個維,如用戶購買的物品;而在多維的關聯規則中,要處理的數據將會涉及多個維。換成另一句話,單維關聯規則是處理單個屬性中的一些關系;多維關聯規則是處理各個屬性之間的某些關系。例如:啤酒=>尿布,這條規則只涉及到用戶的購買的物品;性別=「女」=>職業=「秘書」,這條規則就涉及到兩個欄位的信息,是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關演算法
1.Apriori演算法:使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里,所有支持度大於最小支持度的項集稱為頻繁項集,簡稱頻集。
該演算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這里採用的是中規則的定義。一旦這些規則被生成,那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫,是Apriori演算法的兩大缺點。
2.基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊並對它生成所有的頻集,然後把產生的頻集合並,用來生成所有可能的頻集,最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的,可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後,處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法
針對Apriori演算法的固有缺陷,J. Han等提出了不產生候選挖掘頻繁項集的方法:FP-樹頻集演算法。採用分而治之的策略,在經過第一遍掃描之後,把資料庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯信息,隨後再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候,也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,FP-growth對不同長度的規則都有很好的適應性,同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3.1關聯規則發掘技術在國內外的應用
就目前而言,關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息,供使用本行ATM機的用戶了解。如果資料庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什麼產品感興趣。
同時,一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘,然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國,「數據海量,信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能,卻無法發現數據中存在的各種有用的信息,譬如對這些數據進行分析,發現其數據模式及特徵,然後可能發現某個客戶、消費群體或組織的金融和商業興趣,並可觀察金融市場的變化趨勢。可以說,關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3.2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜,大量研究從不同的角度對關聯規則做了擴展,將更多的因素集成到關聯規則挖掘方法之中,以此豐富關聯規則的應用領域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系,時態關系,多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面,即擴展經典關聯規則能夠解決問題的范圍,改善經典關聯規則挖掘演算法效率和規則興趣性。
編輯本段數據挖掘技術實現
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
·數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面,未來的技術發展將集中在系統功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統更便於管理和維護。
·數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前,許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能,將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
·數據的展現
在數據展現方面主要的方式有:
查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關於數據關系和模式的知識。
編輯本段數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作,一方面,可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性。另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的,其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果,更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。
統計學與數據挖掘
統計學和數據挖掘有著共同的目標:發現數據中的結構。事實上,由於它們的目標相似,一些人(尤其是統計學家)認為數據挖掘是統計學的分支。這是一個不切合實際的看法。因為數據挖掘還應用了其它領域的思想、工具和方法,尤其是計算機學科,例如資料庫技術和機器學習,而且它所關注的某些領域和統計學家所關注的有很大不同。
1.統計學的性質
試圖為統計學下一個太寬泛的定義是沒有意義的。盡管可能做到,但會引來很多異議。相反,我要關注統計學不同於數據挖掘的特性。
差異之一同上節中最後一段提到的相關,即統計學是一門比較保守的學科,目前有一種趨勢是越來越精確。當然,這本身並不是壞事,只有越精確才能避免錯誤,發現真理。但是如果過度的話則是有害的。這個保守的觀點源於統計學是數學的分支這樣一個看法,我是不同意這個觀點的,盡管統計學確實以數學為基礎(正如物理和工程也以數學為基礎,但沒有被認為是數學的分支),但它同其它學科還有緊密的聯系。
數學背景和追求精確加強了這樣一個趨勢:在採用一個方法之前先要證明,而不是象計算機 這
⑩ 結合Python分析金融數據挖掘在量化投資領域中的應用
量化投資領域在金融數據中的應用包括:
股票市場的價格預測,利用歷史數據對股票未來的價格進行預測,幫助投資者決策。
資產配置,通過分析金融數據,幫助投資者合理配置資產,使投資回報最大化。
風險評估,利用金融數據進行風險評估,幫助投資者了解投資風險,並進行風險管理。
自動交易,利用金融數據進行交易策略的設計和執行,進行自動化交易。
定量研究,利用金融數據進行定量研究,對金融市場的行為進行深入的研究。