作者:譯幫翻譯 日期:2019-06-10
一、大數(shù)據(jù)
英文:big data,mega data
大數(shù)據(jù),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
二、大數(shù)據(jù)的4V:
Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)
三、當前用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈
開源大數(shù)據(jù)生態(tài)圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
3、NoSQL,membase、MongoDb
商用大數(shù)據(jù)生態(tài)圈:
1、一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數(shù)據(jù)倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數(shù)據(jù)集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
四、Hadoop
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。
用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。
五、Apache基金會
Apache軟件基金會(也就是Apache Software Foundation,簡稱為ASF),是專門為支持開源軟件項目而辦的一個非盈利性組織。在它所支持的Apache項目與子項目中,所發(fā)行的軟件產品都遵循Apache許可證(Apache License)。
六、MapReduce
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念”Map(映射)”和”Reduce(歸約)”,和它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。 當前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。
七、BI
商業(yè)智能(BI,Business Intelligence)。
BI(Business Intelligence)即商務智能,它是一套完整的解決方案,用來將企業(yè)中現(xiàn)有的數(shù)據(jù)進行有效的整合,快速準確的提供報表并提出決策依據(jù),幫助企業(yè)做出明智的業(yè)務經(jīng)營決策。
八、CRM
CRM即客戶關系管理,是指企業(yè)用CRM技術來管理與客戶之間的關系。在不同場合下,CRM可能是一個管理學術語,可能是一個軟件系統(tǒng)。通常所指的CRM,指用計算機自動化分析銷售、市場營銷、客戶服務以及應用等流程的軟件系統(tǒng)。它的目標是通過提高客戶的價值、滿意度、贏利性和忠實度來縮減銷售周期和銷售成本、增加收入、尋找擴展業(yè)務所需的新的市場和渠道。CRM是選擇和管理有價值客戶及其關系的一種商業(yè)策略,CRM要求以客戶為中心的企業(yè)文化來支持有效的市場營銷、銷售與服務流程。
九、云計算
云計算(cloud computing)是基于互聯(lián)網(wǎng)的相關服務的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡、互聯(lián)網(wǎng)的一種比喻說法。過去在圖中往往用云來表示電信網(wǎng),后來也用來表示互聯(lián)網(wǎng)和底層基礎設施的抽象。因此,云計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這么強大的計算能力可以模擬核爆炸、預測氣候變化和市場發(fā)展趨勢。用戶通過電腦、筆記本、手機等方式接入數(shù)據(jù)中心,按自己的需求進行運算。
十、云計算相關
分布式計算(Distributed Computing)
并行計算(Parallel Computing)
效用計算(Utility Computing)
網(wǎng)絡存儲(Network Storage Technologies)
虛擬化(Virtualization)
負載均衡(Load Balance)
熱備份冗余(High Available)
十一:數(shù)據(jù)倉庫
數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持的目的而創(chuàng)建。 為企業(yè)提供需要業(yè)務智能來指導業(yè)務流程改進和監(jiān)視時間、成本、質量和控制。
十二:非關系型數(shù)據(jù)庫
NoSQL,泛指非關系型的數(shù)據(jù)庫。隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統(tǒng)的關系數(shù)據(jù)庫在應付web2.0網(wǎng)站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動態(tài)網(wǎng)站已經(jīng)顯得力不從心,暴露了很多難以克服的問題,而非關系型的數(shù)據(jù)庫則由于其本身的特點得到了非常迅速的發(fā)展。NoSQL數(shù)據(jù)庫的產生就是為了解決大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),尤其是大數(shù)據(jù)應用難題。
十三:結構化數(shù)據(jù)
結構化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結構來邏輯表達實現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結構化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、各類報表、圖像和音頻/視頻信息等等。
十四:結構化分析方法
結構化分析方法(Structured Method,結構化方法)是強調開發(fā)方法的結構合理性以及所開發(fā)軟件的結構合理性的軟件開發(fā)方法。結構是指系統(tǒng)內各個組成要素之間的相互聯(lián)系、相互作用的框架。結構化開發(fā)方法提出了一組提高軟件結構合理性的準則,如分解與抽象、模塊獨立性、信息隱蔽等。針對軟件生存周期各個不同的階段,它有結構化分析(SA)和結構化程序設計(SP)等方法。
十五:半結構化數(shù)據(jù)
和普通純文本相比,半結構化數(shù)據(jù)具有一定的結構性,但和具有嚴格理論模型的關系數(shù)據(jù)庫的數(shù)據(jù)相比。OEM(Object exchange Model)是一種典型的半結構化數(shù)據(jù)模型。
半結構化數(shù)據(jù)(semi-structured data)
在做一個信息系統(tǒng)設計時肯定會涉及到數(shù)據(jù)的存儲,一般我們都會將系統(tǒng)信息保存在某個指定的關系數(shù)據(jù)庫中。我們會將數(shù)據(jù)按業(yè)務分類,并設計相應的表,然后將對應的信息保存到相應的表中。比如我們做一個業(yè)務系統(tǒng),要保存員工基本信息:工號、姓名、性別、出生日期等等;我們就會建立一個對應的staff表。
但不是系統(tǒng)中所有信息都可以這樣簡單的用一個表中的字段就能對應的。
十六:非結構化數(shù)據(jù)
非結構化數(shù)據(jù)庫是指其字段長度可變,并且每個字段的記錄又可以由可重復或不可重復的子字段構成的數(shù)據(jù)庫,用它不僅可以處理結構化數(shù)據(jù)(如數(shù)字、符號等信息)而且更適合處理非結構化數(shù)據(jù)(全文文本、圖象、聲音、影視、超媒體等信息)。
十七:數(shù)據(jù)庫(Database)
數(shù)據(jù)庫是按照數(shù)據(jù)結構來組織、存儲和管理數(shù)據(jù)的倉庫,它產生于距今六十多年前,隨著信息技術和市場的發(fā)展,特別是二十世紀九十年代以后,數(shù)據(jù)管理不再僅僅是存儲和管理數(shù)據(jù),而轉變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫有很多種類型,從最簡單的存儲有各種數(shù)據(jù)的表格到能夠進行海量數(shù)據(jù)存儲的大型數(shù)據(jù)庫系統(tǒng)都在各個方面得到了廣泛的應用。
十八:數(shù)據(jù)分析
英文名:Data Analysis
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。
Excel作為常用的分析工具,可以實現(xiàn)基本的分析工作,在商業(yè)智能領域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及國內產品如Yonghong Z-Suite BI套件等。
十九:數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
二十:數(shù)據(jù)清洗
數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務是過濾那些不符合要求的數(shù)據(jù),將過濾的結果交給業(yè)務主管部門,確認是否過濾掉還是由業(yè)務單位修正之后再進行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。數(shù)據(jù)清洗是與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。
二十一:可視化
可視化(Visualization)是利用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。它涉及到計算機圖形學、圖像處理、計算機視覺、計算機輔助設計等多個領域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術。目前正在飛速發(fā)展的虛擬現(xiàn)實技術也是以圖形圖像的可視化技術為依托的。
二十二:數(shù)據(jù)可視化
英文名:Data visualization
數(shù)據(jù)可視化技術的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元元素表示,大量的數(shù)據(jù)集構成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。
數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。但是,這并不就意味著,數(shù)據(jù)可視化就一定因為要實現(xiàn)其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端復雜。為了有效地傳達思想概念,美學形式與功能需要齊頭并進,通過直觀地傳達關鍵的方面與特征,從而實現(xiàn)對于相當稀疏而又復雜的數(shù)據(jù)集的深入洞察。然而,設計人員往往并不能很好地把握設計與功能之間的平衡,從而創(chuàng)造出華而不實的數(shù)據(jù)可視化形式,無法達到其主要目的,也就是傳達與溝通信息。
二十三:產品數(shù)據(jù)管理
產品數(shù)據(jù)管理(Product Data Management)是基于分布式網(wǎng)絡、主從結構、圖形化用戶接口和數(shù)據(jù)庫件管理技術發(fā)展起來的一種軟件框架(或數(shù)據(jù)平臺),PDM對并行工程中的人員工具、設備資源、產品數(shù)據(jù)以及數(shù)據(jù)生成過程進行全面管理。
二十四:DSP(需求方平臺)
DSP(Demand-Side Platform),就是需求方平臺。這一概念起源于網(wǎng)絡廣告發(fā)達的歐美,是伴隨著互聯(lián)網(wǎng)和廣告業(yè)的飛速發(fā)展新興起的網(wǎng)絡廣告領域。它與Ad Exchange和RTB一起迅速崛起于美國,已在全球快速發(fā)展,2011年已經(jīng)覆蓋到了歐美、亞太以及澳洲。在世界網(wǎng)絡展示廣告領域,DSP方興未艾。DSP傳入中國,迅速成為熱潮,成為推動中國網(wǎng)絡展示廣告RTB市場快速發(fā)展的動力之一。
二十五:DMP(數(shù)據(jù)管理平臺)
DMP(Data-Management Platform)數(shù)據(jù)管理平臺,是把分散的第一、第三方數(shù)據(jù)進行整合納入統(tǒng)一的技術平臺,并對這些數(shù)據(jù)進行標準化和細分,讓用戶可以把這些細分結果推向現(xiàn)有的互動營銷環(huán)境里。
DMP的核心元素包括:
·數(shù)據(jù)整合及標準化能力:采用統(tǒng)一化的方式,將各方數(shù)據(jù)吸納整合。
·數(shù)據(jù)細分管理能力:創(chuàng)建出獨一無二、有意義的客戶細分,進行有效營銷活動。
·功能健全的數(shù)據(jù)標簽:提供數(shù)據(jù)標簽靈活性,便于營銷活動的使用。
·自助式的用戶界面:基于網(wǎng)頁web界面或其他集成方案直接獲取數(shù)據(jù)工具,功能和幾種形式報表和分析。
·相關渠道環(huán)境的連接:跟相關渠道的集成,包含網(wǎng)站端、展示廣告、電子郵件以及搜索和視頻,讓營銷者能找到、定位和提供細分群體相關高度的營銷信息。
二十六:CPA(廣告術語)
CPA(Cost Per Action)是一種廣告計費模式,顧名思義按照行為(Action)作為指標來計費,這個行為可以是注冊、咨詢、放入購物車等等。廣告公司和媒體公司常用CPA、CPC(Cost Per Click)、CPM(Cost Per Mille,或者Cost Per Thousand;Cost Per Impressions)一起來衡量廣告價格。
CPA(每次行動成本,Cost Per Action)計價方式是指按廣告投放實際效果,即按回應的有效問卷或定單來計費,而不限廣告投放量。CPA廣告是網(wǎng)絡中最常見的一種廣告形式,當用戶點擊某個網(wǎng)站上的cpc廣告后,這個站的站長就會獲得相應的收入。
二十七:CPT(廣告術語)
按時長計費是包時段投放廣告的一種形式,廣告主選擇廣告位和投放時間,費用與廣告點擊量無關。采用這種方式出售廣告,網(wǎng)站主決定每一個廣告位的價格,廣告主自行選擇購買時間段,目前可按周或按天購買,成交價就是網(wǎng)站主標定的價格。
二十八:CTR(廣告點擊率)
CTR(Click-Through-Rate)互聯(lián)網(wǎng)廣告常用的術語,指網(wǎng)絡廣告(圖片廣告/文字廣告/關鍵詞廣告/排名廣告/視頻廣告等)的點擊到達率,即該廣告的點擊量(嚴格的來說,可以是到達目標頁面的數(shù)量)除以廣告的瀏覽量(PV- Page View)。
CTR是衡量互聯(lián)網(wǎng)廣告效果的一項重要指標。
二十九:算法
算法(Algorithm)是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令,算法代表著用系統(tǒng)的方法描述解決問題的策略機制。也就是說,能夠對一定規(guī)范的輸入,在有限時間內獲得所要求的輸出。如果一個算法有缺陷,或不適合于某個問題,執(zhí)行這個算法將不會解決這個問題。不同的算法可能用不同的時間、空間或效率來完成同樣的任務。一個算法的優(yōu)劣可以用空間復雜度與時間復雜度來衡量。
三十:機器學習
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。
三十一:人工智能
人工智能(Artificial Intelligence) ,英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。 人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智能帶來的科技產品,將會是人類智慧的“容器”。
三十二:深度學習
英文名:Deep Learning
深度學習的概念源于人工神經(jīng)網(wǎng)絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
深度學習的概念由Hinton等人于2006年提出?;谏钚哦染W(wǎng)(DBN)提出非監(jiān)督貪心逐層訓練算法,為解決深層結構相關的優(yōu)化難題帶來希望,隨后提出多層自動編碼器深層結構。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡是第一個真正多層結構學習算法,它利用空間相對關系減少參數(shù)數(shù)目以提高訓練性能。
深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本。
三十四:神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,簡寫為ANNs)也簡稱為神經(jīng)網(wǎng)絡(NNs)或稱作連接模型(Connection Model),它是一種模仿動物神經(jīng)網(wǎng)絡行為特征,進行分布式并行信息處理的算法數(shù)學模型。這種網(wǎng)絡依靠系統(tǒng)的復雜程度,通過調整內部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。
三十五:OpenStack
OpenStack是一個由NASA(美國國家航空航天局)和Rackspace合作研發(fā)并發(fā)起的,以Apache許可證授權的自由軟件和開放源代碼項目。
OpenStack是一個開源的云計算管理平臺項目,由幾個主要的組件組合起來完成具體工作。OpenStack支持幾乎所有類型的云環(huán)境,項目目標是提供實施簡單、可大規(guī)模擴展、豐富、標準統(tǒng)一的云計算管理平臺。OpenStack通過各種互補的服務提供了基礎設施即服務(IaaS)的解決方案,每個服務提供API以進行集成。
三十六:SaaS
SaaS是Software-as-a-Service(軟件即服務)的簡稱,隨著互聯(lián)網(wǎng)技術的發(fā)展和應用軟件的成熟, 在21世紀開始興起的一種完全創(chuàng)新的軟件應用模式。它與“on-demand software”(按需軟件),the application service provider(ASP,應用服務提供商),hosted software(托管軟件)所具有相似的含義。它是一種通過Internet提供軟件的模式,廠商將應用軟件統(tǒng)一部署在自己的服務器上,客戶可以根據(jù)自己實際需求,通過互聯(lián)網(wǎng)向廠商定購所需的應用軟件服務,按定購的服務多少和時間長短向廠商支付費用,并通過互聯(lián)網(wǎng)獲得廠商提供的服務。
三十七:Paas
PaaS是Platform-as-a-Service的縮寫,意思是平臺即服務。 把服務器平臺作為一種服務提供的商業(yè)模式。通過網(wǎng)絡進行程序提供的服務稱之為SaaS(Software as a Service),而云計算時代相應的服務器平臺或者開發(fā)環(huán)境作為服務進行提供就成為了PaaS(Platform as a Service)。
所謂PaaS實際上是指將軟件研發(fā)的平臺(計世資訊定義為業(yè)務基礎平臺)作為一種服務,以SaaS的模式提交給用戶。因此,PaaS也是SaaS模式的一種應用。但是,PaaS的出現(xiàn)可以加快SaaS的發(fā)展,尤其是加快SaaS應用的開發(fā)速度。在2007年國內外SaaS廠商先后推出自己的PAAS平臺。
三十八:IaaS
IaaS(Infrastructure as a Service),即基礎設施即服務。
消費者通過Internet 可以從完善的計算機基礎設施獲得服務。這類服務稱為基礎設施即服務?;?Internet 的服務(如存儲和數(shù)據(jù)庫)是 IaaS的一部分。Internet上其他類型的服務包括平臺即服務(Platform as a Service,PaaS)和軟件即服務(Software as a Service,SaaS)。PaaS提供了用戶可以訪問的完整或部分的應用程序開發(fā),SaaS則提供了完整的可直接使用的應用程序,比如通過 Internet管理企業(yè)資源。
三十九:HaaS
以提供的Hadoop作為一種服務(HAAS)
HaaS(Hardware-as-a-service)的意思是硬件即服務。HaaS概念的出現(xiàn)源于云計算,現(xiàn)在被稱作基礎架構即服務(IaaS)或基礎架構云,使用IaaS,各企業(yè)可通過Web將更多的基礎架構容量作為服務提供?!巴ㄟ^Web”分配更多的存儲或處理容量當然要比供應商在基礎環(huán)境中引入和安裝新硬件要快得多。HaaS還具有另外一層含義是針對嵌入式設備而言的,目的在于建立通過互聯(lián)網(wǎng)(Web)進行嵌入式設備統(tǒng)一管理服務的模式。在這種情況下,HaaS類似于SaaS,對于嵌入式設備使用者來說,無需對所需嵌入式設備進行一次性購買,僅需按照設備使用量或其它標準支付設備的服務費及維護費即可。
四十:決策樹
決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎上,通過構成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學理論中熵的概念。
四十一:EM算法
最大期望算法(Expectation Maximization Algorithm,又譯期望最大化算法),是一種迭代算法,用于含有隱變量(hidden variable)的概率參數(shù)模型的最大似然估計或極大后驗概率估計。
四十二:數(shù)據(jù)聚類
數(shù)據(jù)聚類 (英語 : Cluster analysis) 是對于靜態(tài)數(shù)據(jù)分析的一門技術,在許多領域受到廣泛應用,包括機器學習,數(shù)據(jù)挖掘,模式識別,圖像分析以及生物信息。聚類是把相似的對象通過靜態(tài)分類的方法分成不同的組別或者更多的子集(subset),這樣讓在同一個子集中的成員對象都有相似的一些屬性,常見的包括在坐標系中更加短的空間距離等。
四十三:概率模型
給定一個用戶的查詢串,相對于該串存在一個包含所有相關文檔的集合。我們把這樣的集合看作是一個理想的結果文檔集,在給出理想結果集后,我們能很容易得到結果文檔。這樣我們可以把查詢處理看作是對理想結果文檔集屬性的處理。問題是我們并不能確切地知道這些屬性,我們所知道的是存在索引術語來表示這些屬性。由于在查詢期間這些屬性都是不可見的,這就需要在初始階段來估計這些屬性。這種初始階段的估計允許我們對首次檢索的文檔集合返回理想的結果集,并產生一個初步的概率描述。
四十四:貝索斯定律
英文:Bezos’ Law
貝索斯定律是指在云的發(fā)展過程中,單位計算能力的價格大約每隔3年會降低50%。
四十五:回歸分析
回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。
四十六:推薦算法
基于內容的信息推薦方法的理論依據(jù)主要來自于信息檢索和信息過濾,所謂的基于內容的推薦方法就是根據(jù)用戶過去的瀏覽記錄來向用戶推薦用戶沒有接觸過的推薦項。主要是從兩個方法來描述基于內容的推薦方法:啟發(fā)式的方法和基于模型的方法。啟發(fā)式的方法就是用戶憑借經(jīng)驗來定義相關的計算公式,然后再根據(jù)公式的計算結果和實際的結果進行驗證,然后再不斷修改公式以達到最終目的。而對于模型的方法就是根據(jù)以往的數(shù)據(jù)作為數(shù)據(jù)集,然后根據(jù)這個數(shù)據(jù)集來學習出一個模型。
四十七:八叉樹
英文名:Octree
八叉樹是一種用于描述三維空間的樹狀數(shù)據(jù)結構。八叉樹的每個節(jié)點表示一個正方體的體積元素,每個節(jié)點有八個子節(jié)點,將八個子節(jié)點所表示的體積元素加在一起就等于父節(jié)點的體積。
四十八:紅黑樹
紅黑樹(Red Black Tree) 是一種自平衡二叉查找樹,是在計算機科學中用到的一種數(shù)據(jù)結構,典型的用途是實現(xiàn)關聯(lián)數(shù)組。
它是在1972年由Rudolf Bayer發(fā)明的,當時被稱為平衡二叉B樹(symmetric binary B-trees)。后來,在1978年被 Leo J. Guibas 和 Robert Sedgewick 修改為如今的“紅黑樹”。
紅黑樹和AVL樹類似,都是在進行插入和刪除操作時通過特定操作保持二叉查找樹的平衡,從而獲得較高的查找性能。
它雖然是復雜的,但它的最壞情況運行時間也是非常良好的,并且在實踐中是高效的: 它可以在O(log n)時間內做查找,插入和刪除,這里的n 是樹中元素的數(shù)目。
四十九:哈希表
散列表(Hash table,也叫哈希表),是根據(jù)關鍵碼值(Key value)而直接進行訪問的數(shù)據(jù)結構。也就是說,它通過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數(shù)叫做散列函數(shù),存放記錄的數(shù)組叫做散列表。
給定表M,存在函數(shù)f(key),對任意給定的關鍵字值key,代入函數(shù)后若能得到包含該關鍵字的記錄在表中的地址,則稱表M為哈希(Hash)表,函數(shù)f(key)為哈希(Hash) 函數(shù)。
五十:隨機森林
英文名:Random forest
在機器學習中,隨機森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機森林的算法。 而 “Random Forests” 是他們的商標。 這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(random decision forests)而來的。這個方法則是結合 Breimans 的 “Bootstrap aggregating” 想法和 Ho 的”random subspace method”” 以建造決策樹的集合。