2020年給我們的日常詞匯帶來了很多新詞匯——想想冠狀病、封鎖、大流行、退款。但在數據世界中,另一個短語一直在流傳……現代數據堆棧
數據世界最近匯集了處理海量數據的最佳工具集,即“現代數據堆棧”。這包括在同類最佳工具上設置數據基礎架構,例如用于數據倉庫的Snowflake、用于數據湖的Databricks和用于數據攝取的Fivetran。
現代數據堆棧的優點:現代數據堆棧非常快,很容易在幾秒鐘內擴展,而且需要很少的開銷。缺點:在數據治理、信任和上下文方面,它仍然是個新手
數據堆棧-元數據的來源
那么,現代元數據在今天的現代數據堆棧中應該是什么樣子呢?基本數據目錄如何發展成為數據民主化和治理的強大工具?為什么要進行元數據管理需要一個范式的轉變來滿足今天的需求?
為什么現代數據堆棧比以往任何時候都更需要“現代”元數據管理?
幾年前,數據主要由組織中的IT團隊使用。然而,今天的數據團隊比以往任何時候都更加多樣化——數據工程師、分析師、分析工程師、數據科學家、產品經理、業務分析師、公民數據科學家等等。這些人中的每一個都有自己喜歡的、同樣多樣化的數據工具,從SQL、Looker和Jupyter到Python、Tableau、dbt和R。
這種多樣性既是一種力量,也是一種斗爭。這些人都有不同的解決問題的方式、工具、技能組合、技術堆棧、工作方式……本質上,他們每個人都有獨特的“數據DNA”。
結果往往是協作中的混亂。令人沮喪的問題,例如“此列名稱實際上是什么意思?”和“為什么儀表板上的銷售數字又錯了?”在需要使用數據時讓快速團隊陷入困境。
人大附中物理老師李永樂科普拜占庭將軍問題和區塊鏈:5月14日,人大附中物理老師、科普視頻網紅李永樂在其公眾號發布視頻《拜占庭將軍問題是什么?區塊鏈如何防范惡意節點?》。李永樂老師在視頻中對拜占庭將軍問題和區塊鏈進行了講解,他表示,拜占庭將軍問題本質上指的是,在分布式計算機網絡中,如果存在故障和惡意節點,是否能夠保持正常節點的網絡一致性問題。在近40年的時間里,人們提出了許多方案解決這一問題,稱為拜占庭容錯法。例如蘭波特自己提出了口頭協議、書面協議法,后來有人提出了實用拜占庭容錯PBFT算法,在2008年,中本聰發明比特幣后,人們又設想了通過區塊鏈的方法解決這一問題。區塊鏈通過算力證明來保持賬本的一致性,也就是必須計算數學題,才能得到記賬的權力,其他人對這個記賬結果進行驗證,如果是對的,就認可你的結果。與拜占庭問題比起來,就增加了叛徒的成本。[2020/5/14]
這些問題并不新鮮。畢竟,Gartner發布元數據管理解決方案魔力象限已經超過5年了。
但是仍然沒有很好的解決辦法。大多數數據目錄只不過是Hadoop時代的創可貼解決方案,而不是跟上當今現代數據堆棧背后的創新和進步。
元數據管理的過去和未來
就像數據一樣,我們思考和使用元數據的方式在過去三年中一直在穩步發展。它可以大致分為三個演進階段:數據目錄1.0、數據目錄2.0和數據目錄3.0。
數據目錄1.0:IT團隊的元數據管理
時間:1990年代和2000年代初
產品:Informatica、Talend
現場 | 火幣中國推出數字經濟及區塊鏈產業科普新書:金色財經現場報道,12月6日,由海南省工業和信息化廳主辦,南南合作金融中心協辦,海南生態軟件園、火幣中國承辦的“海南自貿港數字經濟和區塊鏈國際合作論壇”在海口舉行,這是全球首次區塊鏈部長級論壇。
在本次論壇上,火幣中國舉行了“數字經濟及區塊鏈產業科普系列新書發布”儀式,希望通過教材、專業教育、培訓等多種方式,幫助從業者、高校、研究機構深入了解區塊鏈,從而建立起區塊鏈全局性知識模型,真正推動區塊鏈應用落地。火幣中國CEO袁煜明介紹,將聯合機械工業出版社面向普通高等教育推出《區塊鏈導論》、《區塊鏈系統設計與應用》和《區塊鏈新商業模式分析》系列教材,這是國內最早推動的區塊鏈教材之一;火幣中國還積極參與數字經濟的研究,由中信出版社出版的新書《讀懂Libra》已經上市;由火幣中國負責編寫的區塊鏈技術科普讀物《區塊鏈技術進階指南》將于12月面世;首本行業內最全的區塊鏈應用案例集《區塊鏈產業應用100例》在本次論壇進行了首次刊印。[2019/12/6]
元數據在技術上自古以來就存在——例如附在亞歷山大圖書館每卷卷軸上的描述性標簽。然而,元數據的現代概念可以追溯到1900年代后期。在1990年代,我們慶幸將軟盤放在一邊,并擁抱了這種稱為互聯網的新奇工具。很快,大數據和數據科學風靡一時,組織正試圖弄清楚如何組織他們的新數據集合。
隨著數據類型和格式以及數據本身的爆炸式增長,IT團隊負責創建“數據清單”。像Informatica這樣的公司在元數據管理方面處于領先地位,但是對于IT人員來說,建立和保持新的數據目錄一直是一項艱巨的任務。
數據倉庫團隊經常花費大量時間談論、擔心元數據,并為元數據感到內疚。由于大多數開發人員天生厭惡文檔的開發和有序歸檔,因此盡管每個人都承認元數據很重要,但元數據通常會從項目計劃中刪除。”
聲音 | ETC Labs主管:科普教育是未來幾年公鏈面臨的巨大挑戰:ETCLabs主管Darin Kotalik認為,科普教育是未來幾年公鏈面臨的巨大挑戰,人們必須要對區塊鏈有基本的認識,分清楚公鏈和私鏈的區別。[2019/8/25]
–拉爾夫·金博爾,2002
數據目錄2.0:由數據管理員提供動力的數據庫存
時間:2008-2020
產品:collibra,Alation
隨著數據變得越來越主流并擴展到IT團隊之外,數據管理的想法開始生根發芽。這指的是一組專門負責管理組織數據的人員。他們將處理元數據、維護治理實踐、手動記錄數據等。
與此同時,元數據的想法發生了變化。隨著公司開始建立大規模的Hadoop實施,他們意識到簡單的IT數據清單已經不夠了。相反,新的數據目錄需要將數據清單與新的業務環境相融合。
就像這個時代超級復雜的Hadoop系統一樣,DataCatalog2.0很難設置和維護。它們涉及嚴格的數據治理委員會、正式的數據管理員、復雜的技術設置和冗長的實施周期。總而言之,這個過程可能需要長達18個月的時間。
這個時代的工具基本上是建立在整體架構上并部署在本地的。每個數據系統都有自己的安裝程序,公司無法通過推送簡單的云更新來推出軟件更改。
技術債務不斷增長,元數據管理開始穩步落后于其他現代數據棧
中科院自動化研究所將面向大中小學生開展區塊鏈等主題的科普講座:5月21日,新華網訊,今年,中國科學院自動化研究所將舉辦第十四屆“自動化之光”公眾科學開放日活動。屆時,自動化所將面向大中小學生分別開展《腦與智能》、《區塊鏈技術與平行智能》、《大數據時代的視覺智能》、《動畫真奇妙》等4個主題報告,用實例和生動的演示深入淺出地為大家揭示智能技術的原理和奧妙。[2018/5/21]
元數據中范式的轉變
盡管其他數據基礎架構堆棧在過去幾年中得到了發展,而且Fivetran和Snowflake等工具讓用戶可以在不到30分鐘的時間內建立一個數據倉庫,但數據目錄卻跟不上。即使嘗試使用DataCatalog2.0時代的元數據工具也需要花費大量的工程時間進行設置,更不用說至少與銷售代表進行5次通話以獲得演示
由于缺乏可行的替代方案,現代數據堆棧的最早采用者和大多數大型科技公司都訴諸于構建自己的內部解決方案。一些著名的例子包括Airbnb的Dataportal、Facebook的Nemo、LinkedIn的DataHub、Lyft的Amundsen、Netflix的Metacat和Uber的Databook。
然而,并不是所有的公司都有這樣的工程資源,而且構建幾十個類似的元數據工具并不是特別有效。
數據目錄3.0:面向不同數據用戶的協作工作區
今天,我們正處于元數據管理的轉折點——從緩慢的內部部署數據目錄2.0轉變為新時代數據目錄3.0的開始。就像從1.0到2.0的跳躍一樣,這將是我們對元數據的看法的根本轉變
DataCatalog3.0的外觀和感覺與DataCatalog2.0代的前輩不同。相反,數據目錄3.0將建立在嵌入式協作的前提下,這是當今現代工作場所的關鍵,借鑒了Github、Figma、Slack、Notion、Superhuman和其他當今司空見慣的現代工具的原則
金色財經獨家分析 監管機構、媒體、業界提示詐騙風險 區塊鏈科普道阻且長:新華社今日發文表示,近來“區塊鏈”類詐騙案件頻發,不法分子以“投資虛擬貨幣周期短、收益高、風險低”為借口,騙取用戶信任并誘使其轉賬進行投資。無獨有偶,同日消息,騰訊手機管家安全專家也提醒此類風險,并從技術上提出防騙建議。在美國,監管機構警示加密貨幣欺詐現象普遍承諾高收益而不披露潛在風險。金色財經獨家分析,不法分子假借新技術之名進行詐騙,一方面是抓住民眾趨利的心理,一方面反映出區塊鏈科普的欠缺。區塊鏈是新興科技和底層技術并有改變社會生產關系的潛力,應該進行系統性的科普教育,當前,部分大學已經開始設置了區塊鏈課程,但對于普通民眾仍然有科普的需求,人們應該了解到系統和正確的知識,不僅要了解區塊鏈的好,也要明確局限和弊端,以在高收益的誘惑下,保持清醒客觀。[2018/4/11]
數據目錄3.0的4個特征
1.數據資產》表格
DataCatalog2.0生成的前提是“表格”是唯一需要管理的資產。但現在完全不一樣了。
如今,BI儀表板、代碼片段、SQL查詢、模型、功能和Jupyter筆記本都是數據資產
3.0代元數據管理將需要足夠靈活,以便智能地存儲和將所有這些不同類型的數據資產鏈接在一個地方。
2.端到端數據可見性,而不是零碎碎的解決方案
數據目錄2.0時代的工具在改進數據發現方面取得了重大進展。然而,他們并沒有為組織提供數據的“單一事實來源”。有關數據資產的信息通常分布在不同的地方——數據沿襲工具、數據質量工具、數據準備工具等等。數據目錄3.0將幫助團隊最終實現圣杯,即組織中每個數據資產的單一事實來源。
3.元數據為“大數據”的世界而構建
我們正在快速接近元數據本身就是大數據的世界。能夠處理和理解元數據將有助于團隊更好地理解和信任他們的數據。
這就是為什么新的數據目錄3.0應該不僅僅是一個元數據存儲的原因。
它應該從根本上利用元數據作為一種數據形式,可以以與所有其他類型的數據相同的方式進行搜索、分析和維護
今天,云的可擴展性使這成為可能,這是前所未有的。例如,查詢日志只是當今可用的一種元數據。通過解析Snowflake中查詢日志中的SQL代碼,可以自動創建列級沿襲,為每個數據資產分配流行度分數,甚至可以推斷每個資產的潛在所有者和專家。
4.嵌入式協作已經成熟
Airbnb在分享他們在推動采用內部數據門戶方面的經驗時說了一些深刻的話:“設計數據工具的界面和用戶體驗不應該是事后的想法。”
由于數據團隊的基本多樣性,需要設計數據工具以與團隊的日常工作流程無縫集成。
這就是嵌入式協作理念真正活躍的地方。嵌入式協作是指在您所在的位置進行工作,摩擦最少。
如果可以在獲得鏈接時請求訪問數據資產,就像使用GoogleDocs一樣,并且所有者可以在Slack上獲得請求并立即批準或拒絕它,該怎么辦?或者,當您檢查數據資產并需要報告問題時,您可以立即觸發與工程團隊的JIRA工作流程完美集成的支持請求,該怎么辦?
嵌入式協作可以統一數十個這樣的微型工作流程,這些工作流程會浪費時間、造成挫折并導致數據團隊的工具疲勞,反而讓這些任務變得有趣!
數據保護與連接元數據
為什么保護元數據如此重要?
連接元數據是您在線進行操作時生成的數據,例如訪問網站、使用應用程序或發送消息。此元數據記錄信息,例如誰發送了數據、他們將數據發送到何處、何時以及發送了多少數據。簡而言之,它是關于數據的數據。
就其本身而言,這似乎并不多,但每次在線互動都會生成數十個元數據,幾乎都是公開的或易于查找的。如果有人收集了足夠多的元數據,他們很快就會清楚地了解你的在線活動,并了解你的線下生活。即使連接是端到端加密的,這也是可能的。
為什么存在連接元數據?
因此,如果存在這樣的問題,為什么不停止創建所有這些元數據,或者至少將其設為私有?不幸的是,事情并沒有那么簡單:公共元數據對于互聯網目前的運作方式至關重要,這是一個沒有人能夠想象互聯網會發展到多大的時代的遺物,或者惡意行為者可能會如何濫用它。
基本上,可以把它想象成郵寄一封信。內容可以密封在信封中,但要到達目的地,信封需要清楚地注明地址。任何人都可以讀取此地址信息。如果他們愿意,他們可以記下信封的去向、信封有多大以及何時寄出。隨著時間的推移,他們可以建立這些信息的數據庫并開始尋找模式。所有這些都無需打開信封。
如果我可以看到您在哪些商店購物、您正在使用哪些應用程序以及您向誰發送消息,我實際上不需要知道您的消息內容或您購買的完整詳細信息來推斷很多關于你的信息。
但是誰真正看到了這個元數據?每次上網時,數十家不同的公司和服務都會看到并可能記錄此元數據。有互聯網服務提供商(ISP)、電信公司、使互聯網正常工作的DNS服務器和內容交付網絡(CDN),例如Cloudflare,它們實際上為大部分Web內容提供服務。大多數情況下,這些服務都在未經您同意的情況下收集和存儲有關您的信息。
現代網絡服務相互關聯的方式意味著這個列表只會增加。例如,如果訪問一個嵌入了YouTube視頻的網站,那么即使不點擊視頻,Google也會收到訪問通知。這些信息可以通過IP地址輕松鏈接到用戶的姓名,谷歌通過用戶的谷歌帳戶知道用戶的姓名,并添加到谷歌維護的關于用戶的詳細檔案中。不僅僅是谷歌。同樣的事情也發生在Facebook,或者像Medium這樣的博客托管網站,或者即時消息平臺。這一切都不需要cookie或任何額外的代碼,更改您的隱私設置也不會阻止它。這就是當今互聯網的運作方式。
那時我們甚至還沒有遇到黑客、政府過度干預等問題,以及如果用戶是在線企業,如何安全地處理和保護元數據的巨大問題,現在監管機構已經開始注意到這一點。但這些是未來劇集的主題。
公共連接元數據在Internet的工作方式中根深蒂固,因此沒有簡單的解決方案。解決它的唯一方法是采用全新的數據傳輸方法。
目前,區塊鏈項目開始關注這一領域。即使得用戶、公司和設備在完全隱私的情況下,進行在線交換信息。通信和交易的人可以確保沒有人能夠知道正在共享哪些數據、誰正在發送或接收數據,甚至有多少數據被發送。
最重要的是,具備去中心化的、完全透明且無需信任的特點,意味著永遠不必依賴第三方,也永遠不會被鎖定在服務中或不得不放棄對數據的控制。
DAOrayakiDAO研究獎金池:
資助地址:0xCd7da526f5C943126fa9E6f63b7774fA89E88d71
投票進展:DAOCommittee3/7通過
賞金總量:120USDC
研究種類:DAO,?Metadata,DataStacks,DataCatalog3.0
原文作者:Prukalpa
貢獻者:?Dewei,DAOctor@DAOrayaki
原文:DataCatalog3.0:ModernMetadatafortheModernDataStack
Tags:區塊鏈ATADATDATA區塊鏈工程專業學什么女生比較好Vira-Lata FinanceDatabrokerTransdata Chain
巴比特訊,8月20日零時左右,以太坊GAS費短暫飆升,數據顯示,GAS費瞬時飆升至2400Gwei以上。這或許和一款名為”0n1Force“的NFT項目發售有關.
1900/1/1 0:00:00據Cryptonews8月18日消息,德國金屬樂隊Rammstein的主唱TillLindemann正在出售NFT代幣.
1900/1/1 0:00:00作者|秦曉峰編輯|郝方舟出品|Odaily星球日報原標題:《憑一己之力推高Gas費的「SpacePoggers」到底是個啥?》 昨日凌晨,一款名為SpacePoggers的項目進行了NFT發售.
1900/1/1 0:00:00原標題:《元宇宙「只不過」是對數字空間的一次升級》 撰文:李畫 元宇宙概念的膨脹速度似乎比宇宙的膨脹速度的還要快,但很多概念往往不僅沒有幫我們更清晰地了解元宇宙,反而讓我們陷入更大的困惑.
1900/1/1 0:00:00據Cointelegraph報道,在周一的推文中,代表格倫湯普森表示,他與代表帕特里克麥克亨利已向美國商品期貨交易委員會和美國證券交易委員會提交了一封信,敦促這些機構建立一個數字資產聯合工作組.
1900/1/1 0:00:00隨著疫情與加密技術雙重擴散,它們深刻地改變了世界的運作方式,德勤第四次年度"全球區塊鏈調查"發現,金融服務業必須加速走向產品現代化和產品多極化,以實現突破性發展.
1900/1/1 0:00:00