或Bright Data的首席執行官Lenchner自2018年以來一直領先於市場領先的Web數據收集平台,推動其擴張,創新和增長到年收入超過1億美元。 BRIGHT數據使Fortune 500公司,領先的企業,著名大學和公共部門實體可以實時和大規模訪問公共網絡數據。 Lenchner是保持公共網絡數據開放和訪問的強有力的擁護者,強調其在推動創新中的關鍵作用。
是什麼啟發了您進入數據和AI世界的旅程,以及自2018年成為首席執行官以來,您如何塑造了Bright Data的使命和願景?
我一直對數據的力量著迷,尤其是它如何推動決策和推動創新。正確使用時,數據還可以推動業務透明度。在2018年成為Bright Data的首席執行官使我有機會幫助塑造AI研究人員和企業如何採購和利用公共網絡數據。
AI團隊在採購大規模公共網絡數據方面面臨的主要挑戰是什麼?明亮的數據如何解決?
對於AI團隊來說,可伸縮性仍然是最大的挑戰之一。由於AI模型需要大量數據,因此有效收集並不是很小的任務。而且,由於AI模型僅與對其訓練的數據一樣好,因此確保團隊可以訪問新鮮的高質量數據是一個持續的挑戰。隨著網絡實時的發展,這尤其如此。
另一個主要問題是合規性。數據隱私法律和要求不斷發展,因此AI團隊需要始終了解這些變化。他們還必須了解如何處理強制執行反機制機制的網站,這可能會使數據收集過程複雜化。
我們在光明數據上構建的平台可以解決這些挑戰。我們提供可擴展的自動數據收集,可提供結構化的實時數據。我們的AI驅動工具清潔和驗證數據以確保准確性。我們採取了嚴格的措施,以確保法律和道德數據收集以合規。我們的想法是授權AI團隊專注於建立出色的模型,同時我們處理數據採購的複雜性。
高質量的Web數據如何有助於AI模型性能,以及確保數據準確性的最佳實踐是什麼?
高質量的數據意味著完整的數據,沒有偏見,最重要的是準確。如果缺乏或陷入錯誤和錯誤中,則結果AI模型不會根據預期執行。
為了達到準確性,最好是從已建立可靠性的各種公共資源中獲取數據。僅使用少數或更糟的是單個數據源會導致諸如不完整之類的問題。擁有多個來源提供了交叉引用數據並構建更平衡且代表性良好的數據集的能力。此外,組織應考慮自動數據驗證和清潔,以有效地擺脫錯誤和不一致的數據。
在明亮的數據中,我們考慮了所有這些因素。我們為AI團隊提供結構化和實時數據,這些數據已驗證以確保准確性。這樣,他們就可以自信地訓練模型。
當今公共網絡數據收集中最大的道德問題是什麼?
隱私仍然是公共網絡數據收集中最大的問題之一。人們擔心他們的數據會遭受濫用和濫用。為了確保數據保持私密,強調透明度至關重要。積累數據的組織必須在收集的數據方面進行預期。重要的是要確保公眾根據嚴格的道德準則使用他們的數據。
另一個主要關注點是壟斷。某些大型公司可以控制大量數據,這創建了一個不平衡的競爭環境,其中只有少數人可以訪問訓練AI模型並推動創新所需的信息。這不是應該的情況。企業,研究人員和開發人員應該可以訪問公共網絡數據。這樣,AI開發就不會僅集中在幾個主要參與者的手中。
道德並不是明亮數據的事後想法。他們嵌入了我們做出的每個決定中。我們不僅遵循行業標準 – 我們設定它們。我們領導數據收集行業,定義正確的道德標準。我們要確保以負責任,透明,並完全符合全球法規訪問公共網絡數據。
明亮的數據如何確保符合全球數據隱私法規,同時仍可以啟用大規模數據收集?
我們的組織致力於遵守全球法律和法規要求收集和利用。我們認為,我們遵守GDPR,CPRA,CCPA和其他相關法規的要求。重要的是,我們嚴格遵循了解您的客戶(KYC)協議,以確保只有合法的用戶才能訪問我們的平台。我們的數據解決方案只能由合法的企業和研究人員訪問。
我們可接受的使用策略在定義哪些數據可以和不能收集哪些數據時也很明顯。這包括負責任的使用。我們有一個專門的合規團隊負責持續監控法規,以確定我們對最新的法律和法規要求是最新的。
無論如何,我們仍然認為公共網絡數據應該保持可訪問。我們的目標是為AI團隊提供所需的數據,同時確保遵守隱私和法律標準。
您如何平衡業務增長與維持道德數據收集實踐?
我們總是認為道德和成長不是相互排斥的。客戶的信任及其與他們建立的關係是最重要的問題。我們了解,只有根據透明條款並按照適用的法律收集數據,我們才能取得長期成功。
因此,我們為用戶制定了嚴格的審查協議。這旨在確保我們收集的數據在道德上使用。我們將時間,精力和資源分配給合規性和安全性,以保護我們的客戶和公眾一般。通過觀察道德數據收集,我們在業務方面取得了成功,同時為建立透明和負責的AI生態系統做出了貢獻。
明亮的數據如何保持數據隱私的監管變化?
我們了解,我們的數據使用過程和政策不可避免地必須改變以反映相關法律法規的變化。因此,我們定期諮詢法律專家並與監管機構進行溝通。我們還與立法者和參與政策制定的其他人進行討論,並提供了製定有意義的數據法規的意見。我們的目標是在創新和數據隱私之間取得平衡。
隨著新法律的發布並修訂了法規,我們的數據收集和使用框架會不斷發展。我們有一個合規團隊,可以主動更新我們的數據使用政策,以確保我們的平台始終完全合規。此外,我們運營客戶教育計劃,以促進道德數據使用。
公司應該知道的AI數據收集的新興趨勢是什麼?
實時數據收集已成為當今AI模型的必備品。對於他們來說,訪問最新或最新鮮的數據以提供高度準確性並提供更好的用戶體驗至關重要。
另一個值得注意的趨勢是依賴用於數據增強的合成數據,其中AI生成的數據可以補充從現實世界情景中收集的數據集。
我也看到了追求可解釋的AI的濃厚興趣。目前,大多數AI模型都遭受黑匣子效應的影響,或者他們的決策過程缺乏透明度。公司正在尋求通過創建AI模型來詳細說明其製定的產出或決定的方式來改變此範式。
最後,公司意識到數據隱私問題不斷增長。這就是為什麼AI技術旨在保護數據隱私(例如聯合學習)的原因。組織希望在沒有任何用戶數據隱私妥協的情況下最大化AI模型培訓。
我們確保我們掌握了這些趨勢,因此我們可以構建解決方案,使AI團隊保持競爭優勢。
您如何看到AI驅動的代理和自動化更改數據收集格局?
當前,AI模型利用大多數手動收集的結構化數據集。這些數據集還進行了通常涉及人類干預的預處理,清潔和其他程序。隨著AI代理的興起,可以在不久的將來發生變化,以進行自動收集和處理AI培訓的數據。他們使以前所未有的規模自動從實時Web數據中學習成為可能。
我們創建了支持AI代理的部署和演變的基礎架構,從而可以平穩訪問網絡上的高質量實時數據。這項技術使復雜的AI系統能夠連續與動態網絡數據進行連續接口,從中學習並變得更大更好。
人工智能代理可以在允許AI系統訪問和學習網絡上不斷更改數據集的情況下改變行業,而不是依靠靜態和手動處理的數據。例如,這可能會導致銀行業或網絡安全AI聊天機器人,這些聊天機器人能夠提出反映最新現實的決定。這導致效率巨大的進步和更多的自動化領域。
在Bright數據中,我們不僅在數據收集領域中實現了這種轉換。我們相信我們處於最前沿,引入了一種引入下一代人工智能的技術。我們很高興為企業和AI團隊提供幫助,因為他們利用了AI代理商的全部潛力。
感謝您的出色採訪,希望了解更多的讀者應該訪問明亮的數據。