Phá vỡ rào cản dữ liệu AI: Tại sao Data DAOs quan trọng ngay bây giờ

7/14/2024, 3:17:08 PM
Trung cấp
DAOAI
Bài viết này xem xét các hạn chế hiện tại của nguồn dữ liệu AI và gợi ý rằng Data DAOs có thể cung cấp bộ dữ liệu mới, chất lượng cao để nâng cao các mô hình AI. Data DAOs có thể tăng cường việc huấn luyện AI với dữ liệu thế giới thực, dữ liệu sức khỏe cá nhân và phản hồi của con người, nhưng họ cũng đối mặt với các thách thức như méo mó xúc tiến, xác minh dữ liệu và đánh giá lợi ích.

Các thỏa thuận ủy quyền dữ liệu đáng chú ý gần đây, như những thỏa thuận giữa openai và news corp và reddit, nhấn mạnh nhu cầu về dữ liệu chất lượng cao trong trí tuệ nhân tạo. Các mô hình trí tuệ nhân tạo hàng đầu đã được đào tạo trên một phần đáng kể của internet. Ví dụ, common crawl đã chỉ mục khoảng 10% trang web để đào tạo mô hình ngôn ngữ lớn, bao gồm hơn 100 nghìn tỷ mã thông báo.

Để cải thiện mô hình trí tuệ nhân tạo hơn nữa, việc mở rộng và tăng cường dữ liệu có sẵn để huấn luyện là rất quan trọng. Chúng tôi đã đang thảo luận về cách tổng hợp dữ liệu, đặc biệt là thông qua các phương pháp phi tập trung. Chúng tôi đặc biệt quan tâm đến cách tiếp cận phi tập trung có thể giúp tạo ra các bộ dữ liệu mới và cung cấp động lực kinh tế cho người đóng góp và người sáng tạo.

Trong những năm gần đây, một trong những chủ đề nóng trong thế giới tiền điện tử là khái niệm data dao, đó là những nhóm người tạo ra, tổ chức và quản lý dữ liệu. Trong khi chủ đề này đã được Multicoin và những người khác thảo luận, sự tiến bộ nhanh chóng của trí tuệ nhân tạo đặt ra một câu hỏi mới: "Tại sao bây giờ là thời điểm thích hợp cho data dao?"

Trong bài viết này, chúng tôi sẽ chia sẻ quan điểm của mình về các Data DAO để giải quyết câu hỏi: Làm thế nào Data DAO có thể tăng tốc cho sự phát triển của trí tuệ nhân tạo?

1. trạng thái hiện tại của dữ liệu trong trí tuệ nhân tạo

Ngày nay, các mô hình AI chủ yếu được đào tạo trên dữ liệu công cộng, thông qua việc hợp tác với các công ty như news corp và reddit hoặc bằng cách thu thập dữ liệu từ internet mở. Ví dụ, Llama 3 của Meta đã được đào tạo bằng 15 nghìn tỷ tokens từ các nguồn công cộng. Mặc dù các phương pháp này hiệu quả trong việc thu thập nhanh lượng lớn dữ liệu, nhưng chúng có những giới hạn về loại dữ liệu được thu thập và cách thu thập dữ liệu này.

Đầu tiên, liên quan đến dữ liệu nào cần được thu thập: Phát triển AI bị cản trở bởi các nút thắt cổ chai về chất lượng và số lượng dữ liệu. Leopold Aschenbrenner đã thảo luận về "bức tường dữ liệu" hạn chế các cải tiến thuật toán hơn nữa: "Chẳng bao lâu nữa, cách tiếp cận đơn giản của việc đào tạo trước các mô hình ngôn ngữ lớn hơn trên dữ liệu được thu thập nhiều hơn có thể phải đối mặt với những tắc nghẽn đáng kể."

Một cách để vượt qua rào cản dữ liệu là làm cho các tập dữ liệu mới có sẵn. Ví dụ, các công ty mô hình không thể lấy dữ liệu được bảo vệ bằng mật khẩu mà không vi phạm các điều khoản dịch vụ của hầu hết các trang web, và họ không thể truy cập vào dữ liệu chưa được thu thập. Hiện nay, có một lượng lớn dữ liệu riêng tư mà việc đào tạo trí tuệ nhân tạo không thể truy cập, chẳng hạn như dữ liệu từ Google Drive, Slack, hồ sơ sức khỏe cá nhân và thông tin riêng tư khác.

Thứ hai, liên quan đến cách thu thập dữ liệu: trong mô hình hiện tại, các công ty thu thập dữ liệu thu được phần lớn giá trị. Báo cáo s-1 của reddit nhấn mạnh việc cấp phép dữ liệu là một nguồn doanh thu quan trọng: “chúng tôi kỳ vọng ưu thế dữ liệu và sở hữu trí tuệ của chúng tôi sẽ tiếp tục là các yếu tố chính trong quá trình đào tạo llm trong tương lai.” Tuy nhiên, người dùng cuối cùng tạo ra nội dung thực tế không nhận được bất kỳ lợi ích kinh tế nào từ các thỏa thuận cấp phép này hoặc các mô hình trí tuệ nhân tạo chính mình. Sự không phù hợp này có thể làm giảm sự tham gia - đã có các phong trào kiện các công ty trí tuệ nhân tạo sinh sản hoặc không tham gia vào các bộ dữ liệu đào tạo. Ngoài ra, tập trung doanh thu vào tay các công ty mô hình hoặc nền tảng mà không chia sẻ với người dùng cuối có những tác động xã hội kinh tế đáng kể.

2. tác động của các DAO dữ liệu

các vấn đề về dữ liệu được đề cập trước đó chia sẻ một chủ đề chung: chúng được hưởng lợi từ những đóng góp đáng kể từ các mẫu người dùng đa dạng và đại diện. trong khi bất kỳ điểm dữ liệu đơn lẻ nào có thể có tác động không đáng kể đến hiệu suất mô hình, tổng thể, một nhóm lớn người dùng có thể tạo ra các bộ dữ liệu mới rất có giá trị cho huấn luyện trí tuệ nhân tạo. đây là lúc mà tổ chức tự trị phi tập trung (data daos) xuất hiện. với data daos, các nhà đóng góp dữ liệu có thể kiếm được phần thưởng kinh tế cho việc cung cấp dữ liệu và có thể kiểm soát cách dữ liệu của họ được sử dụng và tiền hóa.

Trong những lĩnh vực nào mà data daos có thể tạo ra một tác động đáng kể trong cảnh quan dữ liệu hiện tại? Dưới đây là một số ý tưởng—đây không phải là một danh sách toàn diện, và data daos chắc chắn còn có những cơ hội khác:

(1) dữ liệu thực tế
Trong lĩnh vực cơ sở hạ tầng vật lý phi tập trung (depin), các mạng như hivemapper nhắm đến việc thu thập dữ liệu bản đồ toàn cầu mới nhất bằng cách khuyến khích chủ sở hữu dashcam chia sẻ dữ liệu của họ và khuyến khích người dùng cung cấp dữ liệu thông qua ứng dụng của họ (ví dụ, thông tin về đóng cửa đường hoặc sửa chữa). depin có thể được coi là một hệ thống dữ liệu thực tế dao, nơi tập hợp dữ liệu từ các thiết bị phần cứng và/hoặc mạng người dùng. Dữ liệu này có giá trị thương mại đối với nhiều công ty, và người đóng góp được thưởng bằng mã thông báo.

(2) dữ liệu sức khỏe cá nhân
Biohacking là một phong trào xã hội, trong đó cá nhân và cộng đồng áp dụng phương pháp tự làm để nghiên cứu sinh học, thường thực hiện các thí nghiệm trên bản thân. Ví dụ, ai đó có thể sử dụng các loại thuốc nootropic khác nhau để tăng cường hiệu suất não, thử nghiệm các liệu pháp hay thay đổi môi trường để cải thiện giấc ngủ, hoặc thậm chí tiêm chất liệu thử nghiệm vào cơ thể.

Các nỗ lực về biohacking này có thể được hỗ trợ bởi data daos thông qua việc tổ chức các thí nghiệm chia sẻ và thu thập kết quả một cách hệ thống từ các thành viên tham gia. Thu nhập được tạo ra từ các personal health daos như phòng thí nghiệm nghiên cứu hoặc các công ty dược phẩm có thể được trả lại cho những người tham gia đã đóng góp dữ liệu sức khỏe cá nhân của mình.

(3) học tăng cường với phản hồi từ con người
Học tăng cường với phản hồi từ con người (RLHF) liên quan đến việc sử dụng đầu vào từ con người để điều chỉnh mô hình trí tuệ nhân tạo và cải thiện hiệu suất của chúng. Thông thường, phản hồi đến từ các chuyên gia trong những lĩnh vực cụ thể có thể đánh giá hiệu quả đầu ra của mô hình. Ví dụ, một phòng thí nghiệm nghiên cứu có thể tìm sự trợ giúp từ một tiến sĩ toán học để tăng cường khả năng toán học của trí tuệ nhân tạo của họ. Phần thưởng token có thể thu hút và khích lệ các chuyên gia tham gia, cung cấp giá trị mạo hiểm và quyền truy cập toàn cầu thông qua hệ thống thanh toán tiền điện tử. Các công ty như Sapien, Fraction và Sahara đều đang tích cực làm việc trong lĩnh vực này.

(4) dữ liệu riêng
Khi dữ liệu công khai có sẵn để đào tạo AI trở nên khan hiếm, trọng tâm có thể chuyển sang các bộ dữ liệu độc quyền, bao gồm dữ liệu người dùng riêng tư. Đằng sau tường lửa đang chứa đựng một kho dữ liệu chất lượng cao vẫn bị khóa, chẳng hạn như tin nhắn và tài liệu riêng tư. Dữ liệu này có thể rất hiệu quả cho việc đào tạo AI cá nhân hóa và chứa đựng thông tin quý giá không có trên internet công khai.

Truy cập và sử dụng dữ liệu này đặt ra những thách thức pháp lý và đạo đức đáng kể. Data DAO có thể cung cấp một giải pháp bằng cách cho phép những người tham gia tự nguyện tải lên và tiền hóa dữ liệu của họ trong khi quản lý việc sử dụng nó. Ví dụ, một reddit data dao có thể cho phép người dùng tải lên dữ liệu reddit đã xuất, bao gồm nhận xét, bài đăng và lịch sử bỏ phiếu, có thể được bán hoặc cho thuê cho các công ty trí tuệ nhân tạo một cách bảo vệ quyền riêng tư. Các động cơ token cho phép người dùng kiếm không chỉ từ giao dịch một lần mà còn từ giá trị liên tục được tạo ra bởi các mô hình trí tuệ nhân tạo được huấn luyện với dữ liệu của họ.

3. vấn đề và thách thức mở

mặc dù các dữ liệu daos mang lại nhiều lợi ích tiềm năng đáng kể, nhưng cũng có một số yếu tố quan trọng và thách thức cần phải giải quyết.

(1) méo mó ưu đãi
Một bài học quan trọng từ lịch sử sử dụng động lực token trong cộng đồng tiền điện tử là phần thưởng từ bên ngoài có thể thay đổi hành vi người dùng. Điều này có ý nghĩa trực tiếp đối với việc sử dụng động lực token để thu thập dữ liệu: động lực có thể làm biến dạng nhóm tham gia và các loại dữ liệu mà họ cung cấp.

Việc giới thiệu cơ hội tiền thưởng cũng mở ra khả năng các thành viên lợi dụng hệ thống, chẳng hạn như việc gửi dữ liệu chất lượng thấp hoặc bịa đặt để tối đa hóa thu nhập của họ. Điều này rất quan trọng vì sự thành công của các Data DAO phụ thuộc vào chất lượng của dữ liệu. Nếu các đóng góp lệch khỏi mục tiêu mong muốn, giá trị của bộ dữ liệu có thể bị đe dọa.

(2) đo lường và thưởng cho dữ liệu

ý tưởng trung tâm của các dự án data daos là thưởng cho người đóng góp dữ liệu của họ bằng mã thông báo, điều này sẽ tạo ra doanh thu cho dao trong dài hạn. Tuy nhiên, do tính chủ quan của giá trị dữ liệu, việc xác định phần thưởng phù hợp cho các đóng góp dữ liệu khác nhau là rất thách thức. Ví dụ, trong kịch bản biohacking: liệu dữ liệu của một số người dùng có giá trị hơn không? Nếu có, những yếu tố nào xác định điều này? Đối với dữ liệu bản đồ: liệu thông tin từ một số khu vực có giá trị hơn từ các khu vực khác không? Làm thế nào để định lượng những khác biệt này? (Nghiên cứu về việc đo lường giá trị dữ liệu trong trí tuệ nhân tạo bằng cách đánh giá đóng góp tăng dần của dữ liệu đối với hiệu suất mô hình đang tiếp diễn nhưng có thể tốn nhiều tài nguyên tính toán.)

Hơn nữa, việc thành lập cơ chế mạnh mẽ để xác minh tính xác thực và chính xác của dữ liệu là điều cần thiết. Thiếu những biện pháp này, hệ thống có thể trở nên dễ bị tấn công bằng cách gửi dữ liệu gian lận (ví dụ, tạo tài khoản giả mạo) hoặc tấn công Sybil. Mạng lưới Depin giải quyết vấn đề này bằng cách tích hợp xác minh ở cấp độ thiết bị phần cứng, nhưng các loại DAO dữ liệu khác dựa vào đóng góp của người dùng có thể dễ bị thao túng hơn.

(3) giá trị tăng dần của dữ liệu mới
Hầu hết các mạng mở đã được tận dụng cho mục đích đào tạo, vì vậy các nhà điều hành dữ liệu DAO phải xem xét liệu các bộ dữ liệu được thu thập theo cách phi tập trung có thực sự thêm giá trị tăng tiến cho dữ liệu hiện có trên các mạng mở, và liệu các nhà nghiên cứu có thể truy cập vào dữ liệu này từ nền tảng hay thông qua các phương tiện khác. Ý tưởng này nhấn mạnh sự quan trọng của việc thu thập dữ liệu hoàn toàn mới vượt qua những gì hiện có, dẫn đến xem xét tiếp theo: quy mô tác động và cơ hội doanh thu.

(4) đánh giá cơ hội doanh thu
Ở cơ bản, các DAO dữ liệu đang xây dựng một thị trường hai bên kết nối người mua dữ liệu với người đóng góp dữ liệu. Do đó, thành công của một DAO dữ liệu phụ thuộc vào khả năng thu hút một cơ sở khách hàng ổn định và đa dạng sẵn lòng trả tiền cho dữ liệu.

Các data dao cần xác định và xác nhận nhu cầu cho dữ liệu của họ và đảm bảo rằng cơ hội thu nhập đủ lớn (dù là tổng thể hoặc trên mỗi người đóng góp) để thúc đẩy số lượng và chất lượng dữ liệu cần thiết. Ví dụ, ý tưởng tạo ra một user data dao để tổng hợp các sở thích cá nhân và dữ liệu duyệt web cho mục đích quảng cáo đã được thảo luận trong nhiều năm, nhưng tiềm năng thu nhập cho người dùng có thể là rất nhỏ. (Về ngữ cảnh, ARPU toàn cầu của Meta là 13,12 đô la vào cuối năm 2023.) Với các công ty AI dự định đầu tư hàng nghìn tỷ đô la vào đào tạo, tiềm năng thu nhập từ dữ liệu có thể đủ để khuyến khích đóng góp quy mô lớn, đặt ra một câu hỏi hấp dẫn cho các data dao: "Tại sao lại bây giờ?"

4. phá vỡ tường dữ liệu

Các dự án DAO dữ liệu đang cung cấp một giải pháp hứa hẹn cho việc tạo ra các bộ dữ liệu mới chất lượng cao và phá vỡ bức tường dữ liệu đang thách thức trí tuệ nhân tạo. Trong khi phương pháp chính xác để đạt được điều này vẫn chưa được xác định, chúng tôi rất háo hức để xem cách lĩnh vực này phát triển.

phước

  1. bài viết này được in từ [ Tài chính Jinse], và bản quyền thuộc về tác giả gốc [li jin]. Nếu bạn có bất kỳ ý kiến ​​nào về việc tái bản này, vui lòng liên hệ với đội ngũ học tập của Gate.gatelearn@Gate.io.đội ngũ sẽ nhanh chóng giải quyết mọi lo ngại theo các quy trình liên quan.
  2. miễn trừ trách nhiệm: quan điểm và ý kiến được biểu đạt trong bài viết này chỉ thuộc về tác giả một mình và không đại diện cho bất kỳ lời khuyên đầu tư nào.
  3. Các phiên bản ngôn ngữ khác của bài viết này đã được dịch bởi đội ngũ Gate Learn mà không đề cập đếnGate.ioCác bài báo dịch có thể không được sao chép, phân phối hoặc đạo văn.

Mời người khác bỏ phiếu

Lịch Tiền điện tử

Cập nhật dự án
Etherex sẽ ra mắt Token REX vào ngày 6 tháng 8.
REX
22.27%
2025-08-06
Ngày Phát Triển và Quản Trị Hiếm ở Las Vegas
Cardano sẽ tổ chức Ngày Phát triển & Quản trị Rare tại Las Vegas, từ ngày 6 đến 7 tháng 8, với các buổi hội thảo, hackathon và thảo luận bàn tròn tập trung vào các chủ đề phát triển kỹ thuật và quản trị.
ADA
-3.44%
2025-08-06
Blockchain.Rio ở Rio De Janeiro
Stellar sẽ tham gia hội nghị Blockchain.Rio, dự kiến diễn ra tại Rio de Janeiro, từ ngày 5 đến 7 tháng 8. Chương trình sẽ bao gồm các bài phát biểu chính và các cuộc thảo luận nhóm có sự tham gia của đại diện hệ sinh thái Stellar phối hợp với các đối tác Cheesecake Labs và NearX.
XLM
-3.18%
2025-08-06
Hội thảo web
Circle đã công bố một hội thảo trực tuyến Executive Insights có tiêu đề "Kỷ Nguyên GENIUS Act Bắt Đầu", dự kiến diễn ra vào ngày 7 tháng 8 năm 2025, lúc 14:00 UTC. Phiên họp sẽ khám phá những tác động của GENIUS Act vừa được thông qua - khung quy định liên bang đầu tiên cho các stablecoin thanh toán tại Hoa Kỳ. Dante Disparte và Corey Then của Circle sẽ lãnh đạo cuộc thảo luận về cách mà luật pháp ảnh hưởng đến đổi mới tài sản kỹ thuật số, sự rõ ràng về quy định, và vị thế lãnh đạo của Hoa Kỳ trong cơ sở hạ tầng tài chính toàn cầu.
USDC
-0.03%
2025-08-06
AMA trên X
Ankr sẽ tổ chức một AMA trên X vào ngày 7 tháng 8 lúc 16:00 UTC, tập trung vào công việc của DogeOS trong việc xây dựng lớp ứng dụng cho DOGE.
ANKR
-3.23%
2025-08-06

Bài viết liên quan

Solana là gì?
06:10
Người mới bắt đầu

Solana là gì?

Là một dự án chuỗi khối, Solana nhằm mục đích tối ưu hóa khả năng mở rộng mạng và tăng tốc độ, đồng thời áp dụng thuật toán bằng chứng lịch sử duy nhất để cải thiện đáng kể hiệu quả của các giao dịch và trình tự trên chuỗi.
11/21/2022, 9:29:43 AM
TRON là gì?
Người mới bắt đầu

TRON là gì?

TRON là một dự án chuỗi công khai do Justin Sun tạo ra vào năm 2017. Nó được xếp hạng trong top đầu dựa trên mạng hiệu quả, khả năng mở rộng và phí giao dịch cực thấp. Khi chúng ta nói về TRON, những từ khóa đầu tiên liên quan đến nó có thể là Justin Sun, TRC-20 và DPoS. Nhưng với tư cách là một chuỗi công khai có vốn hóa thị trường hàng đầu và các kịch bản ứng dụng rộng rãi, có nhiều điều đáng để biết hơn, bao gồm cơ chế đồng thuận, mô hình kinh tế, lịch sử và người sáng lập.
11/21/2022, 8:07:57 AM
Đại là gì? Tất cả những gì bạn cần biết về DAI
Trung cấp

Đại là gì? Tất cả những gì bạn cần biết về DAI

DAI là stablecoin được hỗ trợ bằng tài sản thế chấp đầu tiên tìm cách duy trì giá trị 1:1 với Đô la Mỹ. DAI tạo điều kiện cho vay tiền điện tử bằng cách sử dụng phương pháp khóa các tài sản tiền điện tử khác trong hợp đồng thông minh để nhận DAI dưới dạng khoản vay. Trong khi hầu hết các stablecoin được kiểm soát bởi các tổ chức tập trung, DAI được phân cấp. Là một stablecoin, DAI đóng vai trò như một hàng rào chống lại những biến động của thị trường và cũng cho phép một số tính năng DeFi như giao dịch, cho vay hoặc đi vay.
11/21/2022, 9:47:22 AM
Tất cả những điều bạn cần biết về GT-Giao thức
Người mới bắt đầu

Tất cả những điều bạn cần biết về GT-Giao thức

GT Protocol là một trong những sản phẩm AI được quảng cáo nhiều nhất của năm 2024, sử dụng công nghệ AI tiên tiến để tạo ra các công cụ giao dịch AI độc đáo. Nó có thể được sử dụng cho quản lý danh mục AI, giao dịch AI và các phương pháp đầu tư trong thị trường CeFi, DeFi và NFT, giúp mọi người dễ dàng khám phá và đầu tư vào các cơ hội Web3 khác nhau. Nó đã thu hút hàng trăm triệu người dùng tham gia.
9/25/2024, 7:10:21 AM
Decentraland là gì? Tất cả những gì bạn cần biết về MANA
Người mới bắt đầu

Decentraland là gì? Tất cả những gì bạn cần biết về MANA

Decentraland là một thế giới ảo dựa trên Ethereum nhằm mục đích truyền cảm hứng và tập hợp một mạng lưới toàn cầu gồm những người sáng tạo, nhà đầu tư, game thủ và những người dùng khác bằng cách cung cấp một môi trường kỹ thuật số nơi có thể thực hiện các hoạt động khác nhau.
11/21/2022, 9:53:41 AM
Sentient: Kết hợp những mô hình AI Mở và Đóng tốt nhất
Trung cấp

Sentient: Kết hợp những mô hình AI Mở và Đóng tốt nhất

Mô tả Meta: Sentient là một nền tảng cho các mô hình Clopen AI, kết hợp tốt nhất của cả các mô hình mở và đóng. Nền tảng này có hai thành phần chính: OML và Sentient Protocol.
11/18/2024, 4:12:26 AM
Bắt đầu giao dịch
Đăng ký và giao dịch để nhận phần thưởng USDTEST trị giá
$100
$5500