維基百科現已提供 JSON 格式內容快照數據集:機器可讀,減少主站爬蟲流量
IT之家 4 月 18 日消息,維基百科運營方維基媒體基金會下轄 Wikimedia Enterprise 當地時間 16 日宣布其在 Kaggle 平臺上發布了 JSON 格式、英語和法語版本的測試版維基百科結構化內容快照數據集。

該數據集可用于 AI / ML 建模、基準測試、對齊、微調和探索性分析。其在設計時考慮了機器學習工作流程,簡化了機器訪問內容的流程,使用者無需對維基百科主站原始內容進行抓取和或解析。
這也意味著 AI 爬蟲可直接利用現成的數據集,減少了機器人在主站爬取帶來的流量開支,有利于維基百科的可持續運營。
相關閱讀:
來源:IT之家