IT之家11月10日消息,人工智能领域领导者OpenAI近日宣布,将与众多组织展开合作,共同生成用于训练AI模型的公共/私有数据集。这一数据合作伙伴关系旨在让越来越多的组织参与到AI发展的进程中,并从中受益。
根据OpenAI官方博客透露,为了让AI模型更加安全且造福全人类,他们需要构建一个涵盖各个主题、行业、文化和语言的训练数据集。为此,OpenAI计划收集大量反映人类社会的数据,这些数据目前难以在线获取。在数据合作伙伴计划的推动下,OpenAI不仅将关注图像、音频和视频等多种模式,还将特别关注那些能够体现人类意图的长篇写作或对话等跨不同语言、主题和格式的数据。
为确保数据的准确性和完整性,OpenAI将与相关组织紧密合作,利用光学字符识别和自动语音识别等技术对原始数据进行数字化处理,并在必要时清除敏感或个人信息。
OpenAI计划创建两类数据集:一类是面向所有人的公开开源数据集,另一类则是用于训练专有AI模型的私有数据集。通过这种方式,OpenAI希望能满足不同组织的需求,让他们在保持数据私密性的同时,也能借助OpenAI的模型提升自身领域的业务水平。
相关文章
猜你喜欢