训练AI是件大事,陆恒已经有成熟的技术,是系统根据现在的时间给出的最优技术方案。
但恒创掌握的数据其实并没有度娘腾达这些成立很久的互联网公司多。
头条软件也才运营半年罢了,目前用户还没破千万,而且也只是新闻类软件,最好的训练数据其实是包含用户信息的数据。
比如评论、贴吧讨论、前世的自媒体时代产生的大量文章。
但现在这些都没有。
不过也有办法解决,陆恒的解决方案也比较简单,那就是使用书籍训练。
从人类诞生到现在数千年产生的所有文字数据来训练AI。
新技术的最大优点就是一种类人逻辑算法,最基础的架构仿生人类思维,随后投入任何数据都在增加知识宽度。
并不是前世那种靠着无数文字垒砌,计算前后文字字符出现概率等等。
因为参观团就要到公司了,在这之前最好将AI助手也安装在手机内,这样才能带来更大震撼,让合作伙伴更有信心。
陆恒这几天也参与到训练AI当中。
公司总部还没有完善,软件工程师们目前还在老大厦工作,这并不会影响训练AI的速度,AI就在服务器里面,不停投入数据就行了。
陆恒叫来杨程,公开版权的电子图书数据已经用的差不多了,现在到了网络小说产生的数据。
接下来还有论文数据库的数据。
“买断的小说现在有多少,爱阅小说书库一共多少本书?”陆恒问道。
杨程有些疑惑陆恒怎么关心起小说,他想了想回道:“字数达到百万的差不多四五万本吧,每天有近万作者日更新4000字以上。”
爱阅小说前期发展比较困难,多数都是走的买断路线。
再加上当初投资囧系列电影赚了不少钱,都花在了小说上。