“AI来了”系列报道之一丨近13亿次调用,拥有6000万用户,30人团队借力AI打造聚典平台2.0

来源:劳动观察 作者:庄从周 发布时间:2024-04-16 09:01

摘要: 截至4月7日,聚典平台已有用户数6000万,调取数据接近13亿次。

当你打开微信读书,阅读一本名著时,突然冒出一个生僻词。这个时候,你是会切换到搜索引擎查询还是愿意直接在小说文本中选中词汇寻求释义?显然,后者的操作是更为人性化和便捷的。虽然这种“屏幕选词、释义立现”的功能在很多平台上都已经实现,但释义的精准度,纠错能力,返回查询结果的速度都非常影响用户的体验。


在微信阅读里选中一个词,释义结果以200毫秒以内的速度送达,读者一定会认为如此丝滑肯定是科技大厂所开发。其实,这个功能来自于一家传统的出版社,辞书出版社旗下的聚典数据开发平台。


该平台的开发者已经完成从1.0到2.0版本的迭代,并利用生成式人工智能(AIGC)对版本进行了优化,自动纠错、联想、提供分词包等新功能不断涌现。


团队花数年开发

目前已有6000万用户


“聚典”于2020年8月13日正式发布上线,通过该平台,出版社实现了与读者精准、及时、全面的广泛链接;通过聚典,满足了读者一站式知识查检需要,具有很强的带动性和辐射力。根据记者得到的最新数据,目前全网已经有6000万用户使用过聚典平台,在微信读书、掌阅、起点读书、得到、澎湃、学习强国等在线阅读和新闻平台上,总调取数已经接近惊人的13亿次。


“屏幕选词、释义立现”的功能正在被越来越多的读者所采纳和欢迎,这个实用功能来自辞书出版社30多人的专业团队。


廖俊柱,辞书出版社技术总监,他在受访时表示,对《辞海》第七版进行数字化的时刻,“聚典”平台就已在酝酿之中。据其介绍,2019年1月,以《汉语大词典》内容为基础,开始建设工具书数据开放平台测试版;同年6月,工具书数据开放平台测试版开发完成,同年11月,掌阅App上线工具书数据服务,平台实现为数字阅读赋能。2020年7月,完成平台迭代开发,对接方式由API升级为更安全的SDK方式;聚典数据大屏1.0版开发完成;平台正式命名为“聚典数据开放平台”。


技术团队正在对内容优化进行讨论。


生成式人工智能助力优化迭代

“坚如磐石”不再“坚如罄石”


廖俊柱告诉记者,从2020年7月上线1.0版本,到2023年8月2.0版本,3年的时间里,整个互联网数据开发的技术迭代也是革命性的。尤其是依靠生成式人工智能的出现,更让平台不断进步。廖告诉记者,“聚典2.0”通过大语言模型的算法,改进内容质量,丰富了数据类型。对数据仓库内词条进行了去重、纠错和规范化处理,还对查询落空的情况进行分析筛选,及时补充新词新语,还增补了古诗文等类型的大量内容。


他举例说道,根据人工智能算法的助力,2.0版本完成了此前1.0版本无法实现的功能。“比如自动纠错,有的文章会因为各种原因出现‘坚如罄石’,读者就会去选中,好奇到底是什么词语。根据自动学习和纠错,释义的内容会更正为‘坚如磐石’。”


此外,词条查询权重的加入,也让读者获得释义更完整,学习体验感更好。“读者选取‘下自成蹊’,通过算法,就会在释义中同时显示上句,‘桃李不言,下自成蹊’,并给出整句的意思。”


廖表示,2.0版本为了改善用户体验,在上线微信读书时,根据对方的技术要求达到了小于200毫秒的响应,“要知道,此前,我们的一次响应时间是在650毫秒,在用户的体验感上,真正感受到了什么是丝滑。”


聚典平台2.0版本还通过改进参见系统、扩充同位词和举例词等做法,改变了纸质辞书受限于版面而不得不采用的一些传统做法,改善了用户体验。例如查询历史人物如“朱元璋”,原来的版本只会显示“明太祖”,而如今会给出一小段较为完整的人物介绍并标明出处为《辞海》第七版,并开放更多搜索选项给有更深挖掘欲的读者。


出版老法师投身“聚典”

用匠心提升内容质量


童力军是上海辞书出版社副总编辑、辞海编纂处副主任,也是“聚典”诞生的见证者、参与者。他在受访时告诉记者,“聚典”正是围绕“查检更有效、体验更友好、服务更智能”的目标来服务好每一位读者。


为了达成这一目标,内容团队中,不乏资深出版老法师。孙毕,《辞书研究》编委,上海辞书学会理事,上海辞书出版社数字中心内容总监也投身到了聚典平台的研究改善上来。


目前,通过后台收集的各项数据,“聚典”在使用过程中也会产生大量落空词,这些落空词通过后台反馈到孙毕这里,他也对此进行了长时间的跟踪和研究。他告诉记者,平台查不到的第一批词,按其查询次数从高到低排列,前500个词查询总次数为410万次,平均每个词查询8200次;最高的单个词的查询次数为83687次,最低的也有2364次。如此高的查询率,“聚典”如果处理好了,能大幅提高用户体验,增强美誉度。虽然一些数据是因为用户手指操作不稳定,误选和误触造成,但一些切词错误应该被专家发现,并提供正确的结果给读者。


他也向记者举例,后台有反馈“羟色胺”是落空词汇,但其实正确的词语应该是“5-羟色胺”,其实就是大众熟知的血清素,但“羟色胺”并无相关释义,所以通过不断跟踪研究,以AI结合人工的方式,聚典平台的释义准确率在不断提高,一些原本落空词汇也逐渐被纠错和补充。


记者了解到,随着词汇量的不断更新和一些释义的改变,聚典平台也在开发3.0版本,人工智能将成为常规武器,为搜索如虎添翼。


头图:截至4月7日,聚典平台已有用户数约6000万,调取数据接近13亿次。

责任编辑:李成溪
劳动观察新闻,未经授权不得转载
收藏

相关新闻

首页

顶部