舆情频道

主流媒体算法的研究与实践——以封面新闻为例

时间:2021-03-08 14:33:00作者:徐桢虎新闻来源:《法治新闻传播》2021年第一辑

评论投稿打印转发复制链接||字号

  最近几年,技术赋能在新闻领域的土壤里蓬勃生长,已经逐渐形成了当前人工智能应用的一个重要分支。目前在新闻领域,人工智能技术应用尚处于初级阶段,即“弱人工智能时代”,应用侧重点聚焦在提升效率上,是对新闻的“策采编审发”生产环节中重复性较高的人力劳动的替代。较为常用的人工智能应用包括:通过全网监控热点来筛选新闻选题,利用抓取技术获取及时的全网信息,进行各种类型的快讯机器写稿,算法实现自动审核校对,借助个性化推荐实现内容精准分发等。

  封面新闻早在2015年就投入人工智能技术的媒体应用研究,经过5年时间与实际业务的磨合,逐渐摸索出一套适合主流媒体应用的算法模型。封面新闻推出的主流媒体算法包括内容质量、内容分发、内容传播、内容生产四大类算法模型,已经在各个业务场景中稳定运行。

  内容分发算法

  内容分发算法以App应用为主要载体,包括推荐算法、相关新闻算法、搜索算法等。其中推荐算法一直处于舆论的讨论热点中。在目前主流的推荐算法中,用户的内容阅读习惯将成为内容推荐的主要指标,个性化内容推送让用户过滤掉不感兴趣的信息内容,这无形间影响了用户对于信息内容的自主选择,导致用户对于信息接触面越来越狭隘、单一和固化,形成“信息茧房”效应①。用户一旦身处其中,就会满足于被动的知识积累,很难再接受不同的观点,甚至在不同群体间造成沟通阻碍。2019年12月20日,国家互联网信息办公室发布了第5号令《网络信息内容生态治理规定》②,其中针对当前网络信息内容服务平台采用个性化算法推荐技术推送信息所带来的问题,给出了一套全新的解决方案。即将算法推荐模型+人工干预+用户自主选择三者进行有机结合,旨在构建一个具备整体性、群体性以及个体性的网络信息内容生态,实现信息内容的高度和宽度。

  随之而来的问题是,传统媒体通常并不具有高水平的技术团队进行算法研发,而互联网资讯平台又不具有传统媒体那么强的信息安全敏锐性和内容生产专业性,因此适合于主流媒体的推荐算法并没有在很大程度上达成共识。封面新闻现在应用的主流媒体推荐算法,经过了多个版本的迭代,在封面新闻App6.0上线的为最新版本。其推荐策略与《网络信息内容生态治理规定》的要求高度一致,即将“算法推荐模型+人工干预+用户自主选择”三者有机结合生成实时推荐流,确保内容的范围、尺度可控,同时更加突出正能量信息和主流价值观。

  首先是健全人工干预机制。保证信息内容的多样化,在推荐信息流中增加内容绿区和电子围栏,增加媒体原创稿件和重大事件的曝光权重,限制低质量UGC内容(用户生产内容)进入推荐频道,保证主流价值引导,同时也能够弥补算法无法判断信息内容所体现的价值倾向的弊端。人工干预机制的健全,对于算法偏见和主流媒体自身内容生产的优化也能起到重要作用。同时业务部门通过对推荐频道各类型新闻的发稿量、曝光率、阅读转化率等指标进行数据分析、针对性的内容补充和算法策略优化,以达到用户获取信息多样性的目的。

  其次是建立用户自主选择机制。强化用户的自我决定和主观能动性,防止人类成为算法的奴隶。传统的推荐算法仅仅是在用户第一次使用App时,采用冷启动的方式让用户进行兴趣选择。依托封面新闻的用户分析模型,用户不仅能实时看到个人的兴趣标签画像,同时还能以可交互的方式自主选择内容兴趣及其权重,选择结果会通过系统分析计算并实时生效。想要实现用户自主选择机制,前提是要构建一个完善的用户标签系统和数据仓库,以支撑对于用户个性化的服务应用。

  最后是优化个性化算法推荐机制。个性化的算法推荐,依然是推荐系统中不可缺少的一部分。封面的推荐算法由用户兴趣分析、用户场景分析、新闻内容分析、行为实时计算、新闻推荐召回五大模块构成,采用算法包括:基于用户兴趣标签的tag算法,基于协同过滤的CF算法,以及基于NLP的召回算法等。个性化推荐的流程主要包含三层逻辑,第一层是内容召回,主要看重新闻内容特征的应用和搜索排序,对于文本、视频的标签编目是核心;第二层是兴趣召回,主要根据第一层的排序结果,再与用户的行为特征信息进行匹配;第三层主要是敏感信息的过滤,包括黑白名单以及文章分类的权重的判定,通过内容质量算法模型提供支撑。

  对于内容分发来说,推荐算法是核心,而相关新闻算法和搜索算法中不仅应用到推荐的部分算法策略和具体技术,也应用了内容质量、内容传播的一些基础算法。

  内容质量算法

  内容质量算法以智能化内容生产系统“封巢”为主要载体,包括热点聚合算法、内容审核算法、新闻标签算法、价值判断算法等。

  热点聚合算法通过对全网数据的抓取和分析,进行实时热点的判断。我们已经建立了全网抓取平台,通过实时监测汇聚网站、微信、微博、论坛社区等各大媒体平台内容大数据,现已经支持超过1000个国内主流媒体的图文、视频源采集。可作为舆情信息汇集、区域资讯同步、记者编辑素材,支持二次编辑或自动发布,同时支持将采集资源进行敏感词、重复度等策略过滤。结合实时采集的多平台热榜热点进行分析,为编辑提供热点选题参考。

  内容审核算法包括文本审核、图片审核、视频审核三部分,主要是通过针对网络抓取、UGC内容上传、记者采集等内容源进行AI智能审核,通过深度学习技术自动完成文本和视频的理解并反馈是否存在涉黄、恐暴、涉政嫌疑,同时可对视频质量进行判断,帮助后台编辑快速定位需加强审核的片段,提高审核效率。同时在封巢系统的内容审核流程中加入了标注功能,内容审核算法可以进行识别准确度的自学习和迭代升级。

  新闻标签算法更多是作为基础算法应用到内容分发中,海量的内容如何分发给目标用户,光靠人工肯定不现实,必须要给新闻打上标签,对于最近流行的短视频更是需要进行精准的标签编目。解决问题的核心就是新闻实体标签模型和领域知识图谱的构建,主要包括人物、地点、组织机构三大类实体。一方面新闻标题和正文中的实体存在大量的歧义现象,无论在词法层次、句法层次,还是在语义层次和语用层次。另一方面,互联网新的词汇(新的人名、地名、组织机构名和专用词汇)每一天都在不断出现,尤其在微博、B站等90后、00后使用较多的互联网产品中,稀奇古怪的新词和语句结构更是司空见惯,如何在内容分发中理解这些内容并分发给用户是需要媒体进行深入研究的。除了要有编辑专门对热搜进行追踪,人工智能算法能起到辅助作用。需要应用到的研究技术包括了图文视频信息抽取、命名实体识别、实体消歧、三元组构建等,在推荐系统、搜索、相关新闻、用户兴趣标签等业务场景都有用武之地。

  内容传播算法

  内容传播算法主要包括媒体区块链算法、用户分析算法、舆情分析算法等,这部分的算法通常都不是独立的算法模型,而是由多个基础算法整合应用到具体的业务场景中。

  比如媒体区块链算法是由智能合约算法、共识算法、哈希算法、公钥密码算法等基础算法组成,目前应用在封面传媒自主研发的区块链数字内容版权存证系统里。每一篇记者创作的原创稿件,发布即“上链”,并生成独一无二的存证证书,可以在封面新闻App的新闻详情页看到实时上链信息。在当前媒体行业中,数据的共享交换往往是个难题,直接开放自己的数据库会带来安全隐患,开放接口服务又需要自己去维护繁琐的权限关系,目前主流的爬虫方式面临稳定、法律限制等诸多因素的影响。在基于区块链数字内容版权存证系统的联盟链中,联盟各成员只需要经过授权就可实时获取其他节点的数据,极大地降低了数据共享成本和复杂性。

  用户分析算法主要应用于用户阅读行为研究,应用到的算法包括相关分析、对应分析、聚类分析、因子分析等。我们建立了智能分析云系统,通过对用户分类分层、事件漏斗、阅读偏好、用户行为路径等各个维度提供日常数据分析能力和自动生成报表。利用数据辅助App精准运营。不仅支持对App用户阅读兴趣、个人偏好、观看时长、点评赞等互动信息的数据分析,提供新增用户、用户留存率、用户活跃度、使用时段等维度的数据分析功能,还能够提供对图文、视频、发布量、发布渠道内容传播情况等多维度的数据分析。

  作为主流新闻媒体来说,舆情分析算法是非常有必要的。通过全网抓取平台对全网信息进行监测,当互联网上有与话题相关的舆情产生时能及时发现,对这些舆情信息进行分析。具体可以从时间、情感、网友讨论度、主题等几个方面入手进行分析,并以此来了解舆情的情感倾向。应用到的基础算法包括分类聚类、线性和非线性、时间序列以及决策树等。

  内容生成算法

  内容生成算法主要包括机器写作算法、视频生成算法、文本生成算法等。传统媒体在转型过程中的另外一大问题是原创生产内容效率不够。现在这个信息爆炸的时代,用户注意力不再像以前纸媒时代那样集中,如果媒体还是以以前的内容生产方式来做新闻App,生产内容的量级是远远满足不了用户的需求的。而UGC平台的大部分流量都被头条、腾讯几家头部互联网平台所占据,再加上自媒体的兴起,所以在原创内容生产上主流媒体也要拥抱人工智能技术。

  利用机器撰写时效性要求高、强调客观事实的新闻快讯,能在时效性和产出量同时得到保证,从而使有限的人力资源能够投入到更加专业深度的报道中去。除了在报道质量上能满足要求之外,机器写作的主要优势在于极大地提升了新闻产出的效率。生成一篇新闻耗时短,可同时生成多篇新闻,机器写作已经帮助新闻生产挣脱时间和人力的桎梏。并且技术进步正在逐步实现机器人进行基于理解的新闻创作。语法分析使语言流畅,深度学习能够自适应多种场景、更多信息粒度和维度构建的知识图谱、多样化的输出形式。

  封面新闻从2016年开始试水机器写作,现在自研的AI自动化写作平台每月写稿量已超过50000篇,包括文本和视频两种类型,写稿的领域涉及到体育、财经、生活、科技等10大类40多个小类。频道采用机器辅助编辑管理,实现了全国范围内新闻内容的自动抓取、地理定位、智能分发。并将这些新闻接入聊天机器人语料、语音查询功能、个性化推荐定制化写作等多种交互渠道中去。

  应用路径

  在业内提出了“主流算法”的基础上,封面新闻进一步把主流媒体算法的概念进行了丰富和完善。在应用路径上,需要从以下四个维度执行算法实践的具体工作:

  明确目标方向,也就是需要解决业务场景中的哪些问题和创新应用点。要跟业务部门保持常态化的沟通机制,了解业务的痛点在哪里,把业务痛点细化为业务需求。

  明确能力模型,也就是对算法本身要达到的应用能力的要求。明确哪些算法能力是需要完全自主研发,哪些能力是自身不具备可以通过先合作共建,后期再学习借鉴的。

  明确产品化制定,也就是对算法在业务中的实际应用场景要制定详细的方案,有了明确的规划并要在具体的工作安排中同步推进情况。

  明确评估体系,也就是对算法效果要有相应的评估标准,才能找准升级优化的重点。包括曝光率、点击率、召回率等,都需要明确每次算法迭代时需要提升的指标,量化算法的效果。

  扎扎实实走好这四步,主流媒体算法的构建与应用工作才能落到实处,这也绝不是一个短期内就能完成的项目,需要长时间在业务场景的实践。以具有价值观判断的主流媒体算法为核心,贯穿内容质量、内容分发、内容传播、内容生成这四大场景,这也是我们目前正在做的事情。其中智能推荐、搜索、内容审核等算法场景已经应用到多个对外输出项目中。

  (作者系四川日报报业集团特聘首席工程师兼封面传媒首席数据官)

  注释:

  ①《国家网信办新规如何规范“算法推荐”?解读来了!》,  https://m.sohu.com/a/361830154_181884/?pvid=000115_3w_a。

  ②国家网信办发布第5号令《网络信息内容生态治理规定》,          http://www.cac.gov.cn/2019-12/20/c_1578375159509309.htm。

[责任编辑:王莎]