优德88手机app下载_w88优德手机官方网页版_w88优德app

admin1个月前308浏览量

安排方:搜狐、清华大学

奖金:¥75000

初赛提交时刻:2019年4月8日 – 2019年5月10日

2019 年 4 月 8 日,第三届搜狐学校算法大赛正式开赛,同期面向参赛选手敞开竞赛效果提交。本次竞赛联合了清华大学等安排一起安排,面向全球范围内的全日制学生。

本次竞赛的主题是提取文章主题,并判别文章对主题的心情。咱们生活在一个信息爆破的国际,每天能接触到不同的新闻文章,体裁也多种多样,包含新闻快讯、广告软文、深度剖析、事情谈论,以及重要人物采访等等。每天新发生的信息量现已极大地超过了读者能够承受的极限。所以,假如有一种机器模型,能够主动提取出文章的主题,并且判别出文章对这些主题内容的情感倾向,就能够极大地进步阅览和消化信息的功率。

注:因涉及到数据下载,强烈建议咱们登录 PC 页面报名参加。

大赛页面地址:

https://biendata.com/competition/sohu2019/

竞赛使命

具体来说,参赛选手需求依据给定的文章,提取出文章中最重要的三个主题(也便是实体)。所谓实体,意思是人、物、区域、安排、集体、企业、职业等事物。和一般的实体抽取竞赛使命不同的是,本次竞赛还要求选手判别文章对主题实体的情感倾向(包含活跃、中立和消沉三种心情)。如下图:

使命剖析

本次竞赛能够分红相对独立的两个使命:从文章中提取最重要的实体,然后判别文章对这些实体的心情。

第一个使命是提取文章中重要的实体。这个使命相似常见的命名实体辨认(NER)使命。传统上来说,NER 使命首要抽取 7 大类实体,包含人名、安排、地名、时刻、日期、钱银和百分比。

现在,现已有许多关于命名实体(NER)的研讨和共享呈现。在斯坦福大学闻名的课程 CS224d:Deep Learning for Natural Language Processing中,有一次大作业便是用深度神经网络提取命名实体。也有许多人现已自愿共享了这次作业的模型办法和代码。

作业使命链接:

http://cs224d.stanford.edu/assignment2/index.html

CS224d 作业代码共享:

《用深度神经网络处理NER命名实体辨认问题》

http://cloud.tencent.com/developer/article/1081991

本次大赛的发起人之一,搜狐科学家、搜狐智能媒体研制中心负责人杨田也引荐了一篇具体的命名实体总述论文 A Survey on Recent Advances in Named Entity Recognition from Deep Learning models

论文链接:

https://aclweb.org/anthology/C18-1182

不过,本次竞赛的难度比传统的 NER 要大。竞赛的最大特色便是实战与运用。行百里者半九十,在学术效果的基础上,精度每向运用进步一点,难度就数倍添加,因而竞赛的挑战性非常大。

竞赛的实体不仅仅包含人名,地名和安排名的辨认,粒度更细,品种也更多。在竞赛前期发布的样本数据中,实体的比如包含:众要机械 APP、卫生监督站、前言、猪瘟、互联网、表带等内容。这也是现在实体抽取技能面临的难点。

跟着互联网的快速开展,信息越来越丰厚,呈现出多源、异构、海量的特色,也对信息抽取技能提出了新的要求。许多时分,咱们要抽取的并不是一般的实体,而是全新品种的实体。现在,越来越多的人开端研讨实体扩展技能,意图是抽取敞开类别的实体。

一种很天然的主意是把语料中一切的名词都作为实体备选,然后核算它们与练习会集种子实体的相似度,找出相似实体。这一思路首要由 Pantel 等人实践,相关研讨记录在 Web-Scale Distributional Similarity and Entity Set Expansion一文中。

在提取出实体后,咱们还需求判别文章对实体的心情。情感剖析也是天然语言处理范畴的一个重要方向。有许多相关研讨能够参阅。前期的研讨依据构建好的情感词库进行判别。

情感词库有许多挑选,例如闻名的知网 HowNet 就供给了“《知网》情感剖析用词语集”揭露下载。在考虑情感词库时,还需求往前追溯 1-2 个词,看看有没有“不”、“没有”等否定词。

这种办法需求人工构建情感词库,但没有一个情感词库能够适用一切运用场景,所以高度依靠人的经历。此外,这种办法也很难完整地考虑到上下文的语义信息。不过,假如刚刚上手情感剖析,能够测验这种办法。以下链接是一篇依据情感词典的文本情感剖析代码:

http://www.aidnoob.com/ai/python/qinggan1/

尔后,还呈现了依据特征的情感剖析办法。这种办法首要运用统计学范畴的常识,从语料中选取特征对文本进行表明,然后用决策树、SVM 等办法对心情进行分类。这种办法依然高度依靠经历和特征的挑选。相关研讨有许多,比较具体的事例介绍来自清华大学核算机系谢丽星在孙茂松教授指导下的硕士论文《依据 SVM 的中文微博情感剖析的研讨》

论文链接:

http://nlp.csai.tsinghua.edu.cn/site/images/file/2011_xlx_master_thesis.pdf

论文首要运用 SVM 的办法,分别从微博和 Twitter 预料中抽取了主题相关特征(如是否包含主题词、语句中是否缺少名词性短语或许代词等)和主题无关特征(是否有 url 链接、是否有表情、是否有情感词和情感短语、形容词和动词的个数等),在运用主题无关特征时取得的最高准确率为 66.467%,运用主题相关的特征对情感分类后取得的最高准确率为 67.283%。

现在首要的情感剖析办法大多依据深度学习,首要对词语、语句和华章进行向量化表明,然后学习文本的深层语义信息。这种办法能够主动学习特征,不需求人工进行特征挑选和规矩拟定。许多情感剖析研讨运用 NLP 常见的 RNN,加上 LSTM 和注意力机制确保语义的完整性。

例如,腾讯的徐汉彬和宋彦就从前共享了 Keras 代码完成对 40 多万条实在的鹅漫用户谈论数据的情感分类。他们的代码经过 Keras 完成,底层结构是 Google 开源的 TensorFlow,词向量选用腾讯人工智能实验室开源的词向量。

整个模型包含 6 层,核心层包含 Embedding 输入层、中间层(LSTM)、输出层(Softmax)。模型中的 Flatten 和 Dense 层用于做数据维度改换,将上一层输出数据改换为相应的输出格局,终究的输出是一个二维数组,用于表达输入文本是正面或许负面的概率散布。

依据LSTM的情感辨认在鹅漫谈论剖析中的实践与运用:

https://www.infoq.cn/article/zJI*5CGPeRKqHsHJV3OQ

许多论文和揭露代码首要针对文档等级的情感剖析。但是在本次竞赛中,需求愈加详尽的剖析,由于一篇文章里可能对不同的实体有不同的心情。咱们在竞赛前期给的数据样本里,现已能看到相似的状况。例如以下这篇文章:

{ "content":"华为宣告:申述美国政府。 新闻越短,信息越大。 就在上午10时,华为在深圳总部举办外媒记者会,宣告一项重要决议:申述美国政府。 北京时刻10时,在外媒记者会上,华为轮值董事长郭平宣告,华为已向美国联邦法院提申述讼,指控美国2019年国防授权法第889条款违背美国宪法。 在郭平的表述中,美国政府一向诬蔑华为是要挟,还进犯华为的效劳器,盗取邮件和源代码,并且从来没有供给任何依据支撑其关于华为是网络安全要挟的指控。 并且,美国极力诽谤华为、影响大众言论。更糟糕的是,美国政府企图阻挠华为参加其他国家的5G网络建造。 而采纳法律行动是华为不得已而为之的最终挑选,也是受尽压迫之后的奋力抵挡。 为什么华为这么有底气去申述美国政府,除了华为过硬的技能、品牌的成果之外,这更离不开一个人——任正非,华为的创始人。}

这儿,人类标示员就判别文章对实体“华为”的心情为正,对实体“美国政府”的心情为负。事实上咱们读完这段文本后很可能也的确赞同这一标示判别。在这种状况下,咱们就不能只对文档等级的内容做情感剖析,还需求对粒度更细的内容做剖析。

对此,咱们能够参阅更前沿的研讨论文。2016 年,清华大学朱小燕和黄民烈在 EMNLP 上宣布了一篇情感粒度更细的论文 Attention-based LSTM forAspect-level Sentiment Classification

这篇论文提出了一种依据注意力机制(Attention Mechanism)的神经网络模型,运用注意力机制注意到文本中对给出的 aspect 最重要的部分,然后更充分地考虑文本对应的 aspect 信息,进步细粒度情感分类使命的功能。

依据这篇论文提出的改善,能够辨认许多之前的模型无法辨认的细粒度情感。例如,“The appetizer are ok, but the service is slow”这句话里呈现了两个实体(或许说 aspect)。food 对应的是中性,service 对应的是负面。

最终,搜狐官方也给一切参赛者供给了竞赛的 baseline 供咱们参阅:

https://github.com/sohucampus2019/coreEntityEmotion_baseline

关于PaperWeekly

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

最新评论