数字图书馆

GAITC 2017 自然语言理解分论坛实录丨黄锦辉：社交媒体内容分析：自然语言处理方法和其它

发布时间：2017-06-01

微信图片_20210907112927.png

黄锦辉
香港中文大学创新科技中心主任
香港中文大学工程学院副院长
香港广州创新科技协会会长

以下是黄锦辉教授的演讲实录：

大家好！我的普遍话不是母语，但是我在北京也跑了好多年。我今天给大家分享的就是过去五、六年一些想法，这里有一些是从事实业的，可能觉得会这个有一点虚，可能还没有到落地的时候，但是大家可以给我们一些指正。

我们一直做Social Media。我分三部分来讲，首先是Introduction，这是2017年的一些数据，我们做了一个简单的统计。我们2011年的时候，所谓Microblog platforms，就是在WeChat，twitter，etc上。

看一下这个例子，比如李晨跟范冰冰这个例子，有很多不同的信息都出来了，可能没有注意到有很多东西都是没用的，只是跟着讲而已。

Microblog Repost Tree是两块，Structure和Messages。

这是举一个例子。从发起人开始，每一个信息如果合起来，就可以当成Document，每一片是Sentence。

NLP is applicable to microblogging。

NLP for Summarization。Discourse是我们会利用的东西。这是有关Sematic。比如有一个社交圈，已经有100人，运行了一个月，两个月，有一个新人进来这个圈，旧的100人突然发了一句“ABC”，对于现有的100个人当然知道是什么意思，但是新进来的人并不一定知道了，如果Summarization存在，就可以解决这个问题。

2013年Chang做过这个方法，认为效果不太好，主要的理由就是太短，噪音太多。

现在怎么做？先是聚类，Event-based，但是没有结构上的关系，只是把同类型的放在一起。

比如一个明星发一个东西出来，因为他是明星，有很多人跟随他，但是他所讲的东西有没有用呢？

我们怎么处理这个事情呢？Some microbloggers（ie leaders） are more influential than others（ie followers）。有一些人提到那些问题，加上新的资料上去，有一串人继续跟着你，我们利用leader follow。既然把leader follow分出来，我提出问题，我回答，我命令你，这些东西其实也不是什么新的东西。

我们另外看一个问题，Rumor Detection。Rumor是比格比较麻烦的事情，出来的时候会有很大影响。现在一般来看，只是看每一个词，或者每一个片语，或者是看整个信息的容量资料来判断。在整个过程之中，那些人用的词是会改的。有一个例子给大家看一下，这是Question mark的用途，另外一个是First-person pronoun。根据时间的变动，有新的技术可以帮助你去分析。

Time Series of Microblog Event.

这是Our Contributions.

Time Series Formation.

看一下这个图，有些信息是很多的，但是到这里就没有了，我们想把它切成三个。

谢谢大家！

提问A：您有没有做过话题之间的关联关系这种工作？

黄锦辉：有，我们一开始做的就是两个信息之间的关系…

提问B：微博评论把时间分割了，只保留波峰，波谷去掉了，我觉得这个事情没有说服力，波峰波谷的评论肯定也是有用的，出现波峰波谷会有一定的原因。

黄锦辉：我们碰到的问题，最直接，最自然可以做的…

主持人：再次感谢黄老师。

（本报告根据速记整理）

CAAI原创丨作者黄锦辉教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

GAITC 2017 自然语言理解分论坛实录丨黄锦辉：社交媒体内容分析：自然语言处理方法和其它