要不要表白、怎么表白,这成为不少单身人群纠结的问题,毕竟“蒹葭苍苍 白露为霜”听上去要比“安红,俺想你”更有回味。文学素养不是一日之功,临时不抱佛脚似乎不太可能。不过,这个七夕不一样了,表白不用抱佛脚,但要抱科学家的大腿。七夕前,天猫精灵上线了技能“天猫精灵为你写诗”,通过它,用户可以用AI给心爱的人写一首藏头情诗,还可以进行人机共创的合作。
这个创意来自阿里巴巴人工智能实验室认识实验室的科学家们,他们将实验室的AI科研技术赋能于古诗词创作,研发了这款有趣好玩的产品。
用人工智能写出古诗词并不稀奇,但要让人工智能写诗有情有味,前后意境、语境连贯,这就需要很高的技术水平。
500000首古诗当“老师”
“读书破万卷,下笔如有神”,天猫精灵就是读了500000万首古诗之后才在写诗上下笔如有神的。
天猫精灵使用循环神经网络(Recurrent Neural Networks, RNN)经过上百小时在超过50万首古诗上的训练,通过韵律模型进行古诗写作的学习。经过学习积累,天猫精灵能了解到古人写作用词的习惯,并能完整做好一句诗的写作。
以七言绝句为例,当写到“两个黄鹂”时,RNN语言模型会计算得到后续汉字的可能性(“鸣”字就输入较大可能性的汉字),然后选取可能性较大的汉字并依次迭代
选择古诗词领域避免了语言的“历时性”问题,让风格更稳定。“历时性”是指不同时期,语言风格会有较大差异。机器学习在识别这种差异时,会出现问题,导致风格错乱,例如学习现代诗歌,会李静文白杂糅、西方风格、歌颂型、朦胧诗等多个时期,这些东西拼在一起组成的现代诗,显然不能直视。
赋予诗歌情境和感情
对比目前的人工智能写诗技能看,大家在单句产出上实力比较接近,技术难点是连句成诗。古诗的连接不仅要到合辙押韵,还要让前后语境、情景串通。
据技术负责人介绍,为了解决这个问题,技术部门采用了机器翻译中常使用的“sequence-to-sequence(seq2seq)模型”。简单来说,这个模型可将诗歌生成转换成相邻两句诗之间编码、解码关系,先理解上一句的意思(解码),再根据上一句的意思来产出(编码),让情境和情感得以延续。
然而,仅仅通过seq2seq只能克服从一句到两句的写作难点,而形成一首好诗则需要立足于宏观层面反复斟酌的。人工智能实验室的科学家们用科学方法建立一套诗歌评价体系。天猫精灵在绝句的生成过程中保留了每一个位置诗句的不同表达,然后用这个评价系统来反复斟酌不同佳句组合的质量,从中选择情境情感表达最佳的作为成诗。最后以古诗为标尺,通过评价模型计算得分评估AI写诗的水平,再基于模型修正。因此,每一首诗的诞生,都是一次对50万首诗再学习的过程,通过寻章摘句确定最匹配的那一组。
人机共创,让推敲变得更容易
为了能让普通人体会创造诗歌和推敲的乐趣,“天猫精灵为你写诗”技能还增加了人机协作功能,这是之前类似技能没有的。当每一首藏头诗生成后,会根据算法提供若干段候选的诗句,用户可以从中选择一个组成最终的藏头诗。
相比人工智能,人机共创或者更有前景。在机器能够完全自主创作之前,人机协作是一个必经的过渡阶段。现在所有的撰写工作都是由人工完成的,没有任何机器辅助,这里有这巨大的应用前景,人们与节省时间提高效率有着迫切的需求。
写诗只是一个切入点,是开放域对话攻坚的一部分。所谓开放域对话是指,不限定领域、不限定目的、不限定话题,让人与机器之间真正像两个朋友那样对话。在这其中创作则是最难的部分,尤其是创作中情感、情绪、隐含意义的传达。
在介绍研发“天猫精灵为你写诗”的初衷时,项目负责人表示,古诗词的风格比较统一可以让我们对/术做出更好的评判,这是一个初步的语言尝试,想证明机器通过诗这种文学语言表达统一的语境,也能够传递“假装”的情感,甚至通过对字/词的情感分类还可以“假装”出不同类型的情感。
对于语言的理解和生成可以被应用到更广泛的创作场景里,例如深度评论,报告论文,剧本等等;技术还可以扩展到人机交互的机器回复生成等。在未来,天猫精灵或许能成为一个超级输入法,不用输入每一个你想写的字,而是一个梗概或者主题,天猫精灵就可以生成一篇对应的文章,再交互式的修改一下就完成了
|