B617 – Reading & Writing for Computer Science

Table of Contents

Paper的来源

Papers with Code

paperswithcode是一站式的门户网站，可访问包括机器学习模型、数据集、方法、评估表和代码在内的开源资源

各类出版社的数据库

IEEE Xplore，检索IEEE旗下期刊和会议的文章

 ACM Digital Library，检索ACM旗下期刊和会议的文章（如ACM Transactions on Knowledge Discovery from Data，即TKDD，CCF-B类期刊）

ScienceDirect，出版商Elsevier（中文：爱思唯尔）的数据库，多学科门类

dblp & WoS

如果只是找文章，且只找计算机学科的英文文章，dblp比Web of Science更好用。

arXiv

arXiv是一个预印本（preprint）网站，上面的文章很多都没有经过同行评审，质量没有保证但容易发现很新很潮的东西（2023年7月：Retentive Network，2023年10月：Vision RetNet）。总体来说不适合初学者投入大量精力

评估Paper的好坏

SCI分区与CCF目录

中科院、JCR分区是各个学科比较通用的评估指标。计算机学科有其特殊性，会议的重要程度不容小觑。CCF目录应当作为重要参照。

CCF不能代表一切

International Conference on Learning Representations, 即ICLR，含金量相当于CCF-A会议

如ICLR2018 - DCRNN，交通流量预测的经典Baseline之一，使用Bidirectional random walk来对空间依赖进行建模，使用encoder-decoder架构来对时间依赖进行建模；
再如ICLR2018 - GATs，Graph Attention Networks (GATs)，即图注意力网络。

IEEE Transactions on Intelligent Vehicles，即T-IV，类似T-ITS（CCF-B期刊），IF也大差不差，也是智能交通领域的期刊（不在CCF目录）

T-IV上，一篇轨迹预测的综述A Survey on Trajectory-Prediction Methods for Autonomous Driving

~~（所以啊，像T大，就自己搞了个列表内部使用，替代CCF列表）~~

关于OA期刊

MDPI出版社旗下的期刊（Hindawi、MDPI与Frontiers合称开源出版商三巨头），和IEEE Access等，这些开源期刊中的文章质量方差比较大，学有余力的时候，从相关期刊上查找文献需要仔细甄别质量；尽管MDPI也有SCI 2区的期刊，IEEE Access现在是3区，曾经是2区。

研究方向的关键词

知道了研究方向的关键词（Index Terms, Key Words）后，可以快速找论文看。以交通预测方向为例

交通流量预测： traffic flow prediction, traffic prediction/forecasting

多维时序预测： Multivariate Time Series (MTS) Forecasting

时序预测： Time Series Forecasting

时空数据（时空数据挖掘）： Spatial-Temporal (Data Mining)

开始写作

一篇IEEE Trans的结构

可以下载一份IEEE Trans期刊的Word模板来看。

├─Abstract, Index Terms
├─I.Introduction
├─II.Related Works
|   ├─A.[Related Works of This Field]
|   ├─B.[Related Works of Your Method]
|   ├─C.[Optional]
|   ├─D.[Optional]
├─III.Method (Methodology)
|   ├─A.Problem Formulation (Preliminaries)
|   ├─B.Framework Overview
|   ├─C.[Framework Part.1] Preprocessing & Data Embedding
|   ├─D.[...]
|   ├─E.[End of Framework] Decoders & Output
├─IV.Experiments
|   ├─A.Datasets
|   |   ├─1).Statistics (Details of each dataset)
|   |   ├─2).Data Splitting (6:2:2 or 7:2:1, with optional preprocessing)
|   ├─B.Experimental Settings
|   ├─C.Performance
|   |   ├─1).Eval Metrics(MAE, MAPE, RMSE, Recall)
|   |   ├─2).Baselines
|   |   ├─3).Benchmark
|   ├─D.Ablation Study
|   ├─E.[Optional] Comparisons of Computation Time
├─V.Conclusion

先做实验，再讲故事

做实验是不可能不失败的。

理想状态下的科研：

Idea产生->理论推导->写专利->做实验->投期刊/会议

但实验失败发生在上述链条中的倒数第二环，且经常发生，发生之后难以补救。

AI科研成本可以很低，小规模数据集一张2080Ti就能玩，ML基础和代码能力练好即可。可以这样调整CS.AI的科研模式：

Idea产生->改进主流模型->反复实验到效果能看->包装Idea（讲故事）->写期刊/会议论文->用小论文缩一篇专利来（可选）

动笔开始写

没跑出SOTA的数据之前，也可以练习写点东西。比如可以试着提前把小论文的Introduction和Realted Works（引言和文献综述部分）给写了。以下面两篇IEEE Trans为例：

Bidirectional Spatial-Temporal Adaptive Transformer for Urban Traffic Flow Forecasting

CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer

注意到两篇文章的II.Realted Works部分结束时，参考文献的标号都在40~50，也就是说把小论文的前两章写好大约需要粗读+精读文章的总数量大约是这么多，并且需要产生一些自己的理解（即使引用了也不可以完全抄，不然可能过不了查重系统）。

不推荐新手在共同作者没有IEEE Fellow的情况下，真的去写Survey（综述），顶刊的一篇Survey一般在200~300篇参考文献，全文双列排版大约20页。

另外，我个人认为在这个年代，一份双列排版、12页左右的期刊论文（专指Regular Papers），参考文献的数量应控制在50~70篇。

文献管理工具

用EndNote或NoteExpress吧，大部分学校会买的，在图书馆的网站上获取。图为EndNote。