Paper的来源

Papers with Code

paperswithcode是一站式的门户网站,可访问包括机器学习模型、数据集、方法、评估表和代码在内的开源资源

各类出版社的数据库

IEEE Xplore,检索IEEE旗下期刊和会议的文章

ACM Digital Library,检索ACM旗下期刊和会议的文章(如ACM Transactions on Knowledge Discovery from Data,即TKDD,CCF-B类期刊)

ScienceDirect,出版商Elsevier(中文:爱思唯尔)的数据库,多学科门类

dblp & WoS

如果只是找文章,且只找计算机学科的英文文章,dblp比Web of Science更好用。

arXiv

arXiv是一个预印本(preprint)网站,上面的文章很多都没有经过同行评审,质量没有保证但容易发现很新很潮的东西(2023年7月:Retentive Network,2023年10月:Vision RetNet)。总体来说不适合初学者投入大量精力

评估Paper的好坏

SCI分区与CCF目录

中科院、JCR分区是各个学科比较通用的评估指标。计算机学科有其特殊性,会议的重要程度不容小觑。CCF目录应当作为重要参照。

CCF不能代表一切

International Conference on Learning Representations, 即ICLR,含金量相当于CCF-A会议

ICLR2018 - DCRNN,交通流量预测的经典Baseline之一,使用Bidirectional random walk来对空间依赖进行建模,使用encoder-decoder架构来对时间依赖进行建模;
再如ICLR2018 - GATs,Graph Attention Networks (GATs),即图注意力网络。

IEEE Transactions on Intelligent Vehicles,即T-IV,类似T-ITS(CCF-B期刊),IF也大差不差,也是智能交通领域的期刊(不在CCF目录)

T-IV上,一篇轨迹预测的综述A Survey on Trajectory-Prediction Methods for Autonomous Driving

(所以啊,像T大,就自己搞了个列表内部使用,替代CCF列表)

关于OA期刊

MDPI出版社旗下的期刊(Hindawi、MDPI与Frontiers合称开源出版商三巨头),和IEEE Access等,这些开源期刊中的文章质量方差比较大,学有余力的时候,从相关期刊上查找文献需要仔细甄别质量;尽管MDPI也有SCI 2区的期刊,IEEE Access现在是3区,曾经是2区。

研究方向的关键词

知道了研究方向的关键词(Index Terms, Key Words)后,可以快速找论文看。以交通预测方向为例

交通流量预测: traffic flow prediction, traffic prediction/forecasting

多维时序预测: Multivariate Time Series (MTS) Forecasting

时序预测: Time Series Forecasting

时空数据(时空数据挖掘): Spatial-Temporal (Data Mining)

开始写作

一篇IEEE Trans的结构

可以下载一份IEEE Trans期刊的Word模板来看。

├─Abstract, Index Terms
├─I.Introduction
├─II.Related Works
|   ├─A.[Related Works of This Field]
|   ├─B.[Related Works of Your Method]
|   ├─C.[Optional]
|   ├─D.[Optional]
├─III.Method (Methodology)
|   ├─A.Problem Formulation (Preliminaries)
|   ├─B.Framework Overview
|   ├─C.[Framework Part.1] Preprocessing & Data Embedding
|   ├─D.[...]
|   ├─E.[End of Framework] Decoders & Output
├─IV.Experiments
|   ├─A.Datasets
|   |   ├─1).Statistics (Details of each dataset)
|   |   ├─2).Data Splitting (6:2:2 or 7:2:1, with optional preprocessing)
|   ├─B.Experimental Settings
|   ├─C.Performance
|   |   ├─1).Eval Metrics(MAE, MAPE, RMSE, Recall)
|   |   ├─2).Baselines
|   |   ├─3).Benchmark
|   ├─D.Ablation Study
|   ├─E.[Optional] Comparisons of Computation Time
├─V.Conclusion

先做实验,再讲故事

做实验是不可能不失败的。

理想状态下的科研:

Idea产生->理论推导->写专利->做实验->投期刊/会议

但实验失败发生在上述链条中的倒数第二环,且经常发生,发生之后难以补救。

AI科研成本可以很低,小规模数据集一张2080Ti就能玩,ML基础和代码能力练好即可。可以这样调整CS.AI的科研模式:

Idea产生->改进主流模型->反复实验到效果能看->包装Idea(讲故事)->写期刊/会议论文->用小论文缩一篇专利来(可选)

动笔开始写

没跑出SOTA的数据之前,也可以练习写点东西。比如可以试着提前把小论文的Introduction和Realted Works(引言和文献综述部分)给写了。以下面两篇IEEE Trans为例:

Bidirectional Spatial-Temporal Adaptive Transformer for Urban Traffic Flow Forecasting

CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer

注意到两篇文章的II.Realted Works部分结束时,参考文献的标号都在40~50,也就是说把小论文的前两章写好大约需要粗读+精读文章的总数量大约是这么多,并且需要产生一些自己的理解(即使引用了也不可以完全抄,不然可能过不了查重系统)。

不推荐新手在共同作者没有IEEE Fellow的情况下,真的去写Survey(综述),顶刊的一篇Survey一般在200~300篇参考文献,全文双列排版大约20页。

另外,我个人认为在这个年代,一份双列排版、12页左右的期刊论文(专指Regular Papers),参考文献的数量应控制在50~70篇。

文献管理工具

用EndNote或NoteExpress吧,大部分学校会买的,在图书馆的网站上获取。图为EndNote。

最后更新于 2024-02-05