نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی دکتری، گروه مدیریت ساخت و آب، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران
2 دانشیار، گروه مدیریت ساخت و آب، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران
3 دانشیار، گروه مرتع و آبخیزداری، دانشکده منابع طبیعی، دانشگاه ارومیه، ارومیه، ایران
4 استاد، گروه مهندسی آب، قطب علمی هیدروانفورماتیک، دانشکده مهندسی عمران، دانشگاه تبریز و شرکت فرازآب ( مهندسین مشاور) امور ارتقای توانمندی تحقیقات و تألیفات، تبریز، ایران
چکیده
مقدمه
پیشبینی دقیق جریان رودخانه برای مدیریت آب و کنترل سیلاب ضروری است. بهدلیل رفتار پیچیده و غیرخطی جریان، مدلهای سنتی کارایی لازم را ندارند. الگوریتمهای یادگیری ماشین و یادگیری عمیق راهحلهای پیشرفتهتری ارائه میدهند، اما دقت آنها تحت تأثیر نوسانات ناگهانی اقلیمی قرار میگیرد. از این رو، برای بهبود پیشبینی، بهکارگیری روشهای ترکیبی ضروری است. مرور پیشینه نشان میدهد که با وجود توانمندی بالای مدلهای یادگیری ماشین، همچنان شکاف تحقیقاتی در زمینه مدیریت نوسانات چندمقیاسی در دادههای جریان رودخانه وجود دارد. این موضوع، ضرورت بهکارگیری روشهای ترکیبی را برای افزایش دقت پیشبینی آشکار میسازد. نوآوری این پژوهش در ارائه یک چارچوب ترکیبی است که با ادغام تحلیل موجک برای تجزیه سیگنال جریان و یک مدل یادگیری عمیق قدرتمند، به طور همزمان الگوهای بلندمدت و نوسانات کوتاهمدت را مدلسازی میکند.
مواد و روشها
در این پژوهش، بهمنظور پیشبینی جریان رودخانه کورکورسر نوشهر، از دادههای هیدرولوژیکی شامل بارش روزانه و دبی جریان رودخانه در بازه زمانی ۲۰ ساله و سطح روزانه استفاده شد. متغیرهای ورودی شامل بارش روزانه (Pt) و دبی جریان با تاخیرهای زمانی یک، دو و سه روزه (Qt-1, Qt-2, Qt-3) بودند. پیش از انجام فرایند مدلسازی، پیشپردازش دادهها شامل بازسازی دادههای گمشده، حذف دادههای پرت (خارج از محدوده نرمال) و نرمالسازی مقادیر بهمنظور بهبود کیفیت دادهها و افزایش قابلیت اعتماد آنها در تحلیلهای هیدرولوژیکی انجام پذیرفت. در این پژوهش، دادههای حاصل از پایش جریان هیدرولوژیکی حوزه آبخیز به سه زیرمجموعه آموزش (۷۰ درصد)، اعتبارسنجی (۱۵ درصد) و آزمون (۱۵ درصد) تفکیک شد. چهار سناریوی پیشبینی جریان بر اساس تحلیل ضریب همبستگی پیرسون بهمنظور شناسایی متغیرهای حساس و تعیین ورودیهای مدلها انتخاب شدند. فرایند مدلسازی جریان رودخانه با بهرهگیری از دو الگوریتم یادگیری ماشین شامل جنگل تصادفی (RF) و شبکه عصبی بازگشتی یادگیری عمیق حافظه طولانی کوتاه مدت (LSTM) انجام شد. همچنین، بهمنظور افزایش دقت و بهبود قابلیت تعمیمپذیری مدلها، روشهای تبدیل موجکی متنوعی ازجمله موجک دابشیز نوع ۴ (Dabchiz 4)، موجک هار (Haar) و موجک کلاه مکزیکی (Mexican Hat) جهت استخراج ویژگیهای چندمقیاسی و ترکیب آنها با دادههای ورودی مدلهای RF و LSTM مورد استفاده قرار گرفتند. این رویکرد ترکیبی امکان شناسایی الگوهای زمانی-فضایی پیچیده در سریهای زمانی هیدرولوژیکی را تسهیل نمود. پس از اتمام فرایند ارزیابی نهایی عملکرد مدلهای پیشبینی، بهمنظور بهینهسازی ضرایب و فراسنجههای ساختاری آنها، تبدیل موجک دابشیز نوع 4 (Db4) به کار گرفته شد. شاخصهای ارزیابی عملکرد شامل ضریب تعیین (R²)، میانگین قدر مطلق خطا (MAE)، ریشه میانگین مربعات خطا (RMSE)، درصد نااریبی (PBIAS)، میانگین درصد قدر مطلق خطا (MAPE) و ضریب بهرهوری کلینگ-گوپتا (KGE) جهت سنجش دقیق بودن پیشبینیهای مدلها بهکاربرده شدند. درنهایت، انتخاب بهینهترین مدلها بر اساس تحلیل مقایسهای این معیارهای کمی انجام گرفت. همچنین، بهمنظور تجزیه و تحلیل دادهها و ارائه بصری نتایج، از نمودارهای پراکندگی، سریهای زمانی دادههای مشاهدهشده و پیشبینیشده، توزیع خطاها ازجمله هیستوگرام خطا، منحنی چگالی نرمال، تابع توزیع تجمعی خطا و نمودارهای چندک-چندک استفاده شد.
نتایج و بحث
نتایج نشان داد که در پیشبینی جریان رودخانه، گامهای قبلی (تأخیرهای مختلف) مهمترین متغیر در پیشبینی جریان تمام افقهای بعدی است. نتایج نهایی در خصوص سناریوهای مدل نشان داد که سناریوی اول (S1) که فقط از متغیر بارش (Qt) استفاده مینماید، در تمامی حالات بهعنوان ضعیفترین عملکرد در پیشبینی انتخاب شد. همچنین سناریوی ششم (S6) که از تمامی متغیرهای موجود بهره میبرد (Pt، Qt-1، Qt-2، Qt-3) دارای بهترین عملکرد در مرحله آموزش و آزمون برای مدلهای منفرد و ترکیبی بوده است. یافتههای پژوهش نشان داد که مدل ترکیبی جنگل تصادفی-موجک (RF-Wavelet) در دو حالت آموزش (R2=0.907، RMSE=0.0192) و آزمون (R2=0.942، RMSE=0.0106) دارای بهترین عملکرد بوده است. همچنین مدل منفرد یادگیری عمیق حافظه طولانی کوتاه مدت (LSTM) دارای ضعیفترین عملکرد در مرحله آموزش (R2=0.499، RMSE=1.6) و آزمون (R2=0.579، RMSE=1.149) بوده است. همچنین یافتهها نشان داد که مدل موجک دابشیز 4 توانسته است با ترکیب با مدل جنگل تصادفی حدود 55 درصد خطای مدل منفرد RF را کاهش دهد. همچنین مدل موجک در ترکیب با مدل LSTM توانسته است حدود 39 دقت پیشبینی را افزایش دهد. همچنین مقایسه مدلهای ترکیبی ترکیب شده با موجک نشان داد که مدل RF-Wavelet حدود 23 درصد نسبت به مدل ترکیبی LSTM-Wavelet خطای مدل را کاهش دهد.
نتیجهگیری
در این پژوهش، از مدلهای مختلف تبدیل موجک شامل موجک دابشیز ۴، موجک هار و موجک کلاه مکزیکی برای تلفیق با الگوریتمهای یادگیری ماشین RF و شبکههای LSTM بهرهبرداری شده است. تحلیلهای کمی و کیفی نشان داد که تبدیل موجک دابشیز ۴ در بهبود دقت پیشبینی جریان رودخانه نسبت به سایر انواع موجکها در هر دو چارچوب مدل RF و LSTM برتری معنیداری داشته است. ازاینرو، این نوع تبدیل موجک بهعنوان مبنای اصلی برای ادغام با این دو مدل پیشبینی انتخاب و مورد استفاده قرارگرفته است. بررسی الگوی توزیع خطا در دادههای آموزش نشاندهنده تمرکز عمده مقادیر خطا در نواحی مجاور صفر است. توزیع خطاها تقریباً بهصورت تقارن دوطرفه مشاهدهشده و سازگاری قابلتوجهی با توزیع نرمال از خود نشان داده است. این الگو بیانگر دقت مطلوب مدل در فرایند آموزش و برازش دادهها است. درنهایت، مطالعه مذکور به توسعه مدلهای مبتنی برداده بهمنظور تعیین بهینهترین ترکیب متغیرهای پیشبینیکننده برای مدلسازی و پیشبینی جریان رودخانه متمرکز شد. این پژوهش بهطور دقیقی نشان داد که ادغام تبدیل موجک دابشیز ۴ با مدل جنگل تصادفی RF بهعنوان رویکرد بهینه و برتر در پیشبینی جریانهای هیدرولوژیکی در مورد مطالعه حاضر عمل کرده است. مدل ترکیبی مذکور، علاوه بر ارتقاء قابلتوجه عملکرد نسبت به مدلهای تکمحوری، با کاهش خطای پیشبینی تا حدود ۵۵ درصد، برتری شاخصی نسبت به مدلهای پیچیده یادگیری عمیق، ازجمله LSTM و ترکیبات ترکیبی مرتبط نشان داده است. این دستاورد، اهمیت استخراج ویژگیهای چندمقیاسی و زمانی-فرکانسی با استفاده از تبدیل موجک را برجسته میسازد و بر نقش محوری آن در بهبود دقت و قابلیت تعمیم پیشبینی جریانهای هیدرولوژیکی، حتی در مقایسه با معماریهای پیشرفته مدلهای زمانی تأکید میکند.
کلیدواژهها
عنوان مقاله [English]
Applying wavelet-based machine learning and deep learning algorithms for streamflow prediction of the Kurkursar River
نویسندگان [English]
- Edris Merufinia 1
- Ahmad Sharafati 2
- Hirad Abghari 3
- Yousef Hassanzadeh 4
1 PhD student, Department of Civil Engineering, Science and Research Branch, Islamic Azad University, Tehran, Iran
2 Associate Professor, Department of Civil Engineering, Science and Research Branch, Islamic Azad University, Tehran, Iran
3 Associate Professor, Department of Range and Watershed Management, Urmia University, Urmia, Iran
4 Professor, Department of Water Engineering, Center of Excellence in Hydroinformatics, Faculty of Civil Engineering, University of Tabriz, and Farazab Co. (Consulting Engineers), Research and Writing Capacity Enhancement Affairs, Tabriz, Iran
چکیده [English]
Introduction
Accurate streamflow prediction is essential for water resources management and flood control. Due to the complex and nonlinear behavior of streamflow, traditional models are often inadequate. Machine learning and deep learning algorithms offer more robust solutions; however, their accuracy can be affected by sudden climatic fluctuations. Consequently, employing hybrid methods is necessary to improve prediction accuracy. The literature review reveals that, despite the high capabilities of machine learning models, a research gap still exists in managing multi-scale fluctuations in streamflow data. This underscores the necessity of using hybrid approaches to enhance prediction accuracy. The innovation of this study is a hybrid framework that simultaneously models both long-term patterns and short-term fluctuations by integrating wavelet analysis, used to decompose the streamflow signal, with a powerful deep learning model.
Materials and methods
In this study, to predict the streamflow of the Kurkursar River in Nowshahr, hydrological data including daily precipitation and river discharge over a 20-year period at a daily resolution were utilized. The input variables included daily precipitation (Pt) and streamflow with time lags of one, two, and three days (Qt−1, Qt−2, Qt−3). Before the modeling process, data preprocessing was performed, which included reconstructing missing data, removing anomalous data (outliers), and normalizing the values to improve data quality and enhance their reliability in hydrological analyses. The hydrological data from the watershed were divided into three subsets: training (70%), validation (15%), and testing (15%). Four streamflow prediction scenarios were selected based on Pearson correlation coefficient analysis to identify sensitive variables and determine the model inputs. The river streamflow modeling process was carried out using two algorithms: Random Forest (RF) and the deep learning Long Short-Term Memory (LSTM) recurrent neural network. Furthermore, to enhance the accuracy and improve the generalizability of the models, various wavelet transform methods, including Daubechies 4 (Db4), Haar, and Mexican Hat wavelets, were used to extract multi-scale features and combine them with the input data for the RF and LSTM models. This hybrid approach facilitated the identification of complex spatio-temporal patterns in the hydrological time series. After the final evaluation of the prediction models' performance, the Daubechies 4 (Db4) wavelet transform was employed to optimize their coefficients and structural parameters. Performance evaluation metrics, including the Coefficient of Determination (R²), Mean Absolute Error (MAE), Root Mean Square Error (RMSE), Percent Bias (PBIAS), Mean Absolute Percentage Error (MAPE), and Kling-Gupta Efficiency (KGE), were used to assess the accuracy of the models' predictions. Ultimately, the optimal models were selected based on a comparative analysis of these quantitative criteria. Additionally, for data analysis and visual presentation of the results, various plots were used, including scatter plots, time series of observed and predicted data, and error distributions such as error histograms, normal density curves, cumulative distribution functions of errors, and quantile-quantile (Q-Q) plots.
Results and discussion
The results showed that in streamflow prediction, previous time steps (different lags) were the most important variables for predicting all subsequent horizons. The final results regarding the model scenarios indicated that the first scenario (S1), which only used the precipitation variable, was the weakest performer in all cases. Furthermore, the sixth scenario (S6), which utilized all available variables (Pt,Qt−1,Qt−2,Qt−3), had the best performance in the training and testing phases for both standalone and hybrid models. The research findings indicated that the hybrid Random Forest-Wavelet (RF-Wavelet) model had the best performance in both the training (R²=0.907, RMSE=0.0192) and testing (R²=0.942, RMSE=0.0106) phases. Additionally, the standalone Long Short-Term Memory (LSTM) deep learning model had the weakest performance in the training (R²=0.499, RMSE=1.6) and testing (R²=0.579, RMSE=1.149) phases. The findings also showed that the Daubechies 4 wavelet , when combined with the Random Forest model, was able to reduce the error of the standalone RF model by approximately 55%. Additionally, the wavelet, when combined with the LSTM model, was able to increase the prediction accuracy by approximately 39%. Furthermore, a comparison of the wavelet-hybrid models showed that the RF-Wavelet model reduced the error by approximately 23% compared to the hybrid LSTM-Wavelet model.
Conclusion
In this research, various wavelet transform models, including Daubechies 4, Haar, and Mexican Hat, were utilized for integration with RF and LSTM algorithms. Quantitative and qualitative analyses showed that the Daubechies 4 wavelet transform had significant superiority in improving streamflow prediction accuracy compared to other wavelet types within both RF and LSTM model frameworks. Therefore, this type of wavelet transform was selected and used as the primary basis for integration with these two prediction models. Examination of the error distribution pattern in the training data indicates a major concentration of error values in regions adjacent to zero. The distribution of errors was observed to be approximately symmetrical and showed considerable consistency with a normal distribution. This pattern signifies the model's satisfactory accuracy in the training and data-fitting process. Ultimately, the present study focused on the development of data-driven models to determine the optimal combination of predictor variables for modeling and predicting river streamflow. This research demonstrated that integrating the Daubechies 4 wavelet transform with the Random Forest (RF) model served as the optimal and superior approach for predicting hydrological streamflow in the present case study. The aforementioned hybrid model, in addition to significantly enhancing performance compared to standalone models by reducing prediction error by up to 55%, showed notable superiority over complex deep learning models, including LSTM and its associated hybrid combinations. This achievement highlights the importance of extracting multi-scale time-frequency features using the wavelet transform and emphasizes its pivotal role in improving the accuracy and generalizability of hydrological streamflow predictions, even in comparison to advanced architectures of deep temporal models.
کلیدواژهها [English]
- Haar wavelet
- Mexican Hat wavelet
- Pearson correlation coefficient
- Random Forest
- Streamflow prediction