|
| ||||||||||||
| ||||||||||||
|
2007 г.
Конец архитектурной эпохи, или Наступило время полностью переписывать системы управления даннымиМайкл Стоунбрейкер, Сэмюэль Мэдден, Дэниэль Абади, Ставрос Харизопулос, Набил Хачем, Пат Хеллэнд Пересказ: Сергей Кузнецов Оригинал: Michael Stonebraker, Samuel Madden, Daniel J. Abadi, Stavros Harizopoulos, Nabil Hachem, Pat Helland. The End of an Architectural Era (It's Time for a Complete Rewrite). Proceedings of VLDB, 2007, Vienna, Austria 5. Сравнение производительностиTPC-C выполняется над схемой, показанной на рис. 1, и для этого тестового набора определяются пять классов транзакций (new_order, payment, order status, delivery и stock_level).
По причине ограниченности объема в этой статье не приводится код этих транзакций; читатели отсылаются к спецификации TPC-C [TPCC]. В табл. 1 резюмируется их поведение. Таблица 1. Классы транзакций TPC-C
Имеются три возможных подхода к эффективной реализации TPC-C на основе H-Store. Во-первых, этот тестовый набор можно было бы выполнить на компьютере с одним одноядерным процессором. Это автоматически привело бы к тому, что все классы транзакций стали бы одноузловыми, и каждая транзакция могла бы выполняться от начала до завершения в однопотоковой среде. В парном узле, обеспечивающем высокий уровень доступности, будет поддерживаться тот же порядок выполнения. Как будет показано немного ниже, все классы транзакций TPC-C могут быть сделаны строго двухфазными. Поэтому все транзакции в обоих узлах будут либо зафиксированы, либо аварийно прекращены. Следовательно, при работе системы в одном узле при наличии парного узла, обеспечивающего высокий уровень доступности, свойства ACID удается достичь без каких бы то ни было накладных расходов. Для использования компьютеров с одним или несколькими многоядерными процессорами требуется тщательное кодирование транзакций TPC-C для достижения их свойств стерильности или одноразового использования результатов и обеспечения функционирования без накладных расходов в многоузловой среде. Сначала авторы обсуждают разделение данных. Схема базы данных TPC-C не является древовидной. Такой ее делает наличие таблицы Item и связи между таблицами 5.1 Классы запросовВсе классы транзакций, кроме После применения основной стратегии разделения и репликации все пять классов транзакций оказываются стерильными. В связи с этим поводу авторы делают три наблюдения. Во-первых, транзакция В третьих, транзакцию Следовательно, все классы транзакций являются стерильными и строго двухфазными. По существу, уже это позволяет правильно выполнить TPC-C без какого-либо управления параллелизмом. Хотя можно было производить тестирование на этой конфигурации, авторы решили еще более повысить производительность, сделав все классы транзакций TPC-C классами с одноразовым использованием результатов. После применения основной стратегии все классы транзакций, кроме Таким образом, удается добиться того, что все классы транзакций становятся строго двухфазовыми классами с одноразовым использованием результатов. Если при обработке добавить короткую задержку, упоминавшуюся в подразделе 4.4, то свойства ACID достигаются без каких-либо накладных расходов. Последнее произведенное усовершенствование происходит из того наблюдения, что при наличии упомянутой выше схемы, приводящей к одноразовому использованию результатов, транзакции остаются стерильными. Для выполнения стерильных транзакций не требуется задержка, необходимая для безопасного выполнения транзакций с одноразовым использованием ресурсов. Таким образом, тестируемая конфигурация была стерильной, строго двухфазовой со схемой, приводящей к одноразовому использованию результатов. Трудно представить, чтобы какая-либо автоматическая программа смогла понять, что требуется для того, чтобы сделать классы транзакций TPC-C стерильными или классами с одноразовым использованием результатов. Эти классы транзакций пришлось бы кодировать знающему человеку. Однако авторам кажется, что большинство классов транзакций анализировать будет проще. Таким образом, успешность автоматического анализа классов транзакций является открытым вопросом. 5.2 РеализацияАвторы реализовали некоторый вариант TPC-C на H-Store и на очень популярной коммерческой РСУБД. Для обеих систем использовался один и тот же драйвер, генерирующий транзакции с наивысшей скоростью без моделирования времени на размышления. В обе системы транзакции доставлялись с использованием TCP/IP. Все классы транзакций реализовывались как хранимые процедуры. В H-Store логика транзакций кодировалась на C++, и для обращения к подсистеме выполнения запросов использовались локальные вызовы процедур. Для коммерческой системы логика транзакций программировалась с применением проприетарного языка хранимых процедур. Ни в одну из систем не включались средства высокой доступности и коммуникаций с терминалами пользователей. Обе СУБД запускались на компьютере с двухъядерным процессором, работающим на частоте в 2.8 Ггц, с 4 Гб основной памяти и четырьмя жесткими дисками SATA емкостью по 250 Гб. В обеих СУБД использовалось горизонтальное разделение данных. 5.3 РезультатыВ этой конфигурации на H-Store выполнялось 70416 транзакций TPC-C в секунду, а на коммерческой системе авторы смогли достичь скорости всего лишь в 850 транзакций в секунду, и для этого потребовалось несколько дней интенсивной работы профессионального администратора баз данных, специализирующегося на администрировании именно этого продукта. Тем самым, H-Store оказалась быстрее в 82 раза (почти на два порядка). В соответствии с предыдущими обсуждениями, приведенными в этой статье, узким местом коммерческих систем являются накладные расходы на журнализацию. В данном случае коммерческая система проводила 2/3 времени в подсистеме журнализации. Один из авторов статьи потратил много часов в попытках настроить подсистему журнализации (ведение журнального файла на выделенном диске, изменение размера записи о групповой фиксации; все, что было можно). При полном отключении журнализации и отсутствии других узких мест пропускная способность возрастала до 2500 транзакций в секунду. Как кажется авторам, следующим узким местом традиционной СУБД была подсистема управления параллелизмом. В будущих экспериментах они планируют выяснить, какой вклад в общие накладные расходы этой подсистемы вносят журнализация повторного выполнения операций, журнализация откатов, защелки (latching) и блокировки. Наконец, хотя авторы не реализовали полностью всю спецификацию TPC-C (например, они не моделировали время ожидания), они считают полезным сравнить свою частичную реализацию с данными об наилучших результатах прогонов TPC-C, представленными на Web-сайте TPC. Наилучшим результатом прогона эталонных тестов TPC-C является показатель 4 миллиона транзакций в минуту, или 133000 транзакций в секунду. Этот результат был получен на машине с разделяемой общей памятью и 128 процессорными ядрами, так что в этой реализации пришлось примерно 1000 транзакций в секунду на одно ядро. Рекомендуется сравнить этот результат с 425 транзакциями в секунду на одно ядро в коммерческой системе, выполняемой на небольшом настольном компьютере, и с 35000 транзакциями на одно ядро в H-Store! Результаты этого тестирования показывают, что на системе, разработанной в соответствии с принципами H-Store, можно добиться повышения производительности при выполнении тестов TPC-C примерно на два порядка величин. |
|
CITForum © 1997–2025